méthode du plus proche voisin: exemple de travail

la méthode du plus proche voisin est le plus facile classificateur métrique qui est basée sur l'évaluation de la similitude des différents objets.

Analysé objet appartient à la classe à laquelle ils appartiennent sujets de l'échantillon de formation. Laissez-nous savoir qui est le plus proche voisin. Essayez de comprendre la question complexe, des exemples de différentes techniques.

Procédé d'hypothèse

méthode du plus proche voisin peut être considéré comme l'algorithme le plus couramment utilisé pour le classement. Objet soumis à la classification appartient à la y_i de classe, à laquelle l'objet le plus proche apprentissage échantillon x_i.

La spécificité des méthodes les plus proches voisins

k méthode du plus proche voisin peut améliorer la précision de la classification. Analysé objet appartient à la même classe que la majeure partie de ses voisins, à savoir, k près de lui des objets de l'échantillon analysé x_i. Dans la résolution de problèmes avec deux classes du nombre de voisins sera étrange pour éviter une situation d'ambiguïté, si le même nombre de voisins appartiendra à différentes classes.

La technique des voisins suspendus

méthode analysée Postgresql plus proches voisins tsvector est utilisé lorsque le nombre de classes au moins trois, et vous ne pouvez pas utiliser un nombre impair. Mais l'ambiguïté se pose même dans ces cas. Ensuite, le voisin ieme obtient poids w_i, ce qui diminue avec le rang voisin i. Il fait référence à la classe de l'objet, ce qui aura un poids total maximum entre voisins proches.

L'hypothèse de compacité

Au cœur de toutes les méthodes ci-dessus est l'hypothèse de compacité. Il suggère un lien entre la mesure de la similitude des objets et leur appartenance à la même classe. Dans cette situation, la frontière entre les différents types est une forme simple, et de créer des classes d'objets dans la zone mobile compact de l'espace. Dans ces domaines dans l'analyse mathématique pour signifier un ensemble fermé borné. Cette hypothèse est pas liée à la perception quotidienne du mot.

La formule de base

Examinons plus proche voisin. Si le type d'échantillon de formation proposé « réponse d'objet» X ^ m = {(x 1, y_1), points, (x_m, y_m) }; si une pluralité d'objets pour définir la fonction de la distance rho (x, x « ), qui est représenté sous la forme d'une similarité de modèle adéquat d'objets en augmentant la valeur de la fonction diminue similarité entre les objets x, x ».

Pour tout objet, u construire un échantillon de formation objets x_i avec plus en plus loin u:

Rho (u, x_ {1; u}) leq rho (u, x_ {2; u}) leq cdots leq rho (u, x_ {m; u}),

où x_ {i; u} caractérise l'échantillon d'apprentissage de l'objet, qui est i-ième objet source voisin u. Une telle notation et utiliser pour répondre à i-ème voisin: y_ {i; u}. En conséquence, nous constatons que tout objet u provoque renumérotation propre échantillon.

Détermination du nombre k de voisins

méthode du plus proche voisin quand k = 1 est capable de donner une classification erronée, non seulement sur les objets-émissions, mais aussi pour d'autres classes qui sont proches.

Si l'on prend k = m, l'algorithme sera aussi stable et dégénérer en une valeur constante. Voilà pourquoi la fiabilité est important d'éviter extrêmes indices k.

Dans la pratique, l'indice optimal k utilisé commande de glissement critère.

projections des émissions

Les objets d'étude sont en grande partie inégale, mais parmi eux, il y a ceux qui ont les caractéristiques d'une classe et sont appelées normes. A proximité du sujet au modèle idéal de sa forte probabilité d'appartenir à cette classe.

Comment la méthode rezultativen des voisins les plus proches? Un exemple peut être vu sur la base des catégories périphériques et non d'objets d'information. On suppose environnement dense de l'objet d'autres représentants de cette classe. Lorsque vous les supprimer de la classification de l'échantillonnage de la qualité ne souffrira pas.

Entrez dans un certain nombre d'échantillons peuvent bursts de bruit qui sont « sur le terrain » d'une classe. Suppression de l'impact largement positif sur la qualité de la classification.

Si l'échantillon prélevé dans les uninformative et éliminer les objets sonores, vous pouvez compter sur quelques résultats positifs en même temps.

La première méthode d'interpolation de la classification du plus proche voisin permet d'améliorer la qualité, réduire la quantité de données stockées, réduire le temps de la classification, qui est passé sur le choix des normes à venir.

L'utilisation d'échantillons ultra-large

méthode du plus proche voisin est basée sur le stockage réel des objets d'apprentissage. Pour créer des échantillons très grande échelle à l'aide d'un problème technique. L'objectif est non seulement d'économiser une quantité importante d'informations, mais aussi dans la quantité minimum de temps pour avoir le temps de trouver un objet u k parmi les plus proches voisins.

Pour faire face à cette tâche, deux méthodes sont utilisées:

  • échantillon amincie par l'intermédiaire d'une décharge des objets non-données;
  • structure de données d'utilisation efficace spéciale et des codes pour la recherche instantanée des voisins les plus proches.

Règles de méthodes de sélection

La classification ci-dessus a été considéré. Méthode du plus proche voisin est utilisé dans la résolution de problèmes pratiques, qui est connu à l'avance la fonction la distance rho (x, x « ). Dans les objets qui décrivent des vecteurs numériques utilisent une métrique euclidienne. Ce choix n'a aucune justification particulière, mais implique la mesure de tous les signes « dans la même échelle. » Si ce facteur est pas pris en compte, alors la métrique prédominera caractéristique ayant les plus élevées des valeurs numériques.

S'il y a une quantité importante de caractéristiques, le calcul de la distance que la somme des écarts sur les symptômes spécifiques apparaissent dimension grave problème.

Dans l'espace de grande dimension éloignée de l'autre sera tous les objets. En fin de compte, tout échantillon sera à côté de l'objet étudié k voisins. sélectionné un petit nombre de fonctionnalités d'information pour éliminer ce problème. Les algorithmes de calcul des estimations reposent sur la base des différents ensembles de signes, et pour chaque individu construire leur fonction de proximité.

conclusion

Les calculs mathématiques impliquent souvent l'utilisation d'une variété de techniques qui ont leurs propres caractéristiques, avantages et inconvénients. méthode du plus proche voisin peut résoudre un vue très grave problème, en raison des caractéristiques des objets mathématiques. Le concept expérimental, sur la base du procédé analysé est activement utilisé dans l'intelligence artificielle.

Dans les systèmes experts, il est nécessaire non seulement de classer les objets, mais aussi montrer à l'utilisateur une explication de la classification en question. Dans cette méthode, une explication de ce phénomène sont exprimés par rapport à l'objet d'une classe particulière, ainsi que son emplacement par rapport à l'échantillon utilisé. spécialistes de l'industrie juridique, les géologues, les médecins, prennent cette logique « précédent » utiliser activement dans leurs recherches.

Pour être analysé la méthode était la plus fiable, efficace, donnant les résultats souhaités, vous devez prendre un k chiffre minimum, tout aussi éviter les émissions entre les objets analysés. Voilà pourquoi l'utilisation des normes et la méthode de sélection, ainsi que les mesures d'optimisation.