580 Shares 1669 views

vision par ordinateur moderne. Tâches et de la technologie de vision par ordinateur. Programmation Vision informatique en Python

Comment apprendre à un ordinateur pour comprendre ce qui est représenté dans l'image ou des images? Cela semble simple, mais pour un ordinateur c'est juste une matrice constituée de zéros et ceux dont vous souhaitez extraire des informations importantes.

Quelle est la vision par ordinateur? Il est la capacité de « voir » votre ordinateur

Vision – est une source d'information importante pour la personne qui l'utilise, on obtient, selon diverses estimations, de 70 à 90% de toutes les informations. Et, bien sûr, si nous voulons créer une voiture intelligente, nous devons mettre en œuvre les mêmes compétences et l'ordinateur.

Le problème de la vision par ordinateur peut être dit très clairement. Qu'est-ce que « voir »? Il est entendu que là où il y a juste en regardant. Cela a conclu les différences de vision par ordinateur et la vision humaine. Vision pour nous – il est une source de connaissances sur le monde, ainsi qu'une source d'information métrique – à savoir, la capacité de comprendre les distances et les tailles.

image du noyau sémantique

En regardant la photo, nous pouvons le décrire par un certain nombre d'attributs, pour ainsi dire, pour extraire l'information sémantique.

Par exemple, en regardant cette image, on peut dire qu'il est à l'extérieur. Quel est le trafic urbain. Qu'il y ait des voitures. on peut deviner que c'est l'Asie du Sud-Est de la configuration du bâtiment et hiéroglyphique. Le portrait de Mao Zedong comprendre que ce Pékin, et si quelqu'un a vu la vidéo en direct ou lui-même avait été là, suppose que c'est la célèbre place Tiananmen.

Ce que nous pouvons en dire plus sur l'image, le voir? Nous pouvons identifier des objets dans l'image, à-dire qu'il ya des gens ici plus – clôture. Ici les parapluies, les affiches de ce bâtiment. Ce sont des exemples de classes est des objets très importants, qui sont engagés dans la recherche pour le moment.

Cependant, nous pouvons apprendre quelques-unes des caractéristiques ou attributs des objets. Par exemple, ici, nous pouvons déterminer que ce n'est pas un portrait d'un Chinois ordinaire, à savoir, Mao Zedong.

Selon le véhicule peut être déterminé qu'il est un objet en mouvement, et il est difficile, qui ne se déforme pas pendant le déplacement. À propos des indicateurs peut dire que les objets, ils sont en mouvement, mais ils ne sont pas difficiles, constamment déformés. Et dans la scène il y a le vent, qui peut être déterminé en développant des drapeaux, et peut même déterminer la direction du vent, par exemple, il souffle de gauche à droite.

Les distances et les longueurs dans la vision par ordinateur

Très important est l'information métrique sur la science de la vision par ordinateur. Ceci est toutes sortes de distances. Par exemple, pour le rover est particulièrement important parce que les équipes de la Terre à environ 20 minutes et répondent autant. Par conséquent, le lien et retour – 40 minutes. Et si nous faisons un plan pour les commandes de mouvement de la Terre, vous devez prendre en compte.

Intégré avec succès la technologie de vision par ordinateur dans les jeux vidéo. Selon la vidéo, vous pouvez créer des modèles en trois dimensions des objets, des personnes et des photos sur l'utilisateur peut restaurer les modèles en trois dimensions des villes. Et puis marcher sur eux.

vision par ordinateur – une gamme assez large. Elle est étroitement liée à d'autres sciences. Une partie de la vision par ordinateur Il capture la zone de traitement d'image et affecte parfois la vision par ordinateur, historiquement.

L'analyse, la reconnaissance des formes – le chemin de la création d'une intelligence supérieure

Examinons ces concepts séparément.

Traitement de l'image – c'est un domaine d'algorithmes, dans lequel l'entrée et la sortie – image, et nous l'avons fait quelque chose.

analyse d'images – est la zone de vision par ordinateur, qui met l'accent sur le travail avec l'image en deux dimensions et de tirer des conclusions de cette situation.

Reconnaissance – une discipline mathématique abstraite qui reconnaît les données sous forme de vecteurs. C'est, à l'entrée – vecteur et nous avons quelque chose à voir avec elle. Lorsque le vecteur est, nous ne sommes pas si important de savoir.

Vision par ordinateur – il était à l'origine pour restaurer la structure des images bidimensionnelles. Aujourd'hui, cette région est devenue plus large et il peut être interprété comme une acceptation de tous les objets physiques qui font, en fonction de l'image. À savoir, il est la tâche de l' intelligence artificielle.

Parallèlement à la vision par ordinateur dans un domaine complètement différent, en géodésie, photogrammétrie a évolué – une mesure de la distance entre les objets sur les images en deux dimensions.

Les robots peuvent « voir »

Et enfin – c'est la vision de la machine. Sous la vision de la machine signifie une vision des robots. Telle est la décision de certains problèmes de production. On peut dire que la vision par ordinateur est une grande science. Il combine une partie de l'autre partie de la science. Et quand la vision d'ordinateur est une application particulière, il se transforme en une vision de la machine.

zone de vision informatique a une masse d'applications pratiques. Elle est associée à l'automatisation de la production. Aux entreprises deviennent plus efficaces pour remplacer le travail manuel par la machine. La machine ne se fatigue pas, ne dort pas, elle avait l'horaire de travail irrégulier, elle est prête à travailler 365 jours par an. Ainsi, en utilisant le travail de la machine, nous pouvons obtenir un résultat garanti à un certain moment, et il est tout à fait intéressant. Toutes les tâches ont une utilisation claire pour les systèmes de vision par ordinateur. Et il n'y a rien de mieux que de voir les résultats immédiatement sur l'image que dans la phase de calcul.

Au seuil du monde de l'intelligence artificielle

De plus la région – il est difficile! Une partie importante du cerveau responsable de la vision, et on croit que si vous apprenez à votre ordinateur à « voir », qui est, la vision complète utilisation de l'ordinateur, il est l'un des objectifs de pleine intelligence artificielle. Si nous pouvons résoudre le problème sur le plan humain, très probablement en même temps, nous allons résoudre le problème de la grippe aviaire. C'est très bon! Ou pas très bon, si vous regardez, « Terminator 2 ».

Pourquoi est-vision – il est difficile? Parce que l'image du même objet peut varier considérablement en fonction de facteurs externes. En fonction de l'objet de points d'observation regard différent.

Par exemple, une seule et même figure, pris sous différents angles. Et ce qui est le plus intéressant dans la figure peut-être un œil, deux yeux et demi. Et en fonction du contexte (si cette image de l'homme dans une chemise avec les yeux peints), l'œil peut être plus de deux.

L'ordinateur ne comprend toujours pas, mais il « voit »

Un autre facteur qui rend difficile – il est l'éclairage. La même scène avec un éclairage différent sera différent. la taille de l'objet peut varier. De plus, les objets de toute catégorie. Comment pouvez-vous dire au sujet d'un homme que sa hauteur de 2 mètres? Rien. croissance humaine et peut être de 2,3 m et 80 cm. Comme avec d'autres types d'objets, cependant, sont des objets de la même classe.

objets particulièrement vivants sont soumis à une variété de souches. Cheveux personnes, des athlètes, des animaux. Regardez les photos des chevaux de course, de déterminer ce qui se passe avec leur crinière et la queue est tout simplement impossible. Un des objets qui se chevauchent dans une image? Si vous fourrer une image d'ordinateur, même la machine la plus puissante trouver la difficulté de donner la bonne décision.

Vue suivante – c'est un déguisement. Certains objets, les animaux se faisant passer pour l'environnement, et tout à fait habilement. Et les mêmes taches et la coloration. Néanmoins, nous les voyons, mais pas toujours de loin.

Un autre problème – le mouvement. Les objets en mouvement inimaginable subissent une déformation.

La plupart des objets sont très variables. Ici, par exemple, dans les deux photos ci-dessous les objets de la « chaise ».

Et sur ce que vous pouvez vous asseoir. Mais pour enseigner une machine, de sorte que les choses différentes dans la forme, la couleur, la matière, tout « chaise » est un objet – est très difficile. Tel est le défi. Pour intégrer les méthodes de vision par ordinateur – est d'enseigner une machine à comprendre, analyser, spéculer.

L'intégration de la vision par ordinateur dans différentes plates-formes

La masse de la vision par ordinateur a commencé à pénétrer plus en 2001, quand il a créé le premier détecteur de visage. Nous l'avons fait deux auteurs: Viola, Jones. Il a été le premier algorithme assez rapide et fiable, qui a démontré la puissance des méthodes d'apprentissage de la machine.

Maintenant, la vision par ordinateur ont assez de nouvelles applications pratiques – la reconnaissance du visage humain.

Mais reconnaître l'homme comme dans les films – à des angles aléatoires, les conditions d'éclairage différentes – il est impossible. Mais pour résoudre le problème, ou qui sont des gens différents avec un éclairage différent ou dans une pose différente, semblable à celle de la photographie dans le passeport, il est possible avec un haut degré de confiance.

une des exigences de photo de passeport en grande partie en raison de la caractéristique des algorithmes de reconnaissance faciale.

Par exemple, si vous avez un passeport biométrique, dans certains aéroports modernes, vous pouvez utiliser le système de contrôle des passeports automatique.

problème non résolu de la vision par ordinateur – la capacité de reconnaître un texte

Peut-être que quelqu'un a utilisé le système OCR. L'un d'eux – un lecteur bien, est très populaire dans le système RUNET. Il existe de nombreuses formes où vous remplissez les données, ils sont parfaitement scannés, l'information est reconnue par le système très bien. Mais avec tout texte dans l'image, la situation est bien pire. Ce problème reste non résolu.

Jeux impliquant la vision par ordinateur, la capture de mouvement

grande zone séparée – est la création de modèles en trois dimensions et la capture de mouvement (ce qui est tout à fait mis en œuvre avec succès dans les jeux informatiques). Le premier programme, qui utilise la vision par ordinateur – un système d'interaction avec l'ordinateur à l'aide de gestes. Quand il a été créé, il avait beaucoup de choses ouvertes.

L'algorithme est conçu tout simplement, mais pour configurer qu'il a fallu pour créer un générateur d'images de synthèse de personnes pour obtenir un million de photos. Superordinateur avec eux pour choisir les paramètres de l'algorithme, pour lequel il travaille maintenant bien.

C'est un temps de super-ordinateur dénombrable millions d'images et la semaine possible de créer un algorithme qui consomme 12% de la capacité d'un processeur et permet à une personne de percevoir la position en temps réel. Ce système Kinect de Microsoft (2010).

Recherche d'images par le contenu vous permet de télécharger des photos sur le système, et les résultats de celui-ci donnera toutes les images avec le même contenu et fait du même angle.

Exemples de vision par ordinateur: des cartes en trois dimensions et en deux dimensions sont actuellement en cours avec elle. Les cartes pour les voitures de navigation sont régulièrement mises à jour en fonction de l'enregistreur vidéo numérique.

Il y a une base de données avec des milliards de photos géolocalisées. En téléchargeant l'image dans la base de données, vous pouvez déterminer où il a été fait, et même avec une certaine perspective. Bien sûr, à condition que l'endroit est assez populaire que, à un moment les touristes et a fait un certain nombre de photos de la région ont été là.

robots sont partout

La robotique à l'heure actuelle, partout, sans en aucune façon. Maintenant, il y a des véhicules qui sont équipés de caméras spéciales qui reconnaissent les piétons et les panneaux de signalisation pour transmettre des commandes au pilote (ceci d'une manière un programme informatique pour voir, aide l'automobiliste). Et il y a un robot véhicules entièrement automatisés, mais ils ne peuvent pas compter uniquement sur le système de caméra vidéo sans l'utilisation d'une grande quantité d'informations supplémentaires.

caméra moderne – c'est une caméra analogique obscura

Parlons de l'image numérique. Des caméras numériques modernes sont disposées sur le principe de la caméra obscura. Seulement, au lieu du trou à travers lequel la lumière pénètre dans le faisceau et projeté sur la paroi arrière de la chambre du circuit en question, nous avons un système optique spécial appelé la lentille. Son objet est de recueillir un grand faisceau de lumière et le convertir en sorte que tous les rayons passent à travers un point virtuel de manière à obtenir la projection et former une image sur un film ou une matrice.

Des caméras numériques modernes (matrice) est composée d'éléments individuels – pixels. Chaque pixel peut mesurer l'énergie de la lumière incidente sur le total des pixels et délivre un numéro de sortie. Par conséquent, dans un appareil photo numérique, nous obtenons au lieu de la luminosité de l' image ensemble des mesures de lumière, prises dans un seul pixel – l'ordinateur champ de vision. Par conséquent, lorsque l'image que nous voyons ne coule pas des lignes et des contours clairs, et une grille de carrés de couleur en différentes couleurs – pixels.

Ci-dessous vous voyez la première image numérique dans le monde.

Mais dans cette image n'est pas? Couleur. Quelle est la couleur?

perception de la couleur psychologique

Couleur – c'est ce que nous voyons. La couleur de l'un et la même chose pour les humains et les chats seront différents. Étant donné que nous (les humains) et un système optique animaux – la vision est différente. Par conséquent, la couleur – c'est la qualité psychologique de notre vision qui se produit lors de l'observation des objets et de la lumière. Et non une propriété physique de l'objet et la lumière. Couleur – est le résultat de l'interaction des composants légers, et la scène de notre système visuel.

Programmation Vision informatique en Python à l'aide de bibliothèques

Si vous avez décidé d'engager sérieusement dans l'étude de la vision par ordinateur, devrait se préparer immédiatement à un certain nombre de difficultés, cette science est pas le plus facile et cache un certain nombre de pièges. Mais « Programmation Computer Vision sur le Python » l'auteur de Jan Erik Solema – un livre qui décrit toute la langue la plus simple. Ici, vous allez vous familiariser avec les méthodes de reconnaissance de divers objets en 3D, apprendre à travailler avec l'image stéréo, la réalité virtuelle et de nombreuses autres applications de vision par ordinateur. Dans le livre sont des exemples assez en Python. Mais les explications sont présentées, pour ainsi dire, généralisée, afin de ne pas surcharger trop de recherche et des données difficiles. Le travail adapté pour les étudiants, amateurs et passionnés. Téléchargez ce livre et d'autres au sujet de la vision par ordinateur (format pdf) peut être dans le réseau.

À l'heure actuelle, il y a la bibliothèque open source d'algorithmes de vision par ordinateur et traitement d'images et des algorithmes numériques OpenCV. Il est mis en œuvre sur la plupart des langages de programmation modernes, est open source. Si l'on parle de la vision par ordinateur, Python utilise comme langage de programmation, il a également le soutien de la bibliothèque, en plus, il est en constante évolution et a une grande communauté.

La société « Microsoft » offre ses services api-mesure de former le réseau de neurones à elle travailler avec des images de personnes. Il y a aussi la possibilité d'appliquer la vision informatique, Python utilise comme langage de programmation.