Suivez nous sur
Classe de maître IA :

AI 101

Qu'est-ce que la vision par ordinateur ?

mm
Le kit de préparation mis à jour on

Qu'est-ce que la vision par ordinateur ?

Les algorithmes de vision par ordinateur sont actuellement l’un des systèmes d’IA les plus transformateurs et les plus puissants au monde. Systèmes de vision par ordinateur voir l'utilisation dans les véhicules autonomes, la navigation robotique, les systèmes de reconnaissance faciale, etc. Cependant, que sont exactement les algorithmes de vision par ordinateur ? Comment travaillent-ils? Afin de répondre à ces questions, nous approfondirons la théorie de la vision par ordinateur, les algorithmes de vision par ordinateur et les applications des systèmes de vision par ordinateur.

Comment fonctionnent les systèmes de vision par ordinateur ?

Afin d'apprécier pleinement le fonctionnement des systèmes de vision par ordinateur, prenons d'abord un moment pour discuter de la façon dont les humains reconnaissent les objets. La meilleure explication que la neuropsychologie a de la façon dont nous reconnaissons les objets est un modèle qui décrit la phase initiale de reconnaissance d'objets comme un système dans lequel les composants de base des objets, tels que la forme, la couleur et la profondeur, sont d'abord interprétés par le cerveau. Les signaux de l'œil qui pénètrent dans le cerveau sont analysés pour extraire d'abord les bords d'un objet, et ces bords sont réunis pour former une représentation plus complexe qui complète la forme de l'objet.

Les systèmes de vision par ordinateur fonctionnent de manière très similaire au système visuel humain, en discernant d'abord les bords d'un objet, puis en joignant ces bords ensemble dans la forme de l'objet. La grande différence est que, comme les ordinateurs interprètent les images comme des nombres, un système de vision par ordinateur a besoin d'un moyen d'interpréter les pixels individuels qui composent l'image. Le système de vision par ordinateur attribue des valeurs aux pixels de l'image et en examinant la différence de valeurs entre une région de pixels et une autre région de pixels, l'ordinateur peut discerner les bords. Par exemple, si l'image en question est en niveaux de gris, les valeurs iront du noir (représenté par 0) au blanc (représenté par 255). Un changement soudain dans la plage de valeurs des pixels proches les uns des autres indiquera un bord.

Ce principe de base de comparaison des valeurs de pixels peut également être appliqué à des images colorées, l'ordinateur comparant les différences entre les différents canaux de couleur RVB. Sachez donc que nous savons comment un système de vision par ordinateur examine les valeurs des pixels pour interpréter une image, examinons l'architecture d'un système de vision par ordinateur.

Réseaux de neurones convolutifs (CNN)

Le principal type d'IA utilisé dans les tâches de vision par ordinateur est un basé sur les réseaux de neurones convolutifs. Qu'est-ce qu'une convolution exactement ?

Les convolutions sont des processus mathématiques que le réseau utilise pour déterminer la différence de valeurs entre les pixels. Si vous envisagez une grille de valeurs de pixels, imaginez une grille plus petite déplacée sur cette grille principale. Les valeurs sous la deuxième grille sont analysées par le réseau, de sorte que le réseau n'examine qu'une poignée de pixels à la fois. C'est ce qu'on appelle souvent la technique des "fenêtres coulissantes". Les valeurs analysées par la fenêtre glissante sont résumées par le réseau, ce qui permet de réduire la complexité de l'image et de faciliter l'extraction des motifs par le réseau.

Les réseaux de neurones convolutifs sont divisé en deux sections différentes, la section convolutive et la section entièrement connexe. Les couches convolutionnelles du réseau sont les extracteurs de caractéristiques, dont le travail consiste à analyser les pixels dans l'image et à en former des représentations dont les couches densément connectées du réseau neuronal peuvent apprendre des modèles. Les couches convolutionnelles commencent par simplement examiner les pixels et extraire les caractéristiques de bas niveau de l'image comme les bords. Des couches convolutives ultérieures relient les bords en des formes plus complexes. À la fin, le réseau aura, espérons-le, une représentation des bords et des détails de l'image qu'il pourra transmettre aux couches entièrement connectées.

Image Annotation

Alors qu'un réseau neuronal convolutif peut extraire lui-même des motifs à partir d'images, la précision du système de vision par ordinateur peut être considérablement améliorée en annotant les images. Annotation d'images est le processus d'ajout de métadonnées à l'image qui aide le classificateur à détecter les objets importants dans l'image. L'utilisation de l'annotation d'images est importante chaque fois que les systèmes de vision par ordinateur doivent être très précis, comme lors du contrôle d'un véhicule autonome ou d'un robot.

Les images peuvent être annotées de différentes manières pour améliorer les performances d'un classificateur de vision par ordinateur. L'annotation d'image est souvent effectuée avec des boîtes englobantes, une boîte qui entoure les bords de l'objet cible et indique à l'ordinateur de concentrer son attention à l'intérieur de la boîte. La segmentation sémantique est un autre type d'annotation d'image, qui fonctionne en attribuant une classe d'image à chaque pixel d'une image. En d'autres termes, chaque pixel qui pourrait être considéré comme "herbe" ou "arbres" sera étiqueté comme appartenant à ces classes. La technique fournit une précision au niveau du pixel, mais la création d'annotations de segmentation sémantique est plus complexe et prend plus de temps que la création de simples cadres de délimitation. D'autres méthodes d'annotation, comme les lignes et les points, existent également.

Blogueur et programmeur spécialisé dans Machine Learning et L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.