Suivez nous sur
Classe de maître IA :

AI 101

Que sont les réseaux de neurones ?

mm
Le kit de préparation mis à jour on

Que sont les réseaux de neurones artificiels (ANN) ?

Bon nombre des plus grandes avancées de l'IA sont piloté par des réseaux de neurones artificiels. Les réseaux de neurones artificiels (ANN) sont la connexion de fonctions mathématiques réunies dans un format inspiré des réseaux de neurones présents dans le cerveau humain. Ces ANN sont capables d'extraire des modèles complexes à partir de données, en appliquant ces modèles à des données invisibles pour classer/reconnaître les données. De cette façon, la machine « apprend ». Ceci est un bref aperçu des réseaux de neurones, mais examinons de plus près les réseaux de neurones pour mieux comprendre ce qu'ils sont et comment ils fonctionnent.

Perceptron multicouche expliqué

Avant d'examiner des réseaux de neurones plus complexes, nous allons prendre un moment pour examiner une version simple d'un ANN, un Perceptron Multi-Couches (MLP).

Imaginez une chaîne de montage dans une usine. Sur cette chaîne de montage, un ouvrier reçoit un article, y apporte quelques ajustements, puis le transmet au prochain ouvrier de la chaîne qui fait de même. Ce processus se poursuit jusqu'à ce que le dernier ouvrier de la chaîne apporte la touche finale à l'article et le place sur un tapis qui le sortira de l'usine. Dans cette analogie, il y a plusieurs « couches » dans la chaîne de montage, et les produits se déplacent entre les couches lorsqu'ils se déplacent d'un travailleur à l'autre. La chaîne de montage a également un point d'entrée et un point de sortie.

Un Perceptron multicouche peut être considéré comme une ligne de production très simple, composée de trois couches au total : une couche d'entrée, une couche cachée et une couche de sortie. La couche d'entrée est l'endroit où les données sont introduites dans le MLP, et dans la couche cachée, un certain nombre de "travailleurs" gèrent les données avant de les transmettre à la couche de sortie qui donne le produit au monde extérieur. Dans le cas d'un MLP, ces travailleurs sont appelés «neurones» (ou parfois nœuds) et lorsqu'ils manipulent les données, ils les manipulent via une série de fonctions mathématiques.

Au sein du réseau, il existe des structures reliant nœud à nœud appelées "poids”. Les pondérations sont une hypothèse sur la façon dont les points de données sont liés lorsqu'ils se déplacent sur le réseau. Autrement dit, les poids reflètent le niveau d'influence qu'un neurone a sur un autre neurone. Les poids passent par une "fonction d'activation" lorsqu'ils quittent le nœud actuel, qui est un type de fonction mathématique qui transforme les données. Ils transforment les données linéaires en représentations non linéaires, ce qui permet au réseau d'analyser des modèles complexes.

L'analogie avec le cerveau humain impliquée par le « réseau de neurones artificiels » vient du fait que les neurones qui composent le cerveau humain sont reliés entre eux de la même manière que les nœuds d'un RNA sont liés.

Alors que les perceptrons multicouches existent depuis les années 1940, il y avait un certain nombre de limitations qui les empêchaient d'être particulièrement utiles. Cependant, au cours des deux dernières décennies, une technique appelée "rétropropagation" a été créé qui a permis aux réseaux d'ajuster le poids des neurones et ainsi d'apprendre beaucoup plus efficacement. La rétropropagation modifie les poids dans le réseau neuronal, permettant au réseau de mieux capturer les modèles réels au sein des données.

Réseaux neuronaux profonds

Les réseaux de neurones profonds prennent la forme de base du MLP et l'agrandissent en ajoutant plus de couches cachées au milieu du modèle. Ainsi, au lieu d'avoir une couche d'entrée, une couche cachée et une couche de sortie, il y a de nombreuses couches cachées au milieu et les sorties d'une couche cachée deviennent les entrées de la couche cachée suivante jusqu'à ce que les données aient fait tout le chemin à travers le réseau et ont été retournés.

Les multiples couches cachées d'un réseau neuronal profond sont capables d'interpréter des modèles plus complexes que le perceptron multicouche traditionnel. Différentes couches du réseau neuronal profond apprennent les modèles de différentes parties des données. Par exemple, si les données d'entrée sont constituées d'images, la première partie du réseau peut interpréter la luminosité ou l'obscurité des pixels tandis que les couches ultérieures sélectionnent les formes et les bords qui peuvent être utilisés pour reconnaître les objets dans l'image.

Différents types de réseaux de neurones

Il existe différents types de réseaux de neurones, et chacun des différents types de réseaux de neurones a ses propres avantages et inconvénients (et donc ses propres cas d'utilisation). Le type de réseau neuronal profond décrit ci-dessus est le type de réseau neuronal le plus courant, et il est souvent appelé réseau neuronal à anticipation.

Une variante des réseaux de neurones est le réseau de neurones récurrents (RNN). Dans le cas des réseaux de neurones récurrents, les mécanismes de boucle sont utilisés pour conserver les informations des états d'analyse précédents, ce qui signifie qu'ils peuvent interpréter les données là où l'ordre compte. Les RNN sont utiles pour dériver des modèles à partir de données séquentielles/chronologiques. Les réseaux de neurones récurrents peuvent être unidirectionnels ou bidirectionnels. Dans le cas d'un réseau neuronal bidirectionnel, le réseau peut extraire des informations de parties ultérieures de la séquence ainsi que de parties antérieures de la séquence. Étant donné que le RNN bidirectionnel prend en compte davantage d’informations, il est mieux à même de tirer les bons modèles à partir des données.

Un réseau neuronal convolutif est un type spécial de réseau neuronal capable d’interpréter les modèles trouvés dans les images. Un CNN fonctionne en passant un filtre sur les pixels de l'image et en obtenant une représentation numérique des pixels dans l'image, qu'il peut ensuite analyser à la recherche de modèles. Un CNN est structuré de manière à ce que les couches convolutives qui extraient les pixels de l'image viennent en premier, puis les couches de rétroaction densément connectées, celles qui apprendront réellement à reconnaître les objets, viennent après.

Blogueur et programmeur spécialisé dans Machine Learning et L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.