Suivez nous sur
Classe de maître IA :

AI 101

Qu'est-ce que l'Ensemble Learning ?

mm
Le kit de préparation mis à jour on

L’apprentissage d’ensemble est l’une des techniques d’apprentissage automatique les plus puissantes. Ensemble apprentissage est l'utilisation de plusieurs modèles d'apprentissage automatique pour améliorer la fiabilité et la précision des prédictions. Pourtant, comment l'utilisation de plusieurs modèles d'apprentissage automatique conduit-elle à des prédictions plus précises ? Quels types de techniques sont utilisés pour créer des modèles d'apprentissage d'ensemble ? Nous explorerons la réponse à ces questions, en examinant la justification de l'utilisation de modèles d'ensemble et les principaux moyens de créer des modèles d'ensemble.

Qu'est-ce que l'apprentissage d'ensemble ?

En termes simples, l'apprentissage d'ensemble est le processus de formation de plusieurs modèles d'apprentissage automatique et de combinaison de leurs sorties. Les différents modèles sont utilisés comme base pour créer un modèle prédictif optimal. La combinaison d'un ensemble diversifié de modèles d'apprentissage automatique individuels peut améliorer la stabilité du modèle global, conduisant à des prédictions plus précises. Les modèles d'apprentissage d'ensemble sont souvent plus fiables que les modèles individuels et, par conséquent, ils se classent souvent premiers dans de nombreuses compétitions d'apprentissage automatique.

Il existe différentes techniques qu'un ingénieur peut utiliser pour créer un modèle d'apprentissage d'ensemble. Les techniques d'apprentissage d'ensemble simples incluent des éléments tels que la moyenne des sorties de différents modèles, tandis qu'il existe également des méthodes et des algorithmes plus complexes développés spécialement pour combiner les prédictions de nombreux apprenants/modèles de base ensemble.

Pourquoi utiliser les méthodes d'entraînement Ensemble ?

Les modèles d'apprentissage automatique peuvent être différents les uns des autres pour diverses raisons. Différents modèles d'apprentissage automatique peuvent fonctionner sur différents échantillons de données de population, différentes techniques de modélisation peuvent être utilisées et une hypothèse différente peut être utilisée.

Imaginez que vous jouez à un jeu-questionnaire avec un grand groupe de personnes. Si vous êtes seul dans une équipe, il y a forcément des sujets sur lesquels vous avez des connaissances et de nombreux sujets dont vous n'avez aucune connaissance. Supposons maintenant que vous jouez dans une équipe avec d'autres personnes. Tout comme vous, ils auront une certaine connaissance de leurs propres spécialités et aucune connaissance d'autres sujets. Pourtant, lorsque vos connaissances sont combinées, vous avez des suppositions plus précises pour plus de domaines, et le nombre de sujets dont votre équipe manque de connaissances diminue. C'est le même principe qui sous-tend l'apprentissage d'ensemble, combinant les prédictions des différents membres de l'équipe (modèles individuels) pour améliorer la précision et minimiser les erreurs.

Les statisticiens ont prouvé que lorsqu'on demande à une foule de personnes de deviner la bonne réponse à une question donnée avec une gamme de réponses possibles, toutes leurs réponses forment une distribution de probabilité. Les personnes qui connaissent vraiment la bonne réponse choisiront la bonne réponse avec confiance, tandis que les personnes qui choisissent les mauvaises réponses répartiront leurs suppositions sur l'éventail des réponses incorrectes possibles. Pour en revenir à l'exemple d'un jeu-questionnaire, si vous et vos deux amis savez que la bonne réponse est A, vous voterez tous les trois A, tandis que les trois autres personnes de votre équipe qui ne connaissent pas la réponse risquent de se tromper devinez B, C, D ou E. Le résultat est que A a trois votes et que les autres réponses n'auront probablement qu'un ou deux votes maximum.

Tous les modèles ont une certaine quantité d'erreur. Les erreurs d'un modèle seront différentes des erreurs produites par un autre modèle, car les modèles eux-mêmes sont différents pour les raisons décrites ci-dessus. Lorsque toutes les erreurs sont examinées, elles ne seront pas regroupées autour d'une réponse ou d'une autre, mais plutôt dispersées. Les suppositions incorrectes sont essentiellement réparties sur toutes les mauvaises réponses possibles, s'annulant les unes les autres. Pendant ce temps, les suppositions correctes des différents modèles seront regroupées autour de la vraie réponse correcte. Lorsque des méthodes d'entraînement d'ensemble sont utilisées, la bonne réponse peut être trouvée avec une plus grande fiabilité.

Méthodes d'entraînement d'ensemble simples

Les méthodes simples d'entraînement d'ensemble impliquent généralement l'application de technique de résumé statistiques, comme la détermination du mode, de la moyenne ou de la moyenne pondérée d'un ensemble de prédictions.

Le mode fait référence à l'élément le plus fréquent dans un ensemble de nombres. Afin d'obtenir le mode, les modèles d'apprentissage individuels renvoient leurs prédictions et ces prédictions sont considérées comme des votes vers la prédiction finale. La détermination de la moyenne des prédictions se fait simplement en calculant la moyenne arithmétique des prédictions, arrondie à l'entier entier le plus proche. Enfin, une moyenne pondérée peut être calculée en attribuant différents poids aux modèles utilisés pour créer des prédictions, les poids représentant l'importance perçue de ce modèle. La représentation numérique de la prédiction de classe est multipliée par un poids de 0 à 1.0, les prédictions pondérées individuelles sont ensuite additionnées et le résultat est arrondi à l'entier le plus proche.

Méthodes avancées d'entraînement d'ensemble

Il existe trois principales techniques avancées de formation d'ensemble, chacune étant conçue pour traiter un type spécifique de problème d'apprentissage automatique. Techniques « d'ensachage » sont utilisés pour diminuer la variance des prédictions d'un modèle, la variance faisant référence à la différence entre le résultat des prédictions lorsqu'elles sont basées sur la même observation. Techniques de "boost" sont utilisés pour lutter contre le biais des modèles. Enfin, "empiler" est utilisé pour améliorer les prédictions en général.

Les méthodes d'apprentissage d'ensemble elles-mêmes peuvent généralement être divisées en deux groupes différents : les méthodes séquentielles et les méthodes d'ensemble parallèles.

Les méthodes d'ensemble séquentielles reçoivent le nom de "séquentielles" car les apprenants/modèles de base sont générés séquentiellement. Dans le cas des méthodes séquentielles, l'idée essentielle est que la dépendance entre les apprenants de base est exploitée afin d'obtenir des prédictions plus précises. Les exemples mal étiquetés voient leurs poids ajustés tandis que les exemples correctement étiquetés conservent les mêmes poids. Chaque fois qu'un nouvel apprenant est généré, les poids changent et la précision (espérons-le) s'améliore.

Contrairement aux modèles d'ensembles séquentiels, les méthodes d'ensembles parallèles génèrent les apprenants de base en parallèle. Lors de la réalisation d'un apprentissage d'ensemble parallèle, l'idée est d'exploiter le fait que les apprenants de base sont indépendants, car le taux d'erreur général peut être réduit en faisant la moyenne des prédictions des apprenants individuels.

Les méthodes de formation d'ensemble peuvent être de nature homogène ou hétérogène. La plupart des méthodes d'apprentissage d'ensemble sont homogènes, ce qui signifie qu'elles utilisent un seul type de modèle/algorithme d'apprentissage de base. En revanche, les ensembles hétérogènes utilisent différents algorithmes d'apprentissage, diversifiant et variant les apprenants pour s'assurer que la précision est aussi élevée que possible.

Exemples d'algorithmes d'apprentissage d'ensemble

Visualisation de l'amplification d'ensemble. Photo : Sirakorn via Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Des exemples de méthodes d'ensemble séquentiel comprennent AdaBoost, XGBoost, Amélioration de l'arbre dégradé. Ce sont tous des modèles boostés. Pour ces modèles de renforcement, l'objectif est de convertir les apprenants faibles et peu performants en apprenants plus puissants. Des modèles comme AdaBoost et XGBoost commencent avec de nombreux apprenants faibles qui fonctionnent à peine mieux que de deviner au hasard. Au fur et à mesure que la formation se poursuit, des pondérations sont appliquées aux données et ajustées. Les cas qui ont été mal classés par les apprenants lors des cycles de formation précédents reçoivent plus de poids. Une fois ce processus répété pour le nombre souhaité de cycles d'entraînement, les prédictions sont réunies via une somme pondérée (pour les tâches de régression) et un vote pondéré (pour les tâches de classification).

Le processus d'apprentissage de l'ensachage. Photo : SeattleDataGuy via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Un exemple de modèle d'ensemble parallèle est un Forêt aléatoire classificateur, et Random Forests est également un exemple de technique d'ensachage. Le terme « bagging » vient de « bootstrap aggregation ». Des échantillons sont prélevés sur l'ensemble de données total à l'aide d'une technique d'échantillonnage connue sous le nom d'"échantillonnage bootstrap", qui est utilisée par les apprenants de base pour faire des prédictions. Pour les tâches de classification, les sorties des modèles de base sont agrégées à l'aide du vote, tandis qu'elles sont moyennées ensemble pour les tâches de régression. Random Forests utilise des arbres de décision individuels comme apprenants de base, et chaque arbre de l'ensemble est construit à l'aide d'un échantillon différent de l'ensemble de données. Un sous-ensemble aléatoire de caractéristiques est également utilisé pour générer l'arbre. Conduisant à des arbres de décision individuels hautement aléatoires, qui sont tous combinés pour fournir des prédictions fiables.

Visualisation de l'empilement d'ensemble. Photo : Supun Setunga via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

En termes de techniques d'ensemble d'empilement, des modèles de régression ou de classification multiples sont combinés ensemble via un méta-modèle de niveau supérieur. Le niveau inférieur, les modèles de base, s'entraînent en alimentant l'ensemble de données complet. Les sorties des modèles de base sont ensuite utilisées comme caractéristiques pour former le méta-modèle. Les modèles d'ensemble d'empilement sont souvent de nature hétérogène.

Blogueur et programmeur spécialisé dans Machine Learning et L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.