Suivez nous sur

Intelligence générale artificielle

Le paysage en évolution de l'IA générative : une enquête sur le mélange d'experts, la multimodalité et la quête de l'AGI

mm

Publié le

 on

Le domaine de l'intelligence artificielle (IA) a connu une croissance fulgurante en 2023. L'IA générative, qui se concentre sur la création de contenus réalistes comme des images, de l'audio, de la vidéo et du texte, a été à l'avant-garde de ces avancées. Des modèles tels que DALL-E 3, Stable Diffusion et ChatGPT ont démontré de nouvelles capacités créatives, mais ont également soulevé des préoccupations concernant l'éthique, les préjugés et les abus.

Alors que l’IA générative continue d’évoluer à un rythme rapide, la combinaison d’experts (MoE), l’apprentissage multimodal et les aspirations vers l’intelligence artificielle générale (AGI) semblent prêtes à façonner les prochaines frontières de la recherche et des applications. Cet article fournira une étude complète de l'état actuel et de la trajectoire future de l'IA générative, en analysant comment des innovations comme Gemini de Google et des projets attendus comme Q* d'OpenAI transforment le paysage. Il examinera les implications concrètes dans les domaines de la santé, de la finance, de l’éducation et d’autres domaines, tout en mettant en lumière les défis émergents liés à la qualité de la recherche et à l’alignement de l’IA sur les valeurs humaines.

La sortie de ChatGPT fin 2022 a spécifiquement suscité un regain d’enthousiasme et d’inquiétudes autour de l’IA, de ses impressionnantes prouesses en langage naturel à son potentiel de diffusion de fausses informations. Pendant ce temps, le nouveau modèle Gemini de Google démontre une capacité conversationnelle considérablement améliorée par rapport à ses prédécesseurs comme LaMDA grâce à des avancées telles que l'attention en pointe et en dalle. Des projets rumeurs comme Q* d'OpenAI suggèrent de combiner l'IA conversationnelle avec l'apprentissage par renforcement.

Ces innovations signalent une priorité croissante vers des modèles génératifs multimodaux et polyvalents. La concurrence continue également de s’intensifier entre des entreprises comme Google, Meta, Anthropic et Cohere, qui s’efforcent de repousser les limites du développement responsable de l’IA.

L'évolution de la recherche sur l'IA

À mesure que les capacités se sont développées, les tendances et les priorités de la recherche ont également changé, correspondant souvent à des jalons technologiques. L'essor de l'apprentissage profond a ravivé l'intérêt pour les réseaux de neurones, tandis que le traitement du langage naturel a explosé avec les modèles de niveau ChatGPT. Parallèlement, l’attention portée à l’éthique demeure une priorité constante malgré des progrès rapides.

Les référentiels de prépublications comme arXiv ont également connu une croissance exponentielle des soumissions d'IA, permettant une diffusion plus rapide mais réduisant l'examen par les pairs et augmentant le risque d'erreurs ou de biais non contrôlés. L’interaction entre la recherche et l’impact dans le monde réel reste complexe, ce qui nécessite des efforts plus coordonnés pour orienter les progrès.

MoE et systèmes multimodaux – La prochaine vague d’IA générative

Pour permettre une IA plus polyvalente et plus sophistiquée dans diverses applications, deux approches qui gagnent en importance sont le mélange d'experts (MoE) et l'apprentissage multimodal.

Les architectures MoE combinent plusieurs « experts » spécialisés en réseaux neuronaux optimisés pour différentes tâches ou types de données. Gemini de Google utilise MoE pour maîtriser à la fois les longs échanges conversationnels et les réponses concises aux questions. MoE permet de gérer une plus large gamme d’entrées sans augmenter la taille du modèle.

Les systèmes multimodaux comme Gemini de Google établissent de nouvelles références en traitant diverses modalités au-delà du simple texte. Cependant, pour réaliser le potentiel de l’IA multimodale, il faut surmonter les principaux obstacles techniques et défis éthiques.

Gemini : redéfinir les références en matière de multimodalité

Gemini est une IA conversationnelle multimodale, conçue pour comprendre les connexions entre le texte, les images, l'audio et la vidéo. Sa structure à double encodeur, son attention intermodale et son décodage multimodal permettent une compréhension contextuelle sophistiquée. On pense que Gemini dépasse les systèmes à encodeur unique en associant des concepts textuels à des régions visuelles. En intégrant des connaissances structurées et une formation spécialisée, Gemini surpasse ses prédécesseurs comme GPT-3 et GPT-4 dans :

  • Étendue des modalités traitées, y compris l'audio et la vidéo
  • Performances sur des benchmarks tels que la compréhension massive du langage multitâche
  • Génération de code dans tous les langages de programmation
  • Évolutivité via des versions sur mesure comme Gemini Ultra et Nano
  • Transparence grâce à la justification des résultats

Obstacles techniques dans les systèmes multimodaux

Réaliser une IA multimodale robuste nécessite de résoudre des problèmes de diversité, d’évolutivité, d’évaluation et d’interprétabilité des données. Des ensembles de données déséquilibrés et des incohérences d’annotation conduisent à des biais. Le traitement de plusieurs flux de données met à rude épreuve les ressources de calcul, exigeant des architectures de modèles optimisées. Des progrès dans les mécanismes d’attention et les algorithmes sont nécessaires pour intégrer des entrées multimodales contradictoires. Les problèmes d’évolutivité persistent en raison d’une surcharge de calcul importante. Il est crucial d’affiner les mesures d’évaluation grâce à des références complètes. Améliorer la confiance des utilisateurs via une IA explicable reste également vital. Il sera essentiel de surmonter ces obstacles techniques pour libérer les capacités de l’IA multimodale.

Les techniques d'apprentissage avancées telles que l'apprentissage auto-supervisé, le méta-apprentissage et le réglage fin sont à l'avant-garde de la recherche sur l'IA, améliorant l'autonomie, l'efficacité et la polyvalence des modèles d'IA.

Apprentissage auto-supervisé : autonomie dans la formation de modèles

L'apprentissage auto-supervisé met l'accent sur la formation de modèles autonomes à l'aide de données non étiquetées, réduisant ainsi les efforts d'étiquetage manuel et les biais du modèle. Il intègre des modèles génératifs tels que les auto-encodeurs et les GAN pour l'apprentissage de la distribution des données et la reconstruction des entrées, et utilise des méthodes contrastives telles que SimCLR et MoCo pour différencier les paires d'échantillons positives et négatives. Les stratégies d'auto-prédiction, inspirées de la PNL et améliorées par les récents Vision Transformers, jouent un rôle important dans l'apprentissage auto-supervisé, démontrant son potentiel dans l'avancement des capacités de formation autonome de l'IA.

Méta-apprentissage

Le méta-apprentissage, ou « apprendre à apprendre », vise à doter les modèles d'IA de la capacité de s'adapter rapidement à de nouvelles tâches en utilisant des échantillons de données limités. Cette technique est essentielle dans les situations où la disponibilité des données est limitée, car elle garantit que les modèles peuvent s'adapter et s'exécuter rapidement sur diverses tâches. Il met l’accent sur la généralisation en quelques étapes, permettant à l’IA de gérer un large éventail de tâches avec un minimum de données, soulignant ainsi son importance dans le développement de systèmes d’IA polyvalents et adaptables.

Mise au point : personnalisation de l'IA pour des besoins spécifiques

Le réglage fin implique d'adapter des modèles pré-entraînés à des domaines spécifiques ou aux préférences de l'utilisateur. Ses deux approches principales incluent le réglage fin de bout en bout, qui ajuste tous les poids de l'encodeur et du classificateur, et le réglage fin de l'extraction de caractéristiques, où les poids de l'encodeur sont gelés pour une classification en aval. Cette technique garantit que les modèles génératifs sont efficacement adaptés aux besoins spécifiques des utilisateurs ou aux exigences du domaine, améliorant ainsi leur applicabilité dans divers contextes.

Alignement des valeurs humaines : harmoniser l’IA avec l’éthique

L’alignement des valeurs humaines se concentre sur l’alignement des modèles d’IA sur l’éthique et les valeurs humaines, en garantissant que leurs décisions reflètent les normes sociétales et les standards éthiques. Cet aspect est crucial dans les scénarios où l’IA interagit étroitement avec les humains, comme dans les soins de santé et les assistants personnels, pour garantir que les systèmes d’IA prennent des décisions éthiquement et socialement responsables.

Développement AGI

AGI se concentre sur le développement d’une IA dotée d’une capacité de compréhension holistique et de raisonnement complexe, en adéquation avec les capacités cognitives humaines. Cette aspiration à long terme repousse continuellement les limites de la recherche et du développement en IA. AGI Safety and Containment aborde les risques potentiels associés aux systèmes d’IA avancés, en soulignant la nécessité de protocoles de sécurité rigoureux et d’un alignement éthique sur les valeurs humaines et les normes sociétales.

Le ministère de l’Environnement innovant

L'architecture du modèle Mixture of Experts (MoE) représente une avancée significative dans les modèles de langage basés sur des transformateurs, offrant une évolutivité et une efficacité inégalées. Les modèles MoE, comme Switch Transformer et Mixtral, redéfinissent rapidement l'échelle et les performances des modèles dans diverses tâches linguistiques.

Concept de base

Les modèles MoE utilisent une architecture axée sur la parcimonie avec plusieurs réseaux d'experts et un mécanisme de contrôle pouvant être entraîné, optimisant les ressources informatiques et s'adaptant à la complexité des tâches. Ils démontrent des avantages substantiels en termes de vitesse de pré-entraînement, mais sont confrontés à des défis de réglage fin et nécessitent une mémoire considérable pour l'inférence.

Les modèles MoE sont connus pour leur vitesse de pré-entraînement supérieure, avec des innovations telles que DeepSpeed-MoE optimisant l'inférence pour obtenir une meilleure latence et une meilleure rentabilité. Les progrès récents ont permis de résoudre efficacement le goulot d'étranglement de la communication entre tous, améliorant ainsi l'efficacité de la formation et de l'inférence.

Assembler les éléments constitutifs de l’intelligence générale artificielle

L’AGI représente la possibilité hypothétique que l’IA égale ou dépasse l’intelligence humaine dans n’importe quel domaine. Alors que l’IA moderne excelle dans des tâches restreintes, l’AGI reste lointaine et controversée compte tenu de ses risques potentiels.

Cependant, les progrès progressifs dans des domaines tels que l'apprentissage par transfert, la formation multitâche, la capacité conversationnelle et l'abstraction se rapprochent de la noble vision d'AGI. Le projet spéculatif Q* d'OpenAI vise à intégrer l'apprentissage par renforcement dans les LLM comme un autre pas en avant.

Limites éthiques et risques liés à la manipulation des modèles d’IA

Les jailbreaks permettent aux attaquants de contourner les limites éthiques fixées lors du processus de réglage fin de l'IA. Cela entraîne la génération de contenus nuisibles tels que la désinformation, les discours de haine, les e-mails de phishing et les codes malveillants, posant des risques pour les individus, les organisations et la société dans son ensemble. Par exemple, un modèle jailbreaké pourrait produire du contenu favorisant des récits controversés ou soutenant des activités cybercriminelles. (Apprendre encore plus)

Bien qu'aucune cyberattaque utilisant le jailbreak n'ait encore été signalée, plusieurs jailbreaks de preuve de concept sont facilement disponibles en ligne et en vente sur le dark web. Ces outils fournissent des invites conçues pour manipuler des modèles d'IA tels que ChatGPT, permettant potentiellement aux pirates de divulguer des informations sensibles via les chatbots de l'entreprise. La prolifération de ces outils sur des plateformes telles que les forums sur la cybercriminalité souligne l’urgence de lutter contre cette menace. (En savoir plus)

Atténuer les risques de jailbreak

Pour contrer ces menaces, une approche multidimensionnelle est nécessaire :

  1. Un réglage fin robuste: L’inclusion de données diverses dans le processus de réglage fin améliore la résistance du modèle aux manipulations contradictoires.
  2. Formation contradictoire: La formation avec des exemples contradictoires améliore la capacité du modèle à reconnaître et à résister aux entrées manipulées.
  3. Évaluation régulière: Le suivi continu des résultats permet de détecter les écarts par rapport aux directives éthiques.
  4. Surveillance humaine: L'implication d'évaluateurs humains ajoute une couche de sécurité supplémentaire.

Menaces alimentées par l'IA : l'exploitation des hallucinations

L’hallucination de l’IA, où les modèles génèrent des résultats non fondés sur leurs données d’entraînement, peut être transformée en arme. Par exemple, les attaquants ont manipulé ChatGPT pour recommander des packages inexistants, entraînant ainsi la propagation de logiciels malveillants. Cela souligne la nécessité d’une vigilance continue et de contre-mesures robustes contre une telle exploitation. (Explorez plus loin)

Même si l’éthique de la poursuite de l’AGI reste tendue, ses aspirations continuent d’influencer les orientations de la recherche sur l’IA générative – que les modèles actuels ressemblent à des tremplins ou à des détours sur la route vers une IA au niveau humain.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.