Intelligence artificielle
Chercheur principal pour Amazon Alexa soutient que le test de Turing est obsolète

Rohit Prasad, vice-président et chef scientifique d’Alexa chez Amazon, a récemment soutenu que le test de Turing, longtemps utilisé pour mesurer la sophistication des modèles d’IA, devrait être mis au rancart en tant que référence pour l’IA.
Le scientifique informatique et mathématicien Alan Turing a introduit à l’origine le concept du test de Turing il y a plus de 70 ans. L’intention du test de Turing était d’aider à répondre à la question de l’intelligence des machines, en déterminant si une machine était capable de « pensée » au sens humain. Pour répondre à cette question, Turing a soutenu que si les machines pouvaient exhiber un comportement conversationnel suffisamment sophistiqué pour qu’un observateur humain ne puisse pas discerner entre le dialogue de l’ordinateur et celui d’un humain, la machine devrait être considérée comme capable de pensée.
Limitations du test de Turing
Prasad a soutenu que le test de Turing est limité de nombreuses manières et que Turing lui-même a même remarqué certaines de ces limitations dans son article initial. À mesure que l’IA est de plus en plus intégrée à tous les aspects de notre vie, les gens se soucient moins du fait qu’elle est indiscernable d’un humain et plus du fait que leurs interactions avec l’IA soient sans heurts, soutient Prasad. Pour cette raison, le test de Turing devrait être considéré comme obsolète et remplacé par des références plus utiles.
Prasad a noté que de nombreux premiers chatbots ont été conçus pour passer le test de Turing, et que ces dernières années, certains chatbots ont réussi à tromper plus d’un tiers des juges humains (le seuil requis pour passer le test de Turing). Cependant, être capable de mimiquer avec succès les modèles de parole des humains ne signifie pas qu’une machine peut vraiment être considérée comme « intelligente ». Les modèles d’IA peuvent être extrêmement compétents dans un domaine et extrêmement défaillants dans d’autres, ne possédant aucune forme d’intelligence générale. Malgré cela, le test de Turing reste une référence couramment utilisée pour les chatbots et les assistants numériques, Prasad notant que les dirigeants d’entreprise et les journalistes demandent constamment quand Alexa sera capable de passer le test de Turing.
Selon Prasad, l’un des principaux problèmes avec l’utilisation du test de Turing pour évaluer l’intelligence des machines est qu’il décourage presque complètement la capacité des machines à rechercher des informations et à effectuer des calculs à la vitesse de l’éclair. Les programmes d’IA injectent des pauses artificielles en réponse à des questions de mathématiques et de géographie compliquées pour tromper les humains, mais ils ont une réponse à de telles questions presque instantanément. Au-delà de cela, le test de Turing ne prend pas en compte la capacité croissante des IA à utiliser des données collectées par des capteurs externes, ignorant comment les IA peuvent interagir avec le monde qui les entoure à travers des algorithmes de vision et de mouvement, en ne s’appuyant que sur la communication textuelle.
Création de nouvelles références
Prasad a soutenu que de nouvelles formes de mesure de l’intelligence devraient être créées, des méthodes qui soient mieux adaptées à l’évaluation d’un type d’intelligence général. Ces tests devraient refléter la façon dont l’IA est réellement utilisée dans la société moderne et les objectifs que les gens visent en l’utilisant. Les tests devraient être en mesure de déterminer à quel point un IA améliore l’intelligence humaine et à quel point l’IA améliore la vie quotidienne des gens. En outre, un test devrait comprendre comment un IA manifeste des caractéristiques humaines d’intelligence, notamment la maîtrise de la langue, l’auto-surveillance et le « bon sens ».
Les domaines actuels et importants de la recherche en IA, comme la raisonnement, l’équité, la conversation et la compréhension sensorielle, ne sont pas évalués par le test de Turing, mais ils peuvent être mesurés de diverses manières. Prasad a expliqué qu’une façon de mesurer ces caractéristiques d’intelligence est de diviser les défis en tâches constitutives. Une autre méthode d’évaluation consiste à créer un défi à grande échelle dans le monde réel pour l’interaction humain-ordinateur.
Lorsqu’Amazon a créé le prix Alexa, il a créé une rubrique qui obligeait les bots sociaux à discuter avec un humain pendant 20 minutes. Les bots seraient évalués sur leur capacité à converser de manière cohérente sur une large gamme de sujets tels que la technologie, les sports, la politique et le divertissement. Les clients étaient responsables de noter les bots pendant la phase de développement, en leur attribuant des scores en fonction de leur envie de discuter à nouveau avec le bot. Lors de la finale, des juges indépendants étaient responsables de noter les bots en utilisant une échelle de 5 points. La rubrique utilisée par les juges reposait sur des méthodes qui permettaient aux IA d’exhiber des attributs humains importants comme l’empathie lorsqu’elle était appropriée.
En fin de compte, Prasad a soutenu que la prolifération croissante des appareils alimentés par l’IA comme Alexa représente une opportunité importante de mesurer les progrès de l’IA, mais nous aurons besoin de différentes métriques pour profiter de cette nouvelle opportunité.
« De telles IA doivent être expertes dans un grand nombre de tâches, ce qui n’est possible qu’avec une capacité d’apprentissage plus généralisée au lieu d’une intelligence spécifique à une tâche », a expliqué Prasad. « Par conséquent, pour la prochaine décennie et au-delà, l’utilité des services d’IA, avec leurs capacités d’assistance conversationnelle et proactive sur les appareils ambiant, est un test digne ».






