Intelligence Artificielle
Les modèles d'IA peinent à lire l'horloge de base, tandis que les humains excellent

A étude approfondie Les tests de 11 modèles d'IA de pointe contre des humains pour la lecture d'horloges analogiques ont révélé une faiblesse surprenante des systèmes d'intelligence artificielle actuels. Alors que les humains ont atteint une précision de 89.1 % pour la lecture de l'heure, le modèle le plus performant de Google n'a atteint qu'une précision de 13.3 % lors du même test.
L'étude ClockBench, menée par le chercheur Alek Safar, démontre que même les systèmes d'IA les plus avancés peinent à réaliser des tâches visuelles que la plupart des gens maîtrisent dès l'enfance. Les systèmes de Google testés par le benchmark, OpenAI, Anthropique, et d'autres grands laboratoires d'IA utilisant 180 horloges analogiques conçues sur mesure.
Cela va au-delà des horloges. Les résultats mettent en évidence les limites fondamentales du traitement et du raisonnement des informations visuelles par les systèmes d'IA. « Lire des horloges analogiques impose un niveau élevé de raisonnement dans l'espace visuel », note Safar dans son article de recherche. Cette tâche nécessite que les modèles identifient les aiguilles d'une horloge, comprennent leurs relations et traduisent le positionnement visuel en temps numérique.
L'écart de performance devient encore plus frappant lorsqu'on examine les schémas d'erreur. Lorsque les humains commettaient des erreurs, l'erreur médiane n'était que de trois minutes. Les modèles d'IA, en revanche, rataient la cible d'une à trois heures, soit à peu près l'équivalent d'une estimation aléatoire sur une horloge de 12 heures.
Faiblesses spécifiques révélées
Les systèmes d’IA ont particulièrement rencontré des difficultés avec :
- Chiffres romains (précision de 3.2 %)
- Cadrans d'horloge en miroir ou à l'envers
- Arrière-plans colorés ou motifs complexes
- Horloges avec trotteuse nécessitant des lectures précises
Il est intéressant de noter que lorsque les modèles d'IA parvenaient à lire une horloge, ils obtenaient de bons résultats lors des tâches suivantes, comme l'ajout d'heure ou la conversion de fuseaux horaires. Cela suggère que le principal défi réside dans la reconnaissance visuelle initiale plutôt que dans le raisonnement mathématique.
Répartition des performances de l'industrie
Les modèles de Google ont mené le peloton, avec Gémeaux 2.5 Pro atteignant 13.3 % de précision et Gemini 2.5 Flash atteignant 10.5 %. GPT-5 d'OpenAI a obtenu un score de 8.4 %, tandis que celui d'Anthropic Claude les modèles ont enregistré des performances inférieures, avec Claude 4 Sonnet à 4.2 % et Claude 4.1 Opus à 5.6 %.
Grok 4 de xAI a affiché des résultats étonnamment médiocres avec une précision de 0.7 %, bien que cela soit dû au fait que le modèle a signalé à tort 63 % de toutes les horloges comme affichant des heures impossibles alors que seulement 20.6 % le faisaient réellement.

Source : Alek Safar
Implications plus larges pour le développement de l’IA
L'étude s'appuie sur l'approche de référence « facile pour les humains, difficile pour l'IA » observée dans des tests comme ARC-AGI et SimpleBench. Alors que les systèmes d’IA ont rapidement conquis des tâches à forte intensité de connaissances et ont même dépassé les performances humaines dans de nombreux tests standardisés, le raisonnement visuel de base reste problématique.
Les recherches suggèrent que les approches actuelles de mise à l'échelle pourraient ne pas résoudre les problèmes de raisonnement visuel. Safar émet l'hypothèse que les horloges analogiques pourraient être sous-représentées dans les données d'entraînement et que la traduction des représentations visuelles de l'horloge en texte pour le raisonnement crée des complications supplémentaires.
ClockBench rejoint une collection croissante de benchmarks conçus pour identifier les limites de l'IA qui ne sont pas immédiatement perceptibles lors des tests traditionnels. L'ensemble des données reste confidentiel afin d'éviter toute contamination des futurs entraînements de l'IA ; seuls de petits échantillons sont rendus publics à des fins de test.
Les résultats soulèvent des questions quant à savoir si les paradigmes de développement de l’IA existants peuvent combler ces lacunes en matière de raisonnement visuel ou si des approches entièrement nouvelles seront nécessaires – de la même manière que l’informatique au moment des tests a permis de réaliser des progrès dans d’autres domaines.
Pour l’instant, l’humble horloge analogique se dresse comme une forteresse inattendue contre l’intelligence artificielle, lisible par pratiquement n’importe quel humain mais déconcertant les systèmes d’IA les plus sophistiqués du monde.












