Suivez nous sur

Intelligence artificielle

L'essor des unités de traitement neuronal : améliorer l'IA générative sur l'appareil pour plus de rapidité et de durabilité

mm
Le kit de préparation mis à jour on

L'évolution de la IA générative ne remodèle pas seulement notre interaction et nos expériences avec les appareils informatiques, il redéfinit également le cœur de l'informatique. L’un des principaux moteurs de la transformation est la nécessité d’exploiter l’IA générative sur des appareils dotés de ressources informatiques limitées. Cet article aborde les défis que cela présente et comment unités de traitement neuronal (NPU) émergent pour les résoudre. De plus, l'article présente certains des derniers processeurs NPU qui ouvrent la voie dans ce domaine.

Défis de l’infrastructure d’IA générative sur appareil

L’IA générative, moteur de la synthèse d’images, de la génération de texte et de la composition musicale, nécessite des ressources informatiques considérables. Traditionnellement, ces demandes ont été satisfaites en tirant parti des vastes capacités des plateformes cloud. Bien qu’efficace, cette approche comporte son propre ensemble de défis pour l’IA générative sur les appareils, notamment le recours à une connectivité Internet constante et à une infrastructure centralisée. Cette dépendance introduit une latence, des vulnérabilités en matière de sécurité et une consommation d'énergie accrue.

L'épine dorsale du cloud Infrastructure d'IA repose en grande partie sur les unités centrales de traitement (CPU) et unités de traitement graphique (GPU) pour gérer les exigences informatiques de l’IA générative. Cependant, lorsqu’ils sont appliqués à l’IA générative intégrée aux appareils, ces processeurs se heurtent à des obstacles importants. Les processeurs sont conçus pour des tâches générales et ne disposent pas de l'architecture spécialisée nécessaire pour une exécution efficace et à faible consommation des charges de travail d'IA générative. Leurs capacités limitées de traitement parallèle entraînent un débit réduit, une latence accrue et une consommation d’énergie plus élevée, ce qui les rend moins idéales pour l’IA sur appareil. D’un autre côté, même si les GPU peuvent exceller dans le traitement parallèle, ils sont principalement conçus pour les tâches de traitement graphique. Pour effectuer efficacement les tâches d’IA générative, les GPU nécessitent des circuits intégrés spécialisés, qui consomment beaucoup d’énergie et génèrent une chaleur importante. De plus, leur grande taille physique crée des obstacles à leur utilisation dans des applications compactes sur appareil.

L'émergence des unités de traitement neuronal (NPU)

En réponse aux défis ci-dessus, unités de traitement neuronal (NPU) émergent comme une technologie transformatrice pour la mise en œuvre de l’IA générative sur les appareils. L'architecture des NPU s'inspire principalement de la structure et du fonctionnement du cerveau humain, en particulier de la manière dont les neurones et les synapses collaborent pour traiter l'information. Dans les NPU, les neurones artificiels agissent comme des unités de base, reflétant les neurones biologiques en recevant des entrées, en les traitant et en produisant des sorties. Ces neurones sont interconnectés via des synapses artificielles, qui transmettent des signaux entre neurones de forces variables qui s'ajustent au cours du processus d'apprentissage. Cela imite le processus de changements de poids synaptiques dans le cerveau. Les NPU sont organisées en couches ; des couches d'entrée qui reçoivent des données brutes, des couches cachées qui effectuent un traitement intermédiaire et des couches de sortie qui génèrent les résultats. Cette structure en couches reflète la capacité du cerveau à traiter l’information en plusieurs étapes et en parallèle. Comme l’IA générative est également construite à l’aide d’une structure similaire de réseaux de neurones artificiels, les NPU sont bien adaptés à la gestion des charges de travail d’IA générative. Cet alignement structurel réduit le besoin de circuits intégrés spécialisés, conduisant à des solutions plus compactes, économes en énergie, rapides et durables.

Répondre aux divers besoins informatiques de l’IA générative

L'IA générative englobe un large éventail de tâches, notamment la synthèse d'images, la génération de texte et la composition musicale, chacune avec son propre ensemble d'exigences informatiques uniques. Par exemple, la synthèse d’images repose fortement sur des opérations matricielles, tandis que la génération de texte implique un traitement séquentiel. Pour répondre efficacement à ces divers besoins informatiques, des unités de traitement neuronal (NPU) sont souvent intégrées dans Système sur puce (SoC) technologie aux côtés des processeurs et des GPU.

Chacun de ces processeurs offre des puissances de calcul distinctes. Les processeurs sont particulièrement doués pour le contrôle séquentiel et l'immédiateté, les GPU excellent dans la diffusion de données parallèles et les NPU sont finement réglés pour les opérations de base de l'IA, traitant des mathématiques scalaires, vectorielles et tensorielles. En tirant parti d'une architecture informatique hétérogène, les tâches peuvent être attribuées aux processeurs en fonction de leurs points forts et des exigences de la tâche spécifique à accomplir.

Les NPU, optimisés pour les charges de travail d'IA, peuvent décharger efficacement les tâches d'IA génératives du processeur principal. Ce déchargement garantit non seulement des opérations rapides et économes en énergie, mais accélère également les tâches d'inférence de l'IA, permettant aux modèles d'IA génératifs de s'exécuter plus facilement sur l'appareil. Les NPU gérant les tâches liées à l'IA, les CPU et les GPU sont libres d'allouer des ressources à d'autres fonctions, améliorant ainsi les performances globales des applications tout en maintenant l'efficacité thermique.

Exemples réels de NPU

L’avancement des NPU prend de l’ampleur. Voici quelques exemples concrets de NPU :

  • NPU hexagonaux de Qualcomm est spécialement conçu pour accélérer les tâches d'inférence d'IA sur des appareils à faible consommation et à faibles ressources. Il est conçu pour gérer des tâches d'IA génératives telles que la génération de texte, la synthèse d'images et le traitement audio. Le Hexagon NPU est intégré aux plates-formes Snapdragon de Qualcomm, permettant une exécution efficace des modèles de réseaux neuronaux sur les appareils dotés de Qualcomm Produits d'IA.
  • Le moteur neuronal d'Apple est un élément clé de la Puces des séries A et M, alimentant diverses fonctionnalités basées sur l'IA telles que Face ID, Siri et réalité augmentée (AR). Le moteur neuronal accélère des tâches telles que la reconnaissance faciale pour une identification sécurisée du visage, le traitement du langage naturel (NLP) pour Siri, ainsi que le suivi amélioré des objets et la compréhension des scènes pour les applications AR. Il améliore considérablement les performances des tâches liées à l'IA sur les appareils Apple, offrant ainsi une expérience utilisateur transparente et efficace.
  • Le NPU de Samsung est un processeur spécialisé conçu pour le calcul de l'IA, capable de gérer des milliers de calculs simultanément. Intégré aux dernières SoC Samsung Exynos, qui alimente de nombreux téléphones Samsung, cette technologie NPU permet des calculs d'IA génératifs à faible consommation et à grande vitesse. La technologie NPU de Samsung est également intégrée aux téléviseurs phares, permettant une innovation sonore basée sur l'IA et améliorant l'expérience utilisateur.
  • L'architecture Da Vinci de Huawei constitue le noyau de leur Processeur Ascend AI, conçu pour améliorer la puissance de calcul de l’IA. L'architecture exploite un moteur de calcul cubique 3D hautes performances, ce qui la rend puissante pour les charges de travail d'IA.

Conclusion

L'IA générative transforme nos interactions avec les appareils et redéfinit l'informatique. Le défi que représente l’exécution de l’IA générative sur des appareils dotés de ressources de calcul limitées est de taille, et les processeurs et GPU traditionnels ne suffisent souvent pas. Les unités de traitement neuronal (NPU) offrent une solution prometteuse avec leur architecture spécialisée conçue pour répondre aux exigences de l'IA générative. En intégrant les NPU dans la technologie System-on-Chip (SoC) aux côtés des CPU et des GPU, nous pouvons utiliser les atouts de chaque processeur, conduisant à des performances d'IA plus rapides, plus efficaces et durables sur les appareils. À mesure que les NPU continuent d’évoluer, elles sont destinées à améliorer les capacités d’IA sur les appareils, rendant les applications plus réactives et plus économes en énergie.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.