Suivez nous sur

Intelligence artificielle

Les écouteurs AI vous permettent d'écouter une personne dans une foule

Publié le

 on

Dans un environnement bondé et bruyant, avez-vous déjà souhaité pouvoir ignorer tous les bruits de fond et vous concentrer uniquement sur la personne que vous essayez d'écouter ? Même si les casques antibruit ont fait de grands progrès dans la création d'une page vierge auditive, ils ont encore du mal à laisser filtrer les sons spécifiques de l'environnement de l'utilisateur. Mais et si vos écouteurs pouvaient être programmés pour capter et amplifier la voix d’une seule personne, même lorsque vous vous déplacez dans une pièce remplie d’autres conversations ?

Audition de la parole cible (TSH), un système d’IA révolutionnaire développé par des chercheurs de l’Université de Washington, fait des progrès dans ce domaine.

Comment fonctionne l'audition de la parole ciblée

Pour utiliser le TSH, une personne portant des écouteurs spécialement équipés doit simplement regarder pendant quelques secondes l'individu qu'elle souhaite entendre. Cette brève période « d’inscription » permet au système d’IA d’apprendre et de s’accrocher aux modèles vocaux uniques du locuteur cible.

Voici comment cela fonctionne sous le capot :

  1. L'utilisateur appuie sur un bouton tout en dirigeant sa tête vers le haut-parleur souhaité pendant 3 à 5 secondes.
  2. Les microphones des deux côtés du casque captent simultanément les ondes sonores de la voix de l'orateur (avec une marge d'erreur de 16 degrés).
  3. Les écouteurs transmettent ce signal audio à un ordinateur embarqué embarqué.
  4. Le logiciel d'apprentissage automatique analyse la voix et crée un modèle des caractéristiques vocales distinctes du locuteur.
  5. Le système d'IA utilise ce modèle pour isoler et amplifier la voix du locuteur inscrit en temps réel, même lorsque l'utilisateur se déplace dans un environnement bruyant.

Plus l'orateur cible parle longtemps, plus le système reçoit de données d'entraînement, ce qui lui permet de mieux se concentrer et de mieux clarifier la voix souhaitée. Cette approche innovante de « l'audition sélective » ouvre un monde de possibilités pour améliorer la communication et l'accessibilité dans des environnements auditifs difficiles.

Shyam Gollakota est l'auteur principal de l'article et professeur UW à la Paul G. Allen School of Computer Science & Engineering.

« Nous avons désormais tendance à considérer l’IA comme des chatbots basés sur le Web qui répondent aux questions. Mais dans ce projet, nous développons une IA pour modifier la perception auditive de toute personne portant des écouteurs, en fonction de ses préférences. Grâce à nos appareils, vous pouvez désormais entendre clairement un seul locuteur, même si vous êtes dans un environnement bruyant avec de nombreuses autres personnes qui parlent. – Gollakota

Les écouteurs AI filtrent le bruit pour que vous puissiez entendre une seule voix dans la foule

Test des écouteurs AI avec TSH

Pour mettre Target Speech Hearing à l’épreuve, l’équipe de recherche a mené une étude auprès de 21 participants. Chaque sujet portait des écouteurs compatibles TSH et enregistrait un locuteur cible dans un environnement bruyant. Les résultats ont été impressionnants : en moyenne, les utilisateurs ont évalué la clarté de la voix de l'orateur inscrit comme étant près de deux fois supérieure à celle du flux audio non filtré.

Cette avancée s'appuie sur l'expérience de l'équipe travail antérieur sur « l'audition sémantique », qui permettait aux utilisateurs de filtrer leur environnement auditif en fonction de classifications sonores prédéfinies, comme le gazouillis des oiseaux ou les voix humaines. TSH va encore plus loin dans ce concept en permettant l'amplification sélective de la voix d'un individu spécifique.

Les implications sont importantes, allant de l'amélioration des conversations personnelles dans des environnements bruyants à l'amélioration de l'accessibilité pour les personnes malentendantes. À mesure que la technologie se développe, elle pourrait changer fondamentalement la façon dont nous vivons et interagissons avec notre monde auditif.

Améliorer les écouteurs AI et surmonter les limites

Bien que Target Speech Hearing représente un pas en avant majeur dans l’IA auditive, le système présente certaines limites dans sa forme actuelle :

  • Inscription d'un seul orateur : Pour l’instant, TSH ne peut être formé que pour se concentrer sur un locuteur à la fois. L’inscription de plusieurs intervenants simultanément n’est pas encore possible.
  • Interférences provenant de sources audio similaires : Si une autre voix forte vient de la même direction que le locuteur cible pendant le processus d'inscription, le système peut avoir du mal à isoler les modèles vocaux de l'individu souhaité.
  • Réinscription manuelle : Si l'utilisateur n'est pas satisfait de la qualité audio après la formation initiale, il doit réinscrire manuellement le locuteur cible pour améliorer la clarté.

Malgré ces contraintes, l’équipe de l’Université de Washington travaille activement à affiner et à étendre les capacités du TSH. L’un de leurs principaux objectifs est de miniaturiser la technologie, afin de lui permettre d’être intégrée de manière transparente dans des produits de consommation tels que les écouteurs et les aides auditives.

Alors que les chercheurs continuent de repousser les limites de ce qui est possible avec l'IA auditive, les applications potentielles sont vastes, allant de l'amélioration de la productivité dans des environnements de bureau distrayants à la facilitation d'une communication plus claire pour les premiers intervenants et le personnel militaire dans des situations à enjeux élevés. L’avenir de l’audition sélective s’annonce prometteur et Target Speech Hearing est sur le point de jouer un rôle central dans son développement.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.