Silicon.fr L'actualité informatique et high-tech pour décideurs IT

IA : Google peut différencier les voix dans les vidéos

Google est parvenu à développer un agent capable d'identifier les voix des personnes grâce à la vidéo. Il pourrait être utilisé dans Hangouts.

Publié par La rédaction le 16 avr. 2018 | Mis à jour le 2 mars 2021 à 12:51

Lecture
2 min

Imprimer

Google évoque le phénomène que la firme appelle « Cocktail Party » pour mettre en avant une nouvelle percée dans le domaine de l'intelligence artificielle.

Une véritable gageure en informatique

La firme de Mountain View explique en effet, dans un billet de blog, que si « les gens sont remarquablement doués pour concentrer leur attention sur une personne en particulier dans un environnement bruyant, en «atténuant» mentalement toutes les autres voix et tous les sons », cela reste une gageure à reproduire avec un ordinateur.

S'il s'agit d'un « problème bien étudié, cela reste un défi important pour les ordinateurs ».

Les réseaux neuronaux à la rescousse

Un défi que Google est visiblement parvenu à résoudre grâce à l'apprentissage automatique (machine learning en anglais).

Google Research a ainsi développé un réseau de neurones à convolution capable de reproduire l'effet «cocktail party», durant lequel le cerveau se concentre sur une seule source audio dans une salle bondée. Les résultats impressionnants ont été partagés par la filiale d'Alphabet au gré de différentes vidéos.

Google a baptisé cette technique « Looking to Listen » (littéralement « Regarder pour écouter ») car l'agent IA exploite à la fois les signaux auditifs et visuels, à l'instar du cerveau humain.

Un entraînement intensif

En vue de créer cet outil, Google a entrainé le réseau neuronal à l'aide de 100 000 vidéos de conférences de haute qualité de YouTube. De ces vidéos, ont été extraits les segments où n'apparaissent à l'écran qu'un seul orateur. Cet ensemble de données est appelé AVSpeech (Audio Visual speech).

A l'aide de cette dernière, Google a ensuite créé artificiellement, ce que le groupe appelle des cocktails synthétiques qui combinent dés vidéos de visages avec leur discours correspondant ainsi que du bruit de fond généré avec AudioSet.

Les usages potentiels ne manquent pas

Google explore maintenant les différentes manières d'utiliser cette technologie.

Celle-ci pourrait en particulier être utilisée dans des services de chat tels que Duo ou encore Hangouts, permettant de comprendre un interlocuteur qui parle dans un environnement bruyant. Elle pourrait également être intégrée dans des systèmes d'aide auditive avec caméra.

La vidéoconférence pourrait aussi largement en bénéficier.

Toutefois, on peut déjà pressentir les problèmes de confidentialité potentiels que cette technologie porte en germe. Mal utilisée, elle pourrait en effet être utilisée pour de l'écoute publique, sans le consentement des personnes concernées.

Vidéo signée Google :

(Crédit photo : @Google)

Publié par :
La rédaction

Tags associés :

Firefox soumis à des conditions d'utilisation : pourquoi [...]

Par Clément Bohic le 28 févr. 2025

6 min.

Kubescape monte en grade à la CNCF

Par Clément Bohic le 27 févr. 2025

{ Tribune Expert } - Souveraineté numérique : la France [...]

Par Antoine Brenner* le 14 févr. 2025

Que deviennent OpenTofu et OpenBao, ces forks de produits HashiCorp ?

Par Clément Bohic le 14 janv. 2025

La Chine veut livrer un processeur Open Source cette année

Par Matthieu Broersma - Silicon UK le 8 janv. 2025

Livres Blancs

CELESTE

FFTO : Fiber To The Office ou la haute disponibilité [...]

L’utilisation des services cloud et de SaaS (Software as a Service) est devenu un impératif et s’inscrit dans une [...]

Télécharger

CELESTE

L'UHD et la Transformation Numérique : Répondre aux [...]

Dans un paysage où la transformation numérique est devenue incontournable, les entreprises sont confrontées à une [...]

Télécharger

Signaturit

Cybersécurité et digitalisation Comment protéger les [...]

Ce livre blanc offre aux décideurs des solutions concrètes pour [...]

Télécharger

Palo Alto Networks

Leader des services de réponse à incident de cybersécurité

Les cyberattaques évoluent à une vitesse, dans des proportions et à des niveaux de sophistication sans précédent. [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

5 juin 2025

Le grand dîner de Gala de la Communauté

Organisé par silicon.fr

Inscrivez-vous

3 juillet 2025

La Matinale Silicon - Zéro Trust

Organisé par silicon.fr

Inscrivez-vous

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

REVIVRE EN IMAGES

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.