Traduction, reconnaissance d'images, etc. : vers une IA à tout faire ?

Google et le MIT ont mis au point un modèle de Deep Learning capable de prendre en charge 8 tâches différentes. Un premier pas vers une IA polyvalente ?

Publié par La rédaction le 27 juin 2017 | Mis à jour le 2 mars 2021 à 11:50

Lecture
4 min

Imprimer

Certes, le Deep Learning fournit des résultats intéressants en matière de reconnaissance vocale, de classification d'images ou de traduction. Mais, dans chaque cas, le modèle algorithmique doit être pensé en fonction de la tâche et optimisé pour cette dernière. Autrement dit, une IA de reconnaissance d'images ne saura pas s'adapter à des travaux de traduction. Contrairement à un humain, dont les capacités cognitives sont multiples.

D'où l'idée du Massachusetts Institute of Technology (MIT) et de Google de mettre au point un modèle algorithmique capable de fournir de bons résultats dans de multiples domaines. « En particulier, ce modèle unique est entraîné simultanément sur ImageNet (une base de données d'images, NDLR), sur diverses tâches de traduction, sur du sous-titrage d'images, sur un corpus de données de reconnaissance vocale et sur une tâche d'analyse de l'anglais », écrivent les chercheurs de Google, dans un article. La mise au point de cette IA multitâche est passée par l'assemblage de différentes briques de base issues des différents domaines ciblés. « De façon intéressante, même si un bloc n'est pas crucial pour une tâche, nous observons que son ajout ne nuit jamais aux performances et, dans la plupart des cas, l'améliore sur toutes les tâches, relève Google. Nous montrons également que des travaux disposant de moins de données bénéficient nettement de l'entraînement mutualisé sur d'autres tâches. »

Un modèle unique, 8 jeux de données

L'architecture de MultiModel.

Ce n'est certes pas, loin s'en faut, la première fois que des chercheurs étudient les modèles de Deep Learning multitâches. Et on sait déjà que les modèles de traitement du langage ou de traduction automatique bénéficient d'un apprentissage diversifié. Mais avec une nuance selon Google. « Tous ces modèles sont formés à d'autres tâches du même domaine : les tâches de traduction sont entraînées avec d'autres tâches de traduction, les tâches de vision avec d'autres tâches de vision, les travaux sur la parole avec d'autres discours. » Mountain View, associé au MIT, estime être allé un cran plus loin, en confrontant ce qu'il appelle son MultiModel à 8 jeux de données diversifiés.

Et les résultats sont encourageants : dans leur article, les chercheurs indiquent être parvenus à une « bonne performance ». Plus précisément à un niveau inférieur à l'état de l'art sur chacune des 8 tâches prises isolément, mais supérieur à « de nombreux modèles spécifiques à une tâche étudiés dans un passé récent ». Les chercheurs présentent leurs travaux comme une première étape et entendent bien améliorer leur MultiModel.

Architecture multimodale

Pour l'heure, l'intérêt de ces travaux de recherche consiste à montrer qu'il est possible d'assembler en un modèle cohérent les techniques les plus avancées actuellement dans chaque domaine (convolutions séparables en profondeur, réseaux de neurones de très grande taille, réseaux de neurones avec mécanisme d'attention). Et de détecter de premiers phénomènes intéressants issus de cet attelage. Comme le fait que les réseaux de neurones de grande taille et ceux dotés d'un mécanisme d'attention améliorent « légèrement » la performance du modèle dans la reconnaissance d'images. « La tâche qui a le moins besoin de ces techniques », notent les chercheurs.

« La clé du succès provient de la conception d'une architecture multimodale dans laquelle le plus grand nombre possible de paramètres est partagé et de l'utilisation conjointes de techniques de calcul issues de différents domaines, conclut l'équipe de recherche. Nous croyons que cela ouvre un chemin vers des travaux futurs intéressants sur des architectures d'apprentissage en profondeur plus générales, d'autant plus que notre modèle montre l'existence d'un transfert d'apprentissage de tâches bénéficiant d'une grande quantité de données vers celles où les données sont plus limitées. »

Crédit Mutuel : « non, l'IA Watson n'est pas magique »

Pourquoi la voiture 100 % autonome n'est pas près de rouler

Airbus : comment le Deep Learning fait décoller la reconnaissance d'images

Crédit photo : Lightspring-Shutterstock

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Traduction, reconnaissance d'images, etc. : vers une IA à tout faire ?

Un modèle unique, 8 jeux de données

Architecture multimodale

Crédit photo : Lightspring-Shutterstock

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Briser les barrières de la sécurité en entreprise

The Forrester Wave™: Cloud Workload Security, Q1 2024

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Un modèle unique, 8 jeux de données

Architecture multimodale

Crédit photo : Lightspring-Shutterstock

S’abonner

Partager l'épisode