IA : Facebook partage fastText, ses travaux sur le langage naturel

Facebook a versé fastText, son outil d'interprétation du langage humain par la machine, en Open Source. Objectif : accélérer les développements de l'intelligence artificielle dans la compréhension du langage.

Publié par Christophe Lagane le 22 août 2016 | Mis à jour le 2 mars 2021 à 11:31

Lecture
3 min

Imprimer

Le laboratoire de recherche en intelligence artificielle de Facebook (le FAIR) vient de verser fastText en Open Source. FastText est une bibliothèque d'applications conçue pour construire des solutions évolutives de représentation et de classification de textes. Autrement dit, des outils d'intelligence artificielle pour interpréter le langage humain. Les chercheurs du réseau social ne se contentent pas d'ouvrir librement leurs sources logicielles au plus grand nombre (sur GitHub), ils se proposent également de partager leurs travaux de recherche (ici et là).

L'apprentissage de la sémantique est l'un des plus grands défis auquel est aujourd'hui confrontée l'intelligence artificielle. Il s'agit de faire comprendre et interpréter le sens des expressions, écrites ou orales, d'un humain par une machine. « Mais c'est un besoin essentiel, estiment les chercheurs Armand Joulin, Edouard Grave, Piotr Bojanowski et Tomas Mikolov dans une contribution de blog. Le traitement de texte automatique constitue un élément clé de l'interaction au jour le jour avec votre ordinateur; c'est un élément essentiel que ce soit pour la recherche sur le Web, le classement des contenus ou le filtrage du spam, et quand cela fonctionne bien, c'est complètement invisible pour vous. Avec la quantité croissante de données en ligne, il y a un besoin d'outils plus souples pour mieux comprendre le contenu de très grands ensembles de données, afin de fournir des résultats de classification plus précis. »

FastText et l'approche par classement

D'où l'idée de partager les recherches internes avec la communauté scientifique dans l'espoir d'accélérer les développements dans le domaine du traitement informatique du langage humain. Une démarche similaire à celle de l'Open Compute Project (OCP) du même Facebook pour améliorer le design hardware des éléments du datacenter. Les travaux de fastText s'attachent notamment à traiter des représentations de phrases composées de «?sacs de mots?» et d'informations issues de mots secondaires, et à les partager. L'objectif immédiat visant à classer efficacement les textes et à «?apprendre?» les mots par des représentations vectorielles.

L'approche de la solution de Menlo Park permettrait ainsi de palier les limites que les réseaux neuronaux informatiques rencontrent avec les grands ensembles de données. En utilisant des classificateurs hiérarchiques au lieu d'une structure plane dans laquelle les différentes catégories sont organisées en arbre. « Cela réduit le temps [de traitement] dû à la complexité de formation et de tests des classificateurs de texte [qui passent d'un mode] linéaire à [un mode] logarithmique en respectant le nombre de classes », souligne les contributeurs du billet.

Quelques secondes contre plusieurs heures

Résultat, la où les solutions comme Char-CNN ou VDCNN mettent plusieurs heures à interpréter du contenu Yahoo, fastText n'aurait besoin que de 5 secondes. Avec un taux de pertinence d'interprétation similaire, voire supérieur, aux offres concurrentes, selon Facebook. « FastText peut également classer un demi-million de phrases parmi plus de 300?000 catégories en moins de cinq minutes », assurent les chercheurs. Et cela dans différentes langues occidentales, dont l'anglais, l'allemand et le français. L'objectif final étant de construire des solutions qui sauront interpréter le langage naturel aussi bien que les humains. Un doux rêve qui relève aujourd'hui encore de la science-fiction.

Lire également

Yann LeCun, Facebook : l'intelligence artificielle est son amie
Aera 404 de Facebook : un lab hardware en mode collaboratif
Machine Learning : langage naturel et traduction sur le Cloud de Google

Photo credit: eston via VisualHunt / CC BY-NC-SA

Publié par :
Christophe Lagane

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

IA : Facebook partage fastText, ses travaux sur le langage naturel

FastText et l'approche par classement

Quelques secondes contre plusieurs heures

Photo credit: eston via VisualHunt / CC BY-NC-SA

Trois cas d'usage de l'IA à la Cour de cassation

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

FastText et l'approche par classement

Quelques secondes contre plusieurs heures

Photo credit: eston via VisualHunt / CC BY-NC-SA

S’abonner

Partager l'épisode