Recherche

Dans le sillage de DeepSeek, Alibaba avance ses pions

MoE, vision, long contexte... Rebondissant sur l'épisode DeepSeek, l'équipe Alibaba Qwen multiplie les publications de LLM. Où en sont ses développements ?

Publié par Clément Bohic le - mis à jour à
Lecture
5 min
  • Imprimer
Dans le sillage de DeepSeek, Alibaba avance ses pions
© généré par IA

Certes, il y a DeepSeek-V3, mais saviez-vous qu'en parallèle, nous avons développé un modèle concurrent ?

Telles sont les grandes lignes du post actuellement épinglé sur le compte X de Qwen.

Sous cette marque, Alibaba développe des LLM. Il en publie certains, sous des licences plus ou moins permissives, mais sans ouvrir les données d'entraînement.

Les premiers modèles publiés étaient couverts par des conditions spécifiques imposant de prendre une licence auprès du groupe chinois pour tout usage commercial dans le contexte d'un produit ou d'un service réunissant plus de 100 millions d'utilisateurs par mois. En 2024, la licence Apache 2.0 s'est généralisée, les conditions spécifiques continuant à s'appliquer à certains modèles - principalement les plus gros. Un régime supplémentaire fut mis en place pour quelques LLM orientés edge, interdisant toute exploitation commerciale.

Un modèle de raisonnement concurrent de DeepSeek-V3

Le concurrent de DeepSeek-V3 dont parle Alibaba s'appelle Qwen2.5-Max. Aucune de ses composantes n'est ouverte pour le moment, mais il est possible de le tester sur l'API et sur l'interface de chat Qwen lancée début janvier.

Alibaba le dit meilleur que DeepSeek-V3 sur les benchmarks Arena-Hard (conversation), LiveBench (questions factuelles), LiveCodeBench (génération de code) et GPQA-Diamond (tests de niveau universitaire).

Qwen2.5-Max est un modèle généraliste. Dans ce domaine, la dernière génération des modèles d'Alibaba comprend 7 LLM, disponible en versions base et instruct. Cinq sont sous licence Apache (0,5B, 1,5B, 7B, 14B, 32B). Le 72B ne peut pas faire l'objet d'un usage commercial dans un produit ou service à plus de 100 millions d'utilisateurs mensuels. Le 3B ne peut pas être utilisé commercialement tout court.

De la vision à l'agentique : OpenAI et Anthropic en ligne de mire

Alibaba a aussi des LLM spécialisés dans la vision. Il vient d'en annoncer une nouvelle génération : Qwen2.5-VL. Elle comprend trois modèles (3B, 7B, 72B). Les deux premiers sont sous licence Apache ; le troisième est soumis à la "condition des 100 millions".

Entre autres améliorations annoncées par rapport à la génération Qwen2-VL sortie en août-septembre 2024 :

  • Avancées sur la reconnaissance de texte (écriture à la main, formules chimiques, partitions musicales, documents à orientation verticale...)
  • Localisation plus précise des objets grâce notamment à des boîtes englobantes
  • Compréhension de vidéos plus longues (plus d'une heure désormais) grâce à des travaux sur la dimension temporelle (échantillonnage FPS dynamique, en particulier)
  • Production d'outputs structurés à partir de documents tels que les factures et les formulaires

Alibaba évoque aussi les usages agentiques, dont le contrôle de logiciels... en dépit des résultats pas mirobolants de Qwen2.5-VL sur les benchmarks dans ce domaine - à commencer par OSWorld. En guise de démos, on nous présente trois scénarios simples sur un environnement GNOME : rechercher des prévisions météo dans Firefox, ajouter un filtre avec GIMP et installer manuellement une extension système.

Sur la foi des tests d'Alibaba, Qwen2.5-VL rivalise face à Gemini 2 Flash, GPT-4o et Claude 3.5 Sonnet sur :

  • InfoVQA et CC-OCR (lecture de documents et de diagrammes)
  • MMStar et MMBench (Q&A visuel)
  • VideoMME, LVBench et CharadesSTA (analyse de vidéos)
  • AITZ, Android Central et ScreenSpot Pro (agentique)

1 million de tokens : Qwen élargit ses fenêtres de contexte

En parallèle de Qwen2.5 Max et Qwen2.5-VL, Alibaba a dévoilé son premier modèle ouvert doté d'une fenêtre de contexte à 1 million de tokens. Il s'agit en fait de versions améliorées des modèles généralistes Qwen2.5 7B et 14B : l'entraînement s'est poursuivi à partir de checkpoints intermédiaires dont la fenêtre était de 4k. Elle a été agrandie progresivement jusqu'à 256k sur un mix d'instructions courtes et longues, puis interpolée à 1M en ajustant l'encodage positionnel.

Le catalogue d'Alibaba comprend aussi :

  • Qwen2-Audio, un modèle 7B (base et instruct) sous licence Apache qui gère l'audio en entrée
  • Qwen2.5-Math, une famille de trois modèles (base et instruct), sous licences Apache (1,5B, 7B) et "100 millions" (72B)
  • Qwen2.5-Coder, une famille de six modèles (base et instruct) sous licences Apache (0,5B, 1,5B, 7B, 14B, 32B) et non commerciale (3B)

À consulter en complément :

Comment DeepSeek en est arrivé à ses derniers LLM
Contrôler un PC avec un LLM : comment OpenAI répond à Anthropic
Comment les techniques d'attaque sur l'IA évoluent
"Fais mieux" : la meilleure consigne à donner à un LLM ?

Illustration générée par IA

Sur le même thème

Voir tous les articles Data & IA
Les Podcasts de Splunk
sponsorisé
D'une mine à la supply chain, de l'OT à l’industrie 4.…

Livres Blancs #cloud

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page