Dans le sillage de DeepSeek, Alibaba avance ses pions

MoE, vision, long contexte... Rebondissant sur l'épisode DeepSeek, l'équipe Alibaba Qwen multiplie les publications de LLM. Où en sont ses développements ?

Publié par Clément Bohic le 29 janv. 2025 | mis à jour à 15:03

Lecture
5 min

Imprimer

Certes, il y a DeepSeek-V3, mais saviez-vous qu'en parallèle, nous avons développé un modèle concurrent ?

Telles sont les grandes lignes du post actuellement épinglé sur le compte X de Qwen.

The burst of DeepSeek V3 has attracted attention from the whole AI community to large-scale MoE models. Concurrently, we have been building Qwen2.5-Max, a large MoE LLM pretrained on massive data and post-trained with curated SFT and RLHF recipes. It achieves competitive... pic.twitter.com/oHVl16vfje
- Qwen (@Alibaba_Qwen) January 28, 2025

Sous cette marque, Alibaba développe des LLM. Il en publie certains, sous des licences plus ou moins permissives, mais sans ouvrir les données d'entraînement.

Les premiers modèles publiés étaient couverts par des conditions spécifiques imposant de prendre une licence auprès du groupe chinois pour tout usage commercial dans le contexte d'un produit ou d'un service réunissant plus de 100 millions d'utilisateurs par mois. En 2024, la licence Apache 2.0 s'est généralisée, les conditions spécifiques continuant à s'appliquer à certains modèles - principalement les plus gros. Un régime supplémentaire fut mis en place pour quelques LLM orientés edge, interdisant toute exploitation commerciale.

Un modèle de raisonnement concurrent de DeepSeek-V3

Le concurrent de DeepSeek-V3 dont parle Alibaba s'appelle Qwen2.5-Max. Aucune de ses composantes n'est ouverte pour le moment, mais il est possible de le tester sur l'API et sur l'interface de chat Qwen lancée début janvier.

Alibaba le dit meilleur que DeepSeek-V3 sur les benchmarks Arena-Hard (conversation), LiveBench (questions factuelles), LiveCodeBench (génération de code) et GPQA-Diamond (tests de niveau universitaire).

Qwen2.5-Max just one shotted this

prompt: write a script for three bouncing yellow balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js

developers can start using... https://t.co/sV2Zt4N3rO pic.twitter.com/pdGyHoWe0J
- AK (@_akhaliq) January 28, 2025

Qwen2.5-Max est un modèle généraliste. Dans ce domaine, la dernière génération des modèles d'Alibaba comprend 7 LLM, disponible en versions base et instruct. Cinq sont sous licence Apache (0,5B, 1,5B, 7B, 14B, 32B). Le 72B ne peut pas faire l'objet d'un usage commercial dans un produit ou service à plus de 100 millions d'utilisateurs mensuels. Le 3B ne peut pas être utilisé commercialement tout court.

De la vision à l'agentique : OpenAI et Anthropic en ligne de mire

Alibaba a aussi des LLM spécialisés dans la vision. Il vient d'en annoncer une nouvelle génération : Qwen2.5-VL. Elle comprend trois modèles (3B, 7B, 72B). Les deux premiers sont sous licence Apache ; le troisième est soumis à la "condition des 100 millions".

Entre autres améliorations annoncées par rapport à la génération Qwen2-VL sortie en août-septembre 2024 :

Avancées sur la reconnaissance de texte (écriture à la main, formules chimiques, partitions musicales, documents à orientation verticale...)
Localisation plus précise des objets grâce notamment à des boîtes englobantes
Compréhension de vidéos plus longues (plus d'une heure désormais) grâce à des travaux sur la dimension temporelle (échantillonnage FPS dynamique, en particulier)
Production d'outputs structurés à partir de documents tels que les factures et les formulaires

Alibaba évoque aussi les usages agentiques, dont le contrôle de logiciels... en dépit des résultats pas mirobolants de Qwen2.5-VL sur les benchmarks dans ce domaine - à commencer par OSWorld. En guise de démos, on nous présente trois scénarios simples sur un environnement GNOME : rechercher des prévisions météo dans Firefox, ajouter un filtre avec GIMP et installer manuellement une extension système.

Sur la foi des tests d'Alibaba, Qwen2.5-VL rivalise face à Gemini 2 Flash, GPT-4o et Claude 3.5 Sonnet sur :

InfoVQA et CC-OCR (lecture de documents et de diagrammes)
MMStar et MMBench (Q&A visuel)
VideoMME, LVBench et CharadesSTA (analyse de vidéos)
AITZ, Android Central et ScreenSpot Pro (agentique)

1 million de tokens : Qwen élargit ses fenêtres de contexte

En parallèle de Qwen2.5 Max et Qwen2.5-VL, Alibaba a dévoilé son premier modèle ouvert doté d'une fenêtre de contexte à 1 million de tokens. Il s'agit en fait de versions améliorées des modèles généralistes Qwen2.5 7B et 14B : l'entraînement s'est poursuivi à partir de checkpoints intermédiaires dont la fenêtre était de 4k. Elle a été agrandie progresivement jusqu'à 256k sur un mix d'instructions courtes et longues, puis interpolée à 1M en ajustant l'encodage positionnel.

Le catalogue d'Alibaba comprend aussi :

Qwen2-Audio, un modèle 7B (base et instruct) sous licence Apache qui gère l'audio en entrée
Qwen2.5-Math, une famille de trois modèles (base et instruct), sous licences Apache (1,5B, 7B) et "100 millions" (72B)
Qwen2.5-Coder, une famille de six modèles (base et instruct) sous licences Apache (0,5B, 1,5B, 7B, 14B, 32B) et non commerciale (3B)

À consulter en complément :

Comment DeepSeek en est arrivé à ses derniers LLM
Contrôler un PC avec un LLM : comment OpenAI répond à Anthropic
Comment les techniques d'attaque sur l'IA évoluent
"Fais mieux" : la meilleure consigne à donner à un LLM ?

Illustration générée par IA

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Dans le sillage de DeepSeek, Alibaba avance ses pions

Un modèle de raisonnement concurrent de DeepSeek-V3

De la vision à l'agentique : OpenAI et Anthropic en ligne de mire

1 million de tokens : Qwen élargit ses fenêtres de contexte

À consulter en complément :

Agents IA : une taxonomie des protocoles au-delà de MCP

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Trois cas d'usage de l'IA à la Cour de cassation

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Briser les barrières de la sécurité en entreprise

The Forrester Wave™: Cloud Workload Security, Q1 2024

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2