Dans le sillage de DeepSeek, Alibaba avance ses pions
MoE, vision, long contexte... Rebondissant sur l'épisode DeepSeek, l'équipe Alibaba Qwen multiplie les publications de LLM. Où en sont ses développements ?

Certes, il y a DeepSeek-V3, mais saviez-vous qu'en parallèle, nous avons développé un modèle concurrent ?
Telles sont les grandes lignes du post actuellement épinglé sur le compte X de Qwen.
The burst of DeepSeek V3 has attracted attention from the whole AI community to large-scale MoE models. Concurrently, we have been building Qwen2.5-Max, a large MoE LLM pretrained on massive data and post-trained with curated SFT and RLHF recipes. It achieves competitive... pic.twitter.com/oHVl16vfje
- Qwen (@Alibaba_Qwen) January 28, 2025
Sous cette marque, Alibaba développe des LLM. Il en publie certains, sous des licences plus ou moins permissives, mais sans ouvrir les données d'entraînement.
Les premiers modèles publiés étaient couverts par des conditions spécifiques imposant de prendre une licence auprès du groupe chinois pour tout usage commercial dans le contexte d'un produit ou d'un service réunissant plus de 100 millions d'utilisateurs par mois. En 2024, la licence Apache 2.0 s'est généralisée, les conditions spécifiques continuant à s'appliquer à certains modèles - principalement les plus gros. Un régime supplémentaire fut mis en place pour quelques LLM orientés edge, interdisant toute exploitation commerciale.
Un modèle de raisonnement concurrent de DeepSeek-V3
Le concurrent de DeepSeek-V3 dont parle Alibaba s'appelle Qwen2.5-Max. Aucune de ses composantes n'est ouverte pour le moment, mais il est possible de le tester sur l'API et sur l'interface de chat Qwen lancée début janvier.
Alibaba le dit meilleur que DeepSeek-V3 sur les benchmarks Arena-Hard (conversation), LiveBench (questions factuelles), LiveCodeBench (génération de code) et GPQA-Diamond (tests de niveau universitaire).
Lire aussi : Comment DeepSeek en est arrivé à ses derniers LLM
Qwen2.5-Max just one shotted this
- AK (@_akhaliq) January 28, 2025
prompt: write a script for three bouncing yellow balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js
developers can start using... https://t.co/sV2Zt4N3rO pic.twitter.com/pdGyHoWe0J
Qwen2.5-Max est un modèle généraliste. Dans ce domaine, la dernière génération des modèles d'Alibaba comprend 7 LLM, disponible en versions base et instruct. Cinq sont sous licence Apache (0,5B, 1,5B, 7B, 14B, 32B). Le 72B ne peut pas faire l'objet d'un usage commercial dans un produit ou service à plus de 100 millions d'utilisateurs mensuels. Le 3B ne peut pas être utilisé commercialement tout court.
De la vision à l'agentique : OpenAI et Anthropic en ligne de mire
Alibaba a aussi des LLM spécialisés dans la vision. Il vient d'en annoncer une nouvelle génération : Qwen2.5-VL. Elle comprend trois modèles (3B, 7B, 72B). Les deux premiers sont sous licence Apache ; le troisième est soumis à la "condition des 100 millions".
Entre autres améliorations annoncées par rapport à la génération Qwen2-VL sortie en août-septembre 2024 :
- Avancées sur la reconnaissance de texte (écriture à la main, formules chimiques, partitions musicales, documents à orientation verticale...)
- Localisation plus précise des objets grâce notamment à des boîtes englobantes
- Compréhension de vidéos plus longues (plus d'une heure désormais) grâce à des travaux sur la dimension temporelle (échantillonnage FPS dynamique, en particulier)
- Production d'outputs structurés à partir de documents tels que les factures et les formulaires
Alibaba évoque aussi les usages agentiques, dont le contrôle de logiciels... en dépit des résultats pas mirobolants de Qwen2.5-VL sur les benchmarks dans ce domaine - à commencer par OSWorld. En guise de démos, on nous présente trois scénarios simples sur un environnement GNOME : rechercher des prévisions météo dans Firefox, ajouter un filtre avec GIMP et installer manuellement une extension système.
Lire aussi : DeepSeek, l'électrochoc IA venu de Chine
Sur la foi des tests d'Alibaba, Qwen2.5-VL rivalise face à Gemini 2 Flash, GPT-4o et Claude 3.5 Sonnet sur :
- InfoVQA et CC-OCR (lecture de documents et de diagrammes)
- MMStar et MMBench (Q&A visuel)
- VideoMME, LVBench et CharadesSTA (analyse de vidéos)
- AITZ, Android Central et ScreenSpot Pro (agentique)
1 million de tokens : Qwen élargit ses fenêtres de contexte
En parallèle de Qwen2.5 Max et Qwen2.5-VL, Alibaba a dévoilé son premier modèle ouvert doté d'une fenêtre de contexte à 1 million de tokens. Il s'agit en fait de versions améliorées des modèles généralistes Qwen2.5 7B et 14B : l'entraînement s'est poursuivi à partir de checkpoints intermédiaires dont la fenêtre était de 4k. Elle a été agrandie progresivement jusqu'à 256k sur un mix d'instructions courtes et longues, puis interpolée à 1M en ajustant l'encodage positionnel.
Le catalogue d'Alibaba comprend aussi :
- Qwen2-Audio, un modèle 7B (base et instruct) sous licence Apache qui gère l'audio en entrée
- Qwen2.5-Math, une famille de trois modèles (base et instruct), sous licences Apache (1,5B, 7B) et "100 millions" (72B)
- Qwen2.5-Coder, une famille de six modèles (base et instruct) sous licences Apache (0,5B, 1,5B, 7B, 14B, 32B) et non commerciale (3B)
À consulter en complément :
Comment DeepSeek en est arrivé à ses derniers LLM
Contrôler un PC avec un LLM : comment OpenAI répond à Anthropic
Comment les techniques d'attaque sur l'IA évoluent
"Fais mieux" : la meilleure consigne à donner à un LLM ?
Illustration générée par IA
Sur le même thème
Voir tous les articles Data & IA