Au cours de l’année écoulée, le domaine des modèles ouverts pour la programmation assistée a été largement dominé par des noms chinois tels que DeepSeek, Kimi et Qwen, qui ont a placé la barre haut dans le cadre des tests comme le SWE-Bench Verified. Pendant ce temps, l’Europe peinait à trouver sa place. L’émergence de Devstral 2 modifie ce paysage. Bien qu’il ne déloge pas ceux qui occupaient déjà les sommets, il permet à Mistral de se hisser à des niveaux d’exigence similaires, positionnant ainsi une entreprise européenne comme un concurrent sérieux dans un domaine qui semblait jusqu’alors réservé à d’autres.
Un changement de paradigme : une évolution technique attendue. Ces derniers mois, les modèles ouverts développés en Europe et aux États-Unis ont montré des avancées constantes, bien qu’ils manquaient encore de la performance nécessaire pour rivaliser dans les tests les plus exigeants. Les progrès étaient visibles, mais il fallait un projet capable de les consolider et de prouver que ce chemin pouvait mener à des résultats comparables aux standards du secteur.
Devstral 2 en chiffres : performance, taille et licences. Le nouveau modèle de Mistral atteint 123 milliards de paramètres avec une architecture dense et propose un contexte élargi de 256 000 tokens, le tout sous une licence MIT modifiée, simplifiant son adoption dans des environnements ouverts. Sa version compacte, Devstral Small 2, réduit le modèle à 24 milliards de paramètres sous licence Apache 2.0. Les données du SWE-Bench Verified publiées par la société témoignent d’un score de 72,2 % pour Devstral 2, le plaçant parmi les modèles ouverts les plus avancés.
Ce score met en lumière un paysage concentré au sommet du benchmark. Parmi les modèles ouverts, DeepSeek V3.2 se classe en tête avec 73,1 %, suivi par Kimi K2 Thinking avec 71,3 %, tandis que d’autres comme Qwen 3 Coder Plus et Minimax M2 affichent des résultats autour de 69 points. À des niveaux inférieurs, on trouve GLM 4.6, GPT-OSS-120B, CWM et DeepSWE, avec des résultats plus modestes. Dans le domaine des modèles propriétaires, certains scores dépassent ceux des modèles ouverts : Gemini 3 Pro atteint 76,2 %, GPT 5.1 Codex Max grimpe à 77,9 %, et Claude Sonnet 4.5 atteint 77,2 %.
Comprendre l’importance de SWE-Bench Verified. SWE-Bench Verified est une évaluation conçue pour déterminer si un modèle peut résoudre des tâches réelles de programmation. Chaque évaluation présente une erreur dans un dépôt de code ouvert, nécessitant un correctif pour faire passer des tests initialement échoués. L’objectif est de mesurer la capacité du système à comprendre la structure du projet, identifier la cause du problème et proposer une solution cohérente. Bien que cette métrique soit utile, elle est limitée aux dépôts en Python et à un ensemble spécifique de situations.
De copilotes à véritables agents actifs. L’arrivée de Devstral 2 coïncide avec un changement significatif dans l’utilisation des outils de programmation. Il ne s’agit plus simplement de recevoir des suggestions, mais d’utiliser des agents capables d’explorer l’ensemble d’un dépôt, d’interpréter sa structure et de proposer des modifications adaptées à son état. Dans ce contexte émerge Vibe CLI, un outil permettant à Devstral d’analyser des fichiers, de modifier le code et d’exécuter des actions directement depuis la ligne de commande, intégrant ainsi ces capacités au quotidien des développeurs.
Coût et déploiement : options pour chaque utilisateur. Devstral sera disponible gratuitement pendant une période d’introduction, puis son tarif s’établira à 0,40 dollars par million de tokens en entrée et 2,00 dollars par million en sortie. La version Small 2 aura un coût inférieur. En ce qui concerne le déploiement, Devstral 2 nécessite au moins quatre GPU de classe H100, optimisées pour les centres de données, tandis que Devstral Small 2 peut fonctionner sur une seule GPU. Selon la documentation de Mistral, cette famille de modèles peut aussi fonctionner uniquement avec des CPU, sans GPU. Cela permet à la fois aux entreprises et aux développeurs indépendants d’accéder à cette technologie.
L’émergence de Devstral 2 apporte un élément inattendu dans un milieu où les entreprises chinoises menaient la danse, et même les États-Unis, malgré leur position de leader en intelligence artificielle, n’avaient pas de modèle ouvert à ce niveau de performance selon le SWE-Bench Verified. Ce n’est pas tant que Mistral chasse les leaders, mais plutôt qu’il étoffe le débat et prouve qu’une alternative européenne peut s’imposer. Bien que cela ne bouleverse pas la hiérarchie établie, cela ouvre de nouvelles voies d’évolution pour les outils de programmation aidée.
Points à retenir
- Devstral 2 illustre une avancée technique notable dans le domaine des modèles ouverts.
- Avec 123 milliards de paramètres, il se positionne parmi les modèles les plus concurrentiels.
- la performance 72,2 % au SWE-Bench Verified témoigne de ses capacités.
- Il facilite l’interaction entre utilisateurs et modèles de manière plus fluide et efficace.
- Le coût d’accès varie, permettant de cibler différents types d’utilisateurs.
Il est fascinant de voir comment une entreprise européenne comme Mistral peut contribuer à redéfinir la compétition sur un marché dominé par des acteurs chinois et américains. Cela soulève plusieurs questions sur l’avenir des technologies de programmation ouvertes et la nécessité d’une collaboration internationale dans ce secteur. Que pensez-vous de cette évolution ?