Le 16 mars 2026, Mistral AI a publié quelque chose qui devrait amener chaque développeur à reconsidérer sa pile de modèles. Mistral Small 4 est un modèle Mixture-of-Experts de 119 milliards de paramètres, publié sous Apache 2.0, qui unifie le raisonnement, la compréhension multimodale et le codage agentique en un seul modèle.
Chez TEN INVENT, nous utilisons plusieurs modèles pour différentes tâches. L'idée de tout consolider en un seul modèle open-source est suffisamment convaincante pour que nous ayons commencé les tests dès le premier jour.
L'Architecture : 128 Experts, 6 Milliards Actifs
Mistral Small 4 utilise une architecture Mixture-of-Experts (MoE) avec 128 réseaux d'experts, activant seulement 4 experts par token. Bien que le modèle total pèse 119 milliards de paramètres, seuls 6 milliards sont actifs pour chaque token.
Les modèles MoE offrent la capacité de connaissance d'un modèle massif au coût d'inférence d'un modèle beaucoup plus petit. Le coût computationnel par token est comparable à l'exécution d'un modèle dense de 6-8 milliards de paramètres.
Trois Modèles en Un
Auparavant, Mistral maintenait des familles de modèles séparées :
- Magistral pour le raisonnement complexe
- Pixtral pour la compréhension multimodale
- Devstral pour le codage agentique
Mistral Small 4 absorbe les trois capacités. Cela élimine le problème fondamental du routage de modèles dans les systèmes de production. Architecture plus simple, moins de modes de défaillance, coût opérationnel réduit.
Performance Qui Compte
- Réduction de 40% du temps de complétion en configurations optimisées pour la latence
- Multiplication par 3 des requêtes par seconde en configurations optimisées pour le débit
- Fenêtre de contexte de 256K tokens
- Raisonnement configurable pour contrôler la profondeur de réflexion
L'amélioration de la latence est particulièrement importante pour les workflows agentiques. Une réduction de 40% peut faire la différence entre une tâche terminée en 30 secondes versus 50.
Apache 2.0 : Véritablement Ouvert
- Utilisation commerciale sans restrictions
- Modification et distribution autorisées
- Aucune obligation copyleft
Pour comparaison, les modèles Llama de Meta ont des restrictions d'utilisation au-delà de 700 millions d'utilisateurs mensuels actifs. La licence Apache 2.0 de Mistral Small 4 n'a pas de telles contraintes.
Applications Pratiques
Revue de Code avec Contexte Visuel
Les développeurs peuvent soumettre une capture d'écran d'un bug UI avec le code pertinent. Le modèle comprend le problème visuel et le contexte du code. Un seul appel d'inférence au lieu de deux modèles.
Analyse de Documents avec Raisonnement
Le modèle peut lire visuellement des documents, extraire des informations, raisonner sur les implications et générer des recommandations — tout en un seul passage.
Workflows de Développement Agentiques
Pour les tâches nécessitant planification, écriture de code et test, le modèle unifié maintient un contexte cohérent sur les trois phases. Aucune information perdue dans les transferts entre modèles.
Comparaison
- Llama 3.3 70B (Meta) : Modèle dense, coûts de calcul plus élevés, pas de support multimodal natif
- Gemma 3 27B (Google) : Efficace mais significativement plus petit
- Qwen 3 235B-A22B (Alibaba) : Grand modèle MoE avec licence plus restrictive
Pour Commencer
- Matériel : Minimum 48 Go de VRAM. Avec quantification 4 bits, tourne sur GPU avec 24 Go
- Frameworks : vLLM, TGI, Ollama et llama.cpp dès le premier jour
- Intégration MCP : Fonctionne avec les serveurs Model Context Protocol
ollama run mistral-small-4
Conclusion
Mistral Small 4 représente une tendance plus large : la convergence. L'ère des modèles séparés pour des capacités séparées touche à sa fin. Chez TEN INVENT, nous voyons Mistral Small 4 comme le modèle de fondation open-source le plus puissant disponible aujourd'hui.
L'écosystème IA open-source vient de faire un pas significatif en avant. Un modèle, trois emplois, zéro problème de licence.