Am 16. März 2026 veröffentlichte Mistral AI etwas, das jeden Entwickler dazu bringen sollte, seinen Modell-Stack zu überdenken. Mistral Small 4 ist ein Mixture-of-Experts-Modell mit 119 Milliarden Parametern, veröffentlicht unter Apache 2.0, das Reasoning, multimodales Verständnis und agentisches Coding in einem einzigen Modell vereint.
Bei TEN INVENT betreiben wir mehrere Modelle für verschiedene Aufgaben. Die Idee, alles in ein einziges Open-Source-Modell zu konsolidieren, war überzeugend genug, dass wir am ersten Tag mit dem Testen begonnen haben.
Die Architektur: 128 Experten, 6 Milliarden Aktiv
Mistral Small 4 verwendet eine Mixture-of-Experts (MoE) Architektur mit 128 Expertennetzwerken, wobei nur 4 Experten pro Token aktiviert werden. Obwohl das Gesamtmodell 119 Milliarden Parameter umfasst, sind nur 6 Milliarden pro Token aktiv.
MoE-Modelle bieten die Wissenskapazität eines massiven Modells zu den Inferenzkosten eines viel kleineren. Die Rechenkosten pro Token sind vergleichbar mit dem Betrieb eines dichten 6-8-Milliarden-Parameter-Modells.
Drei Modelle in Einem
Zuvor unterhielt Mistral separate Modellfamilien:
- Magistral für komplexes Reasoning
- Pixtral für multimodales Verständnis von Bildern und Dokumenten
- Devstral für agentisches Coding und Entwicklungsworkflows
Mistral Small 4 absorbiert alle drei Fähigkeiten. Dies eliminiert das fundamentale Problem des Modell-Routings in Produktionssystemen. Einfachere Architektur, weniger Fehlermodi, niedrigere Betriebskosten.
Leistung Die Zählt
- 40% Reduktion der Abschlusszeit in latenzoptimierten Konfigurationen
- 3-fache Steigerung der Anfragen pro Sekunde in durchsatzoptimierten Konfigurationen
- 256K Token Kontextfenster
- Konfigurierbares Reasoning zur Steuerung der Denktiefe
Apache 2.0: Wirklich Offen
- Kommerzielle Nutzung ohne Einschränkungen
- Modifikation und Distribution erlaubt
- Keine Copyleft-Verpflichtungen
Zum Vergleich: Metas Llama-Modelle haben Nutzungsbeschränkungen über 700 Millionen monatlich aktive Nutzer. Mistral Small 4s Apache 2.0 hat keine solchen Einschränkungen.
Praktische Anwendungen
Code-Review mit Visuellem Kontext
Entwickler können einen Screenshot eines UI-Bugs zusammen mit dem relevanten Code einreichen. Ein einziger Inferenzaufruf statt zwei Modelle.
Dokumentenanalyse mit Reasoning
Das Modell kann Dokumente visuell lesen, Informationen extrahieren, über Implikationen nachdenken und Empfehlungen generieren — alles in einem Durchgang.
Agentische Entwicklungsworkflows
Für Aufgaben die Planung, Code-Erstellung und Testing erfordern, behält das einheitliche Modell konsistenten Kontext über alle drei Phasen bei.
Vergleich
- Llama 3.3 70B (Meta): Dichtes Modell, höhere Rechenkosten, kein nativer multimodaler Support
- Gemma 3 27B (Google): Effizient aber deutlich kleiner
- Qwen 3 235B-A22B (Alibaba): Großes MoE-Modell mit restriktiverer Lizenz
Erste Schritte
- Hardware: Minimum 48GB VRAM. Mit 4-Bit-Quantisierung auf GPUs mit 24GB VRAM
- Frameworks: vLLM, TGI, Ollama und llama.cpp ab dem ersten Tag
- MCP-Integration: Funktioniert mit Model Context Protocol Servern
ollama run mistral-small-4
Fazit
Mistral Small 4 repräsentiert einen breiteren Trend: Konvergenz. Die Ära separater Modelle für separate Fähigkeiten endet. Bei TEN INVENT sehen wir Mistral Small 4 als das stärkste verfügbare Open-Source-Basismodell.
Ein Modell, drei Aufgaben, null Lizenzprobleme.