← ← Zurück zu Gedanken AI

Mistral Small 4: Ein Open-Source-Modell Ersetzt Drei

Veröffentlicht März 2026

Veröffentlicht im TEN INVENT Blog · März 2026

Am 16. März 2026 veröffentlichte Mistral AI etwas, das jeden Entwickler dazu bringen sollte, seinen Modell-Stack zu überdenken. Mistral Small 4 ist ein Mixture-of-Experts-Modell mit 119 Milliarden Parametern, veröffentlicht unter Apache 2.0, das Reasoning, multimodales Verständnis und agentisches Coding in einem einzigen Modell vereint.

Bei TEN INVENT betreiben wir mehrere Modelle für verschiedene Aufgaben. Die Idee, alles in ein einziges Open-Source-Modell zu konsolidieren, war überzeugend genug, dass wir am ersten Tag mit dem Testen begonnen haben.

Die Architektur: 128 Experten, 6 Milliarden Aktiv

Mistral Small 4 verwendet eine Mixture-of-Experts (MoE) Architektur mit 128 Expertennetzwerken, wobei nur 4 Experten pro Token aktiviert werden. Obwohl das Gesamtmodell 119 Milliarden Parameter umfasst, sind nur 6 Milliarden pro Token aktiv.

MoE-Modelle bieten die Wissenskapazität eines massiven Modells zu den Inferenzkosten eines viel kleineren. Die Rechenkosten pro Token sind vergleichbar mit dem Betrieb eines dichten 6-8-Milliarden-Parameter-Modells.

Drei Modelle in Einem

Zuvor unterhielt Mistral separate Modellfamilien:

Magistral für komplexes Reasoning
Pixtral für multimodales Verständnis von Bildern und Dokumenten
Devstral für agentisches Coding und Entwicklungsworkflows

Mistral Small 4 absorbiert alle drei Fähigkeiten. Dies eliminiert das fundamentale Problem des Modell-Routings in Produktionssystemen. Einfachere Architektur, weniger Fehlermodi, niedrigere Betriebskosten.

Leistung Die Zählt

40% Reduktion der Abschlusszeit in latenzoptimierten Konfigurationen
3-fache Steigerung der Anfragen pro Sekunde in durchsatzoptimierten Konfigurationen
256K Token Kontextfenster
Konfigurierbares Reasoning zur Steuerung der Denktiefe

Apache 2.0: Wirklich Offen

Kommerzielle Nutzung ohne Einschränkungen
Modifikation und Distribution erlaubt
Keine Copyleft-Verpflichtungen

Zum Vergleich: Metas Llama-Modelle haben Nutzungsbeschränkungen über 700 Millionen monatlich aktive Nutzer. Mistral Small 4s Apache 2.0 hat keine solchen Einschränkungen.

Praktische Anwendungen

Code-Review mit Visuellem Kontext

Entwickler können einen Screenshot eines UI-Bugs zusammen mit dem relevanten Code einreichen. Ein einziger Inferenzaufruf statt zwei Modelle.

Dokumentenanalyse mit Reasoning

Das Modell kann Dokumente visuell lesen, Informationen extrahieren, über Implikationen nachdenken und Empfehlungen generieren — alles in einem Durchgang.

Agentische Entwicklungsworkflows

Für Aufgaben die Planung, Code-Erstellung und Testing erfordern, behält das einheitliche Modell konsistenten Kontext über alle drei Phasen bei.

Vergleich

Llama 3.3 70B (Meta): Dichtes Modell, höhere Rechenkosten, kein nativer multimodaler Support
Gemma 3 27B (Google): Effizient aber deutlich kleiner
Qwen 3 235B-A22B (Alibaba): Großes MoE-Modell mit restriktiverer Lizenz

Erste Schritte

Hardware: Minimum 48GB VRAM. Mit 4-Bit-Quantisierung auf GPUs mit 24GB VRAM
Frameworks: vLLM, TGI, Ollama und llama.cpp ab dem ersten Tag
MCP-Integration: Funktioniert mit Model Context Protocol Servern

ollama run mistral-small-4

Fazit

Mistral Small 4 repräsentiert einen breiteren Trend: Konvergenz. Die Ära separater Modelle für separate Fähigkeiten endet. Bei TEN INVENT sehen wir Mistral Small 4 als das stärkste verfügbare Open-Source-Basismodell.

Ein Modell, drei Aufgaben, null Lizenzprobleme.