Skip to content
Mistral Small 4: Ein Open-Source-Modell Ersetzt Drei
← ← Zurück zu Gedanken AI

Mistral Small 4: Ein Open-Source-Modell Ersetzt Drei

Am 16. März 2026 veröffentlichte Mistral AI etwas, das jeden Entwickler dazu bringen sollte, seinen Modell-Stack zu überdenken. Mistral Small 4 ist ein Mixture-of-Experts-Modell mit 119 Milliarden Parametern, veröffentlicht unter Apache 2.0, das Reasoning, multimodales Verständnis und agentisches Coding in einem einzigen Modell vereint.

Bei TEN INVENT betreiben wir mehrere Modelle für verschiedene Aufgaben. Die Idee, alles in ein einziges Open-Source-Modell zu konsolidieren, war überzeugend genug, dass wir am ersten Tag mit dem Testen begonnen haben.

Die Architektur: 128 Experten, 6 Milliarden Aktiv

Mistral Small 4 verwendet eine Mixture-of-Experts (MoE) Architektur mit 128 Expertennetzwerken, wobei nur 4 Experten pro Token aktiviert werden. Obwohl das Gesamtmodell 119 Milliarden Parameter umfasst, sind nur 6 Milliarden pro Token aktiv.

MoE-Modelle bieten die Wissenskapazität eines massiven Modells zu den Inferenzkosten eines viel kleineren. Die Rechenkosten pro Token sind vergleichbar mit dem Betrieb eines dichten 6-8-Milliarden-Parameter-Modells.

Drei Modelle in Einem

Zuvor unterhielt Mistral separate Modellfamilien:

  • Magistral für komplexes Reasoning
  • Pixtral für multimodales Verständnis von Bildern und Dokumenten
  • Devstral für agentisches Coding und Entwicklungsworkflows

Mistral Small 4 absorbiert alle drei Fähigkeiten. Dies eliminiert das fundamentale Problem des Modell-Routings in Produktionssystemen. Einfachere Architektur, weniger Fehlermodi, niedrigere Betriebskosten.

Leistung Die Zählt

  • 40% Reduktion der Abschlusszeit in latenzoptimierten Konfigurationen
  • 3-fache Steigerung der Anfragen pro Sekunde in durchsatzoptimierten Konfigurationen
  • 256K Token Kontextfenster
  • Konfigurierbares Reasoning zur Steuerung der Denktiefe

Apache 2.0: Wirklich Offen

  • Kommerzielle Nutzung ohne Einschränkungen
  • Modifikation und Distribution erlaubt
  • Keine Copyleft-Verpflichtungen

Zum Vergleich: Metas Llama-Modelle haben Nutzungsbeschränkungen über 700 Millionen monatlich aktive Nutzer. Mistral Small 4s Apache 2.0 hat keine solchen Einschränkungen.

Praktische Anwendungen

Code-Review mit Visuellem Kontext

Entwickler können einen Screenshot eines UI-Bugs zusammen mit dem relevanten Code einreichen. Ein einziger Inferenzaufruf statt zwei Modelle.

Dokumentenanalyse mit Reasoning

Das Modell kann Dokumente visuell lesen, Informationen extrahieren, über Implikationen nachdenken und Empfehlungen generieren — alles in einem Durchgang.

Agentische Entwicklungsworkflows

Für Aufgaben die Planung, Code-Erstellung und Testing erfordern, behält das einheitliche Modell konsistenten Kontext über alle drei Phasen bei.

Vergleich

  • Llama 3.3 70B (Meta): Dichtes Modell, höhere Rechenkosten, kein nativer multimodaler Support
  • Gemma 3 27B (Google): Effizient aber deutlich kleiner
  • Qwen 3 235B-A22B (Alibaba): Großes MoE-Modell mit restriktiverer Lizenz

Erste Schritte

  1. Hardware: Minimum 48GB VRAM. Mit 4-Bit-Quantisierung auf GPUs mit 24GB VRAM
  2. Frameworks: vLLM, TGI, Ollama und llama.cpp ab dem ersten Tag
  3. MCP-Integration: Funktioniert mit Model Context Protocol Servern
ollama run mistral-small-4

Fazit

Mistral Small 4 repräsentiert einen breiteren Trend: Konvergenz. Die Ära separater Modelle für separate Fähigkeiten endet. Bei TEN INVENT sehen wir Mistral Small 4 als das stärkste verfügbare Open-Source-Basismodell.

Ein Modell, drei Aufgaben, null Lizenzprobleme.