← ← Înapoi la Idei AI

Mistral Small 4: Un Singur Model Open-Source Care Înlocuiește Trei

Publicat martie 2026

Publicat pe blogul TEN INVENT · Martie 2026

Pe 16 martie 2026, Mistral AI a lansat ceva ce ar trebui să-i facă pe toți dezvoltatorii să-și reconsidere stack-ul de modele. Mistral Small 4 este un model Mixture-of-Experts cu 119 miliarde de parametri, lansat sub Apache 2.0, care unifică raționamentul, înțelegerea multimodală și codarea agentică într-un singur model. Pentru prima dată, nu trebuie să alegi între un model rapid de instrucțiuni, un motor puternic de raționament sau un asistent multimodal.

La TEN INVENT, rulăm mai multe modele pentru sarcini diferite. Ideea de a consolida totul într-un singur model open-source este suficient de convingătoare încât am început testarea din prima zi.

Arhitectura: 128 Experți, 6 Miliarde Activi

Mistral Small 4 folosește o arhitectură Mixture-of-Experts (MoE) cu 128 rețele expert, activând doar 4 experți per token. Deși modelul total are 119 miliarde parametri, doar 6 miliarde sunt active pentru orice token dat.

Aceasta este o decizie critică de design. Modelele MoE oferă capacitatea de cunoaștere a unui model masiv cu costul de inferență al unuia mult mai mic. Costul computațional per token este comparabil cu rularea unui model dens de 6-8 miliarde parametri.

Trei Modele într-Unul

Anterior, Mistral menținea familii separate de modele:

Magistral pentru raționament complex
Pixtral pentru înțelegere multimodală a imaginilor și documentelor
Devstral pentru codare agentică și fluxuri de dezvoltare

Mistral Small 4 absoarbe toate trei capabilitățile. Aceasta elimină o problemă fundamentală în sistemele AI de producție: rutarea modelelor. Cu un model unificat, fiecare cerere merge la același model care are toate capabilitățile necesare. Arhitectură mai simplă, mai puține moduri de eșec, cost operațional mai mic.

Performanță Care Contează

Reducere de 40% a timpului de completare în configurații optimizate pentru latență
Creștere de 3x a cererilor pe secundă în configurații optimizate pentru throughput
Fereastră de context de 256K tokeni
Raționament configurabil pentru controlul profunzimii de gândire

Îmbunătățirea latenței este deosebit de importantă pentru fluxurile agentice. O reducere de 40% pe parcursul unui flux de lucru agentic poate însemna diferența între finalizarea unei sarcini în 30 secunde versus 50.

Apache 2.0: Cu Adevărat Deschis

Utilizare comercială fără restricții: Poți implementa în producție și încarca clienți fără taxe de licențiere
Modificare și distribuție: Poți face fine-tuning, modifica arhitectura și distribui versiunea modificată
Fără obligații copyleft

Pentru comparație, modelele Llama de la Meta au restricții de utilizare peste 700 milioane de utilizatori lunari activi. Licența Apache 2.0 a Mistral Small 4 nu are astfel de constrângeri.

Aplicații Practice Pe Care Le Testăm

Revizuire de Cod cu Context Vizual

Dezvoltatorii pot trimite un screenshot al unui bug UI alături de codul relevant, iar modelul înțelege atât problema vizuală cât și contextul codului. Un singur apel de inferență în loc de două modele.

Analiză de Documente cu Raționament

Clienții trimit contracte sau documentație tehnică ca imagini sau PDF-uri. Mistral Small 4 poate citi documentul vizual, extrage informații, raționa asupra implicațiilor și genera recomandări — totul într-un singur pas.

Fluxuri de Dezvoltare Agentice

Pentru sarcini de dezvoltare care necesită planificare, scriere de cod și testare, modelul unificat menține context consistent pe toate cele trei faze. Nu se pierd informații în transferuri între modele.

Cum Se Compară

Llama 3.3 70B (Meta): Model dens, costuri de calcul mai mari, fără suport multimodal nativ
Gemma 3 27B (Google): Eficient dar semnificativ mai mic decât cei 119B parametri ai Mistral
Qwen 3 235B-A22B (Alibaba): Model MoE mare dar cu licență mai restrictivă

Mistral Small 4 ocupă o poziție unică: suficient de mare pentru a fi capabil, suficient de eficient pentru hardware rezonabil, și suficient de permisiv pentru implementare oriunde.

Cum Să-l Rulezi

Hardware: Minim 48GB VRAM pentru precizie completă. Cu quantizare 4-bit, rulează pe GPU-uri cu 24GB VRAM
Framework-uri: Suportat de vLLM, TGI, Ollama și llama.cpp din prima zi
Integrare MCP: Funcționează cu serverele Model Context Protocol

ollama run mistral-small-4

Concluzia

Mistral Small 4 reprezintă un trend mai larg: convergența. Era menținerii de modele separate pentru capabilități separate se încheie. La TEN INVENT, vedem Mistral Small 4 ca cel mai puternic model fundament open-source disponibil astăzi.

Ecosistemul AI open-source tocmai a făcut un pas semnificativ înainte. Un model, trei joburi, zero bătăi de cap cu licența.