Einführung
Du hast ein lokales KI-Modell auf deinem Rechner. Du stellst eine Frage zu einem internen Firmendokument. Die Antwort? Komplett erfunden. Nicht weil das Modell schlecht ist — sondern weil es dein Dokument nie gesehen hat. Es wurde nicht auf deinen Daten trainiert.
Dies ist die grundlegende Einschränkung jedes Sprachmodells: Es kennt nur das, was es während des Trainings gelernt hat. Wenn die Information nicht in den Trainingsdaten war, erfindet das Modell (halluziniert) oder gibt ehrlich zu, dass es es nicht weiß.
RAG (Retrieval-Augmented Generation) löst genau dieses Problem. Es ist die Technik, die deinem Modell Zugriff auf deine Dokumente gibt — ohne Neuentraining, ohne Cloud, ohne zusätzliche Kosten. Und in LM Studio kannst du das direkt auf deinem Rechner machen.
In diesem Artikel erkläre ich dir, was RAG ist, wie es technisch funktioniert (aber auf verständliche Weise), und wie du es praktisch in LM Studio konfigurierst.
Was ist RAG?
RAG steht für Retrieval-Augmented Generation — in etwa "Generierung augmentiert durch Retrieval". Es klingt kompliziert, aber das Prinzip ist einfach.
Die Analogie mit dem Prüfungsbuch
Stelle dir zwei Szenarien bei einer Prüfung vor:
Ohne RAG: Der Student muss aus dem Gedächtnis antworten. Wenn er das entsprechende Kapitel gelernt hat, antwortet er gut. Andernfalls erfindet er etwas Plausibles — genau das, was KI-Modelle tun, wenn sie halluzinieren.
Mit RAG: Der Student darf das Buch konsultieren. Vor der Antwort sucht er im Buch nach relevanten Passagen, liest sie und formuliert dann seine Antwort auf der Grundlage konkreter Informationen.
RAG macht genau das für ein KI-Modell: Vor der Generierung einer Antwort durchsucht es deine Dokumente nach den relevantesten Passagen, "fügt" sie deiner Frage hinzu, und dann antwortet das Modell mit dem echten Kontext vor sich.
Wie funktioniert RAG technisch?
RAG hat drei unterschiedliche Phasen: Datenvorbereitung, Retrieval und Generierung. Nehmen wir sie nacheinander.
Phase 1: Datenvorbereitung (einmalig durchgeführt)
Diese Phase transformiert deine Dokumente in ein Format, das die KI schnell durchsuchen kann.
Schritt 1 — Chunking (Fragmentierung)
Deine Dokumente (PDFs, Word, Text) werden in kleine Stücke namens "Chunks" geschnitten. Warum? Weil ein KI-Modell ein begrenztes Kontextfenster hat — du kannst nicht 500 Seiten auf einmal übergeben. Typische Chunks haben zwischen 200 und 1000 Zeichen, mit etwas Überlappung dazwischen, damit der Kontext an den Grenzen zwischen Fragmenten nicht verloren geht.
Zum Beispiel wird ein 100-seitiges technisches Handbuch zu einigen hundert kurzen Fragmenten, jedes mit einer Idee oder einem kohärenten Absatz.
Schritt 2 — Embedding (Vektorisierung)
Jeder Chunk wird in einen Vektor transformiert — eine Liste von Zahlen, die die semantische Bedeutung des Textes erfasst. Dieser Prozess heißt "Embedding" und wird von einem spezialisierten Modell durchgeführt (nicht vom Hauptkonversationsmodell).
Was bedeutet das konkret? Zwei Sätze mit ähnlicher Bedeutung werden ähnliche Vektoren haben, auch wenn sie verschiedene Wörter verwenden. Zum Beispiel:
- "Der Mitarbeiter hat Anspruch auf 25 Urlaubstage" → Vektor [0.23, 0.87, 0.11, ...]
- "Jeder Arbeitnehmer genießt 25 Tage Freizeit" → Vektor [0.24, 0.85, 0.13, ...]
Diese Vektoren sind im mathematischen Raum nahe beieinander, weil die Bedeutung ähnlich ist. Diese Eigenschaft ist für die Suche entscheidend.
Schritt 3 — Speicherung in der Vektordatenbank
Alle Vektoren werden in einer Vektordatenbank gespeichert — eine Datenstruktur, die für Ähnlichkeitssuchen optimiert ist (FAISS, ChromaDB, Milvus).
Phase 2: Retrieval (bei jeder Frage)
- Deine Frage wird ebenfalls in einen Vektor transformiert.
- Der Fragenvектор wird mit allen Vektoren in der Datenbank verglichen.
- Die ähnlichsten Chunks werden zurückgegeben — also die Fragmenten aus deinen Dokumenten, deren Bedeutung am nächsten an deiner Frage liegt.
Dieser Prozess heißt semantische Suche und ist grundlegend anders als klassische Schlüsselwort-Suche. Semantische Suche versteht die Bedeutung, nicht nur die exakte Wortübereinstimmung.
Zum Beispiel, wenn du fragst "wie viele Urlaubstage habe ich?", wird die semantische Suche das Fragment über "Urlaubszeit" finden — auch wenn die Wörter "Urlaubstage" nicht genau im Text erscheinen.
Phase 3: Generierung
Die relevanten Chunks aus der vorherigen Phase werden in den Prompt eingefügt, der an das Modell gesendet wird. Das Modell generiert eine Antwort auf der Grundlage der tatsächlichen Informationen aus deinen Dokumenten. Ein gut konfigurierter RAG weist das Modell an, nicht zu erfinden — wenn die Information nicht in den bereitgestellten Dokumenten gefunden wird, muss das Modell dies anerkennen, anstatt zu halluzinieren.
Der interne Prompt sieht ungefähr so aus:
KONTEXT:
[Fragment 1 aus deinem Dokument]
[Fragment 2 aus deinem Dokument]
[Fragment 3 aus deinem Dokument]
FRAGE: Wie viele Urlaubstage habe ich Anspruch?
Unter Verwendung des KONTEXTS oben, beantworte die FRAGE.
Wenn der KONTEXT die Antwort nicht enthält, sage, dass du es nicht weißt.
Dieser letzte Punkt ist entscheidend.
Warum RAG und nicht Fine-Tuning?
Eine natürliche Frage: Warum das Modell nicht direkt auf unsere Daten trainieren? Hier ist eine Vergleichstabelle:
| Kriterium | RAG | Fine-Tuning | |-----------|-----|-------------| | Kosten | Minimal (läuft lokal) | Hoch (GPU-Stunden, saubere Daten) | | Setup-Zeit | Minuten | Stunden bis Tage | | Datenaktualisierung | Sofort (Dokumente ändern) | Vollständiges Neutraining | | Präzision auf spezifischen Daten | Ausgezeichnet (zitiert direkt) | Variabel (kann halluzinieren) | | Benötigte Hardware | Normal (jeder PC mit LM Studio) | Starker GPU für Training | | Vertraulichkeit | Alles lokal, null Cloud | Abhängig von der Methode |
RAG gewinnt klar für Szenarien, in denen du häufig wechselnde Dokumente hast und Antworten in konkreten Quellen verankern willst.
RAG in LM Studio: vier praktische Variationen
LM Studio bietet mehrere Möglichkeiten, RAG zu nutzen, von der einfachsten bis zur fortgeschrittensten.
Variation 1: Chat mit Dokumenten (integriert, Null-Konfiguration)
LM Studio hat eine RAG-Funktionalität direkt in der Chat-Schnittstelle integriert. Es ist die einfachste Möglichkeit, zu beginnen.
Wie es funktioniert:
- Öffne einen neuen Chat in LM Studio mit deinem bevorzugten Modell geladen.
- Hänge Dokumente direkt an die Chat-Nachricht an (Drag & Drop oder klicke auf das Anhängen-Symbol).
- Stelle die Frage und sende.
Unterstützte Formate: PDF, DOCX, TXT, CSV.
Was im Hintergrund passiert:
- Wenn das Dokument kurz ist und in den Kontextfenster des Modells passt, fügt LM Studio den gesamten Inhalt in die Unterhaltung ein. Dies ist das ideale Szenario — das Modell sieht alles.
- Wenn das Dokument lang ist, aktiviert LM Studio automatisch RAG: fragmentiert das Dokument, sucht nach relevanten Passagen und liefert sie dem Modell.
Einschränkungen: Maximal 5 Dateien, kombinierte Größe von maximal 30 MB. Der Cache wird mit dem Chat gelöscht.
Wann zu verwenden: Wenn du ein oder zwei Dokumente hast und eine schnelle Antwort ohne Setup willst. Perfekt für "lies dieses PDF und beantworte meine Fragen".
Variation 2: RAG v2 Plugin (persistent, konfigurierbar)
Für ein seriöseres Setup unterstützt LM Studio dedizierte RAG-Plugins. Das rag-v2 (von dirty-data) oder das native rag-v1 bietet erweiterte Funktionalität.
Was es im Vergleich zur integrierten Version hinzufügt:
- Automatische Erkennung des Embedding-Modells — das Plugin findet automatisch ein kompatibles Embedding-Modell, das bereits in LM Studio heruntergeladen wurde
- Vollständige Injektion von Inhalten — für kleine Dokumente, fügt alles ein; für große macht selektives Retrieval
- Konfigurierbar — du kannst die Anzahl der zurückgegebenen Chunks, das verwendete Embedding-Modell und andere Parameter anpassen
Konfiguration:
- Gehe in LM Studio zum Plugin-Bereich.
- Suche und installiere
rag-v2oder prüfe, obrag-v1(integriert) bereits aktiv ist. - Konfiguriere aus der UI:
- Embedding-Modell — lasse auf "Auto-Detect" oder wähle manuell ein Modell aus (z.B.
nomic-embed-text) - Retrieval-Limit — wie viele Chunks zurückgegeben werden sollen (Standard 5, erhöhen für komplexe Dokumente)
- Automatisches Entladen des Modells — ob das Embedding-Modell nach dem Retrieval aus dem Speicher entladen werden soll
- Embedding-Modell — lasse auf "Auto-Detect" oder wähle manuell ein Modell aus (z.B.
Variation 3: Big RAG Plugin (für große Dokumentensammlungen)
Wenn du GB an Dokumenten hast — zum Beispiel eine vollständige technische Dokumentationsbasis, Handbücher oder Verträge — ist das Big RAG-Plugin (von mindstudio) die Lösung.
Funktionen:
- Rekursives Verzeichnis-Scanning — lege alle Dokumente in einen Ordner und das Plugin indiziert alles
- Mehrere Formate — HTML, PDF, EPUB, TXT, Markdown und sogar Bilder mit OCR
- Inkrementelle Indizierung — beim Hinzufügen neuer Dokumente wird nicht alles neu indiziert
- Sharded Vektorspeicherung — unterstützt große Sammlungen ohne Leistungsprobleme
Setup:
-
Installiere das Big RAG Plugin aus LM Studio.
-
Konfiguriere das Dokumentenverzeichnis (z.B.
~/Documents/knowledge-base). -
Konfiguriere das Vektorspeicherverzeichnis (z.B.
~/.lmstudio/rag-db). -
Optional, passe an:
- Chunk-Größe — 512 für allgemeine Dokumente, 1024 für technischen Inhalt
- Retrieval-Limit — wie viele Ergebnisse zurückgegeben werden (10 für höhere Präzision)
- Affinitätsschwellenwert — Ähnlichkeitsschwellenwert (0.6 für hohe Präzision, 0.4 für breitere Ergebnisse)
-
Starte das Plugin. Die erste Indizierung dauert einige Minuten, je nach Dokumentenvolumen.
Variation 4: AnythingLLM — dedizierte RAG-Oberfläche
Für maximale Kontrolle und beste Erfahrung kannst du AnythingLLM als Vermittler verwenden. AnythingLLM ist eine separate Anwendung, die den RAG komplett verwaltet und LM Studio als Backend für das Modell nutzt.
Wie die Teile verbunden werden:
Du → AnythingLLM (Oberfläche + RAG-Engine) → LM Studio (dient dem LLM)
Setup:
- LM Studio: Lade dein Modell (z.B. Qwen3-8B) und starte den lokalen Server (Server-Tab, klicke auf Start).
- AnythingLLM: Lade von anythingllm.com herunter und installiere.
- Konfiguriere in AnythingLLM:
- LLM-Anbieter: wähle "LM Studio" und füge die lokale URL hinzu (
http://localhost:1234/v1) - Embedding-Modell: du kannst das Modell aus LM Studio oder das integrierte von AnythingLLM verwenden
- LLM-Anbieter: wähle "LM Studio" und füge die lokale URL hinzu (
- Erstelle einen Workspace und lade Dokumente hoch.
- AnythingLLM verarbeitet automatisch: Chunking → Embedding → Vektorspeicherung.
- Beginne, Fragen zu stellen. AnythingLLM macht Retrieval und sendet den Kontext an LM Studio für die Generierung.
AnythingLLM-Vorteile:
- Dedizierte Oberfläche für Dokumentenverwaltung
- Separate Workspaces für verschiedene Projekte
- Keine Begrenzung der Anzahl von Dokumenten
- Unterstützung für PDF, TXT, DOCX und viele andere
- Zwei Modi: Chat (konversationell, mit Kontext aus Training + RAG) und Query (streng aus deinen Dokumenten, null Halluzination)
Auswahl des Embedding-Modells
Ein oft vernachlässigter aber kritischer Aspekt: Das Embedding-Modell ist genauso wichtig wie das Hauptkonversationsmodell. Es bestimmt die Qualität der semantischen Suche.
Empfehlungen für LM Studio:
| Modell | Größe | Empfohlen für |
|--------|-----------|-------------------|
| nomic-embed-text | ~270MB | Allgemeine Verwendung, guter Qualität/Größe-Verhältnis |
| all-MiniLM-L6-v2 | ~80MB | Schnell, ideal für begrenzte Hardware |
| bge-small-en-v1.5 | ~130MB | Gute Präzision auf englischen Texten |
| multilingual-e5-large | ~1.2GB | Multilinguale Dokumente (einschließlich Rumänisch) |
Wenn du vorwiegend mit rumänischsprachigen Dokumenten arbeitest, wähle ein multilinguales Modell. Modelle, die nur auf Englisch trainiert wurden, werden schwächere Embeddings für rumänischen Text machen, was die Retrieval-Qualität verringert.
Tipps für effizientes RAG
1. Dokumentqualität ist entscheidend
Das Prinzip "Garbage in, garbage out" gilt doppelt für RAG. Gut strukturierte Dokumente mit klaren Überschriften und kohärenten Absätzen produzieren bessere Chunks und präziseres Retrieval. Ein PDF, das als Bild ohne OCR gescannt wurde, wird nichts Nützliches produzieren.
2. Chunk-Größe beeinflusst die Qualität
- Chunks zu groß → Vektoren werden zu allgemein, Retrieval verpasst spezifische Details
- Chunks zu klein → semantischer Kontext geht verloren, Fragmente haben keine individuelle Bedeutung mehr
- Allgemeine Regel: 500-1000 Zeichen pro Chunk, mit 10-20% Überlappung
3. Formulierung der Fragen macht den Unterschied
Mit RAG schlagen spezifische Fragen vage Fragen:
- ❌ "Was sagt das Vertragswerk?" — zu allgemein, Retrieval weiß nicht, wonach gesucht werden soll
- ✅ "Was ist die Zahlungsbedingung im Vertrag mit Lieferant X?" — Retrieval kann den genau relevanten Fragment identifizieren
Erwähne Begriffe, Konzepte und Wörter, die du im Dokument erwarten würdest. Das hilft der semantischen Suche enorm.
4. Überprüfe Quellen
Ein großer Vorteil von RAG: Du kannst das Modell bitten, die Quelle zu zitieren. LM Studio zeigt Zitate am Ende der Antwort an, und AnythingLLM kann genau zeigen, aus welchem Dokument und Fragment die Information stammt. Immer überprüfen — RAG reduziert Halluzinationen, eliminiert sie aber nicht vollständig.
5. Experimentiere mit Parametern
Es gibt keine universell perfekten Einstellungen. Teste:
- Erhöhe das Retrieval-Limit, wenn Antworten unvollständig erscheinen
- Verringere den Affinitätsschwellenwert, wenn keine Ergebnisse gefunden werden
- Versuche ein anderes Embedding-Modell, wenn die Präzision niedrig ist
- Passe die Chunk-Größe je nach Dokumenttyp an
Praktische Anwendungsfälle
RAG ist nicht nur eine interessante Technologie — es hat konkrete und sofortige Anwendungen:
Interne Dokumentation: Lade die Verfahrenshandbücher deines Unternehmens hoch. Mitarbeiter stellen Fragen in natürlicher Sprache und erhalten Antworten basierend auf den tatsächlichen Verfahren.
Vertragsanalyse: Lade Verträge hoch und frage nach spezifischen Klauseln, Bedingungen, Verpflichtungen. Schneller als manuelle Suche.
Technischer Support: Lade die technische Dokumentation deiner Produkte hoch. Erstelle einen Assistenten, der technische Fragen auf Basis der echten Dokumentation beantwortet.
Forschung: Lade akademische Arbeiten oder Industrieberichte hoch. Stelle querschnittliche Fragen, die Informationen aus mehreren Quellen synthetisieren.
Onboarding: Neuer Mitarbeiter? Gib ihm Zugriff auf einen RAG-Chatbot, der alles enthält, was er wissen muss: interne Richtlinien, Verfahren, Werkzeuge, Kontakte.
Fazit
RAG ist wahrscheinlich die praktischste und zugänglichste Möglichkeit, ein KI-Modell für deine spezifischen Daten nützlich zu machen. Es erfordert kein kostspieliges Training, funktioniert lokal mit LM Studio und kann in Minuten konfiguriert werden.
Das Prinzip ist einfach: statt dem Modell beizubringen, alles aus dem Gedächtnis zu wissen, erlaubst du ihm, das "Handbuch zu konsultieren". Das Ergebnis? Antworten verankert in echten Dokumenten, drastische Reduzierung von Halluzinationen und ein KI-Assistent, der deine Geschäftstätigkeit wirklich kennt.
Starte mit der einfachen Version — ziehe ein PDF per Drag & Drop in den LM Studio-Chat. Teste einige Fragen. Dann, je nach Bedarf, wechsle zu Plugins oder AnythingLLM für ein vollständiges Setup. Die Lernkurve ist sanft, und die Vorteile sind sofort spürbar.
Dieser Artikel ist Teil der technischen Publikationsreihe des TEN INVENT Blogs. Wenn du ein RAG-System für dein Unternehmen implementieren möchtest oder Fragen zu lokaler KI hast, kontaktiere uns.