RAG-Systeme: Chatten Sie mit Ihrem Firmenwissen

Retrieval-Augmented Generation macht Ihre Verträge, PDFs und Intranet-Artikel intelligent durchsuchbar. Halluzinationsfrei und 100% lokal.

Das Problem: KI erfindet Fakten (Halluzination)

Sprachmodelle (LLMs) sind extrem gut im Formulieren von Texten, aber sie haben ein gravierendes Problem mit dem Gedächtnis. Sie kennen keine aktuellen Preislisten, sie wissen nichts über den Vertrag, den Sie gestern abgeschlossen haben, und wenn sie eine Antwort nicht genau wissen, erfinden sie oft plausibel klingende, aber völlig falsche Fakten – sogenannte Halluzinationen. Für den geschäftlichen Einsatz ist das ein No-Go. Kein Unternehmen kann es sich leisten, dass ein KI-Assistent falsche rechtliche Auskunft gibt, einen nicht existierenden Produktnamen nennt oder sich einen Vertragsparagraphen schlicht „ausdenkt„.

Genau dieses Problem löst die RAG-Architektur (Retrieval-Augmented Generation) – und sie ist für die meisten Unternehmensanwendungen die effizientere Alternative zu einem vollständigen Fine-Tuning des Modells.

Was ist ein RAG-System? Definition und Grundprinzip

Retrieval-Augmented Generation ist eine Technik, bei der ein Sprachmodell vor der Texterzeugung zunächst eine aktive Informationssuche in einer externen Wissensdatenbank durchführt. Das LLM arbeitet damit nicht mehr aus dem Gedächtnis, sondern bekommt die relevantesten Fakten aus Ihren eigenen Dokumenten in Echtzeit als Kontext „gereicht„. Die KI muss nichts mehr erfinden – sie liest nach.

Der Begriff „Retrieval-Augmented Generation„ beschreibt exakt diesen dreistufigen Prozess: Retrieve (relevante Dokumente finden), Augment (den Prompt damit anreichern), Generate (eine faktenbasierte Antwort generieren). Das Ergebnis ist eine KI-Wissensdatenbank, die auf Ihre gesamten Unternehmensdaten zugreifen kann, ohne dass ein teures und zeitaufwendiges Retraining des Modells nötig ist.

Die RAG-Architektur im Detail: Schritt für Schritt

Phase 1: Ingestion – Daten einlesen und vorbereiten

Der erste Schritt ist die Anbindung Ihrer Datenquellen. DATUREX unterstützt dabei ein breites Spektrum an Quellformaten und Systemen:

PDF-Dokumente (inkl. gescannter PDFs über OCR)
Microsoft Word, PowerPoint, Excel
SharePoint, Confluence, Notion, Nextcloud
Intranet-Webseiten und interne Wikis
Datenbanken (SQL, PostgreSQL) und CRM-Systeme
E-Mails (mit entsprechender Rechtekontrolle)
Echtzeit-Datenfeeds via API

Alle Dokumente werden eingelesen, bereinigt (Metadaten entfernt, Layouts normalisiert) und für den nächsten Schritt vorbereitet.

Phase 2: Chunking – Dokumente in sinnvolle Abschnitte unterteilen

Ein 500-seitiges Handbuch kann nicht als Ganzes verarbeitet werden – sowohl aus technischen Gründen (Kontextfenster des LLMs) als auch aus Relevanzgründen (die KI soll nur die relevante Seite finden, nicht das gesamte Buch). Deshalb zerteilen wir Dokumente in kleinere Abschnitte, sogenannte Chunks.

Die Chunking-Strategie hat großen Einfluss auf die Suchqualität des RAG-Systems:

Feste Zeichenanzahl (Fixed-Size Chunking): Einfach, aber manchmal werden Sätze mitten im Chunk abgebrochen. Gut für gleichförmige Texte.
Semantisches Chunking: Chunks werden an semantischen Grenzen (Absatz-, Kapitel- oder Themenwechsel) aufgeteilt. Bessere Qualität, etwas aufwendiger.
Hierarchisches Chunking (Parent-Child): Kleine, präzise Chunks für die Suche, aber der übergeordnete Kontext (größerer Abschnitt) wird mit übergeben. Goldstandard für komplexe Dokumente.

Phase 3: Embedding – Texte in Vektoren umwandeln

Das Herzstück jedes RAG-Systems ist das Embedding-Modell. Es wandelt jeden Text-Chunk in einen hochdimensionalen Zahlenvektor um – eine mathematische Darstellung der semantischen Bedeutung des Textes. Texte mit ähnlicher Bedeutung erhalten ähnliche Vektoren, unabhängig von den exakten Formulierungen. Das ermöglicht semantische Suche: „Was ist der Urlaubsanspruch für Teilzeitkräfte?„ findet auch das Dokument, das von „Urlaubstagen bei reduzierter Stundenzahl„ spricht.

Wir setzen dabei auf bewährte Embedding-Modelle wie text-embedding-3-large (OpenAI API) für Cloud-Lösungen oder lokal betriebene Modelle wie nomic-embed-text, mxbai-embed-large oder multilingual-e5-large für vollständig datenschutzkonforme On-Premise-Installationen. Für deutschsprachige Dokumente optimieren wir bewusst auf deutsche oder mehrsprachige Embedding-Modelle, die die Besonderheiten der deutschen Sprache korrekt abbilden.

Phase 4: Vektordatenbank – das Gedächtnis des Systems

Die erzeugten Vektoren werden in einer spezialisierten Vektordatenbank gespeichert. Im Gegensatz zu relationalen Datenbanken sind Vektordatenbanken darauf optimiert, in Bruchteilen einer Sekunde die ähnlichsten Vektoren zu einem gegebenen Suchvektor zu finden (Approximate Nearest Neighbor Search, ANN). Je nach Anforderung setzen wir auf:

Qdrant: Hochperformant, Open Source, ideal für On-Premise-Deployments mit Berechtigungskonzepten
Milvus: Enterprise-tauglich, skaliert auf Milliarden von Vektoren, ideal für Großunternehmen
ChromaDB: Leichtgewichtig, ideal für Prototypen und kleinere Wissensbasen
pgvector: PostgreSQL-Extension für Unternehmen, die ihre bestehende Datenbankinfrastruktur nutzen wollen

Phase 5: Retrieval und Generierung – die intelligente Antwort

Wenn ein Nutzer eine Frage stellt, wird diese ebenfalls durch das Embedding-Modell in einen Vektor umgewandelt. Das System sucht in der Vektordatenbank nach den semantisch ähnlichsten Chunks (typischerweise die Top 3–10 Ergebnisse). Diese Chunks werden dann zusammen mit der ursprünglichen Frage als erweiterter Prompt an das lokale LLM übergeben:

„Beantworte die folgende Frage AUSSCHLIESSLICH basierend auf den folgenden Dokumentausschnitten. Wenn die Antwort nicht in den Ausschnitten enthalten ist, sage: ‚Ich habe dazu keine Information in unseren Dokumenten.' Gib immer die Quelle (Dokumentname, Seitenzahl) an.„

Das LLM generiert nun eine Antwort, die faktisch korrekt und direkt belegt ist. Der Nutzer sieht nicht nur die Antwort, sondern auch die genaue Quellenangabe – so kann er die Aussage jederzeit in 30 Sekunden selbst verifizieren.

Vorteile von RAG gegenüber Fine-Tuning

Kriterium	RAG	Fine-Tuning
Aktualität der Daten	Echtzeit (Dokument hinzufügen = sofort verfügbar)	Retraining nötig bei neuen Informationen
Kosten	Geringer (kein GPU-Training)	Höher (GPU-Training erforderlich)
Halluzinationsrisiko	Sehr gering (faktenbasiert)	Mittel (Modell kann immer noch erfinden)
Erklärbarkeit / Audit	Hoch (Quellen sichtbar)	Gering (Black Box)
Implementierungszeit	Wochen	Wochen bis Monate

Lokales RAG mit Ollama und LlamaIndex – 100% On-Premise

Für Unternehmen mit strengen Datenschutzanforderungen – etwa Anwaltskanzleien, Arztpraxen, öffentliche Verwaltungen oder Unternehmen im KRITIS-Bereich – ist ein vollständig lokales RAG-System die einzig akzeptable Lösung. DATUREX baut diese Systeme auf bewährten Open-Source-Stacks auf:

Ollama: Betreibt lokale LLMs (Llama 3, Mistral, Gemma) mit einer API, die vollständig OpenAI-kompatibel ist. Installation auf einem Standard-Server mit NVIDIA-GPU in wenigen Stunden möglich.
LlamaIndex: Das führende Open-Source-Framework für RAG-Pipelines in Python. Bietet fertige Konnektoren für über 100 Datenquellen, fortgeschrittene Chunking- und Retrieval-Strategien sowie einfache Integration mit allen gängigen Vektordatenbanken.
LangChain: Alternativ zu LlamaIndex, besonders gut für komplexe, agentische Workflows geeignet, bei denen die KI mehrere Schritte eigenständig plant und ausführt.
Open-WebUI: Eine elegante, selbst gehostete Benutzeroberfläche, die Ihren Mitarbeitern eine vertraute Chat-Oberfläche (ähnlich ChatGPT) bietet – vollständig lokal und ohne Cloud-Verbindung.

Das Ergebnis: Ihre Mitarbeiter nutzen eine ChatGPT-ähnliche Oberfläche, die vollständig in Ihrer internen IT-Infrastruktur läuft. Keine Daten verlassen jemals Ihr Netzwerk.

Typische Anwendungsfälle für RAG-Systeme

Wissensdatenbanken und internes Frage-Antwort-System

Stellen Sie sich vor: Ein neuer Mitarbeiter in der Buchhaltung fragt: „Wie erstelle ich eine Reisekostenabrechnung für eine Auslandsreise nach Österreich?„ Statt stundenlang Ordner zu wälzen, stellt er die Frage im „Corporate Brain„ und bekommt in Sekunden eine Antwort mit direktem Link auf die relevante Seite der Reisekosten-Richtlinie. Fragen, die sonst erfahrene Kollegen 10-mal am Tag beantworten müssen, werden vollautomatisch beantwortet – mit nachgewiesener Quellenangabe.

Kundenservice und Support-Automatisierung

RAG-basierte Chatbots im Kundenservice sind ihren regelbasierten Vorgängern weit überlegen. Sie verstehen natürlichsprachliche Anfragen, suchen in Ihren Produktdatenblättern, FAQ-Artikeln und Support-Dokumenten und geben präzise Antworten – statt dem Kunden einen langen „Hier sind 10 mögliche Artikel„-Link zu schicken. Die Zufriedenheitsrate im Support steigt signifikant, während die Anzahl der Eskalationen an menschliche Agenten sinkt.

Dokumentensuche und Vertragsanalyse (Legal Tech)

Anwälte und Paralegals verbringen bis zu 30 % ihrer Zeit mit dem Durchsuchen von Aktenbergen. Ein RAG-System auf Basis Ihrer gesamten Vertragsdatenbank ermöglicht Anfragen wie: „In welchen unserer aktiven Verträge gibt es eine Force-Majeure-Klausel, die Corona oder Pandemien explizit einschließt?„ Das System durchsucht in Sekunden tausende Dokumente und liefert die exakten Treffer mit Seitenzahl.

Technischer Support und Wartung

Servicetechniker im Feld haben keinen Platz für 40 Handbücher im Werkzeugkoffer. Mit einem RAG-System auf dem Tablet können sie per Spracheingabe fragen: „Fehlercode E-447 an der Hydraulikpresse HXL-3000 – was sind die wahrscheinlichsten Ursachen und welche Schritte zur Diagnose werden empfohlen?„ und bekommen sofort die relevante Seite aus dem Servicehandbuch angezeigt.

Marktforschung und Wettbewerbsanalyse

Ihre Research-Analysten und Strategen verarbeiten täglich Dutzende von Reports, Marktstudien und Presseartikeln. Ein RAG-System, das automatisch neue Dokumente aus definierten Quellen ingestioniert, ermöglicht Anfragen wie: „Was sind die wichtigsten Trends in der europäischen Halbleiterindustrie aus den Reports der letzten sechs Monate?„ – eine Zusammenfassung aus 50 Dokumenten in 10 Sekunden.

Datenschutz und Berechtigungskonzepte in RAG-Systemen

In Unternehmen darf nicht jeder Mitarbeiter alles sehen. Das Gehalt des Geschäftsführers, Entwürfe für Kündigungen oder laufende M&A-Verhandlungen sind für die meisten Mitarbeiter tabu. Unsere RAG-Architekturen integrieren sich tief in Ihr Active Directory oder LDAP. Das bedeutet:

Wenn „Mitarbeiter A„ eine Frage stellt, durchsucht die Vektordatenbank ausschließlich die Dokumente, für die „Mitarbeiter A„ ohnehin Leserechte hat.
Berechtigungen werden in Echtzeit aus Ihrem Active Directory abgerufen – sobald ein Mitarbeiter die Berechtigung verliert, hat er auch keinen RAG-Zugriff mehr.
Das gesamte System (Vektordatenbank, LLM, Embeddings) läuft zu 100% lokal auf Ihren Servern in Deutschland. Keine API-Anfragen an OpenAI, keine Cloud-Kosten, kein Datenleck.
Vollständige DSGVO-Konformität: Da keine personenbezogenen Daten die Unternehmensgrenze verlassen, sind aufwendige Drittland-Transfers und entsprechende Datenschutzvereinbarungen obsolet.

Warum DATUREX für Ihr RAG-System?

DATUREX GmbH aus Dresden hat in den vergangenen Jahren für mittelständische Unternehmen und öffentliche Auftraggeber zahlreiche RAG-Systeme konzipiert und implementiert. Wir verstehen sowohl die technischen Tiefen der Vektordatenbankoptimierung als auch die organisatorischen und datenschutzrechtlichen Anforderungen, die in deutschen Unternehmen gelten.

Unser Angebot umfasst:

Kostenloser Proof-of-Concept mit Ihren eigenen Dokumenten (5 Werktage)
Vollständige Implementierung mit Berechtigungsintegration und Corporate-Design-Oberfläche
Schulungen für Ihre IT-Abteilung zur eigenständigen Administration des Systems
Optional: Managed Service – wir übernehmen Betrieb, Updates und Monitoring

FAQ: Häufige Fragen zu RAG-Systemen

Wie unterscheidet sich ein RAG-System von einer normalen Volltextsuche?

Eine Volltextsuche (wie Elasticsearch) findet Dokumente, die exakt die gesuchten Schlüsselwörter enthalten. Ein RAG-System versteht die Bedeutung hinter der Frage semantisch: „Was kostet ein Urlaub für Angestellte im dritten Jahr?„ findet auch Dokumente, die nur „Jahresurlaub 3. Beschäftigungsjahr 28 Tage„ enthalten – ohne gemeinsame Wörter. Zudem generiert RAG eine fertige Antwort statt einer Liste von Links.

Welche Dokumentenmengen kann ein RAG-System verarbeiten?

Ein gut dimensioniertes RAG-System skaliert problemlos auf Millionen von Dokumenten. Die Suchgeschwindigkeit in einer Vektordatenbank liegt selbst bei 10 Millionen Chunks bei unter 100 Millisekunden. Für die meisten mittelständischen Unternehmen (10.000–200.000 Dokumente) ist eine einzelne Server-Installation mehr als ausreichend und kostet in der Anschaffung weniger als ein Mitarbeiter-PC.

Wie aktuell sind die Informationen im RAG-System?

Das hängt von der Synchronisierungsfrequenz ab, die wir gemeinsam konfigurieren. In der Regel richten wir automatische Synchronisierungen ein: z.B. alle neuen oder geänderten SharePoint-Dokumente werden jede Nacht automatisch neu eingelesen und vektorisiert. Bei kritischen Echtzeit-Anwendungen (z.B. Live-Preislisten) kann die Synchronisierung auch minütlich erfolgen.

Kann ein RAG-System auch auf mehrsprachigen Dokumenten arbeiten?

Ja. Mit mehrsprachigen Embedding-Modellen (z.B. multilingual-e5-large) versteht das System Fragen auf Deutsch, auch wenn die Quelldokumente auf Englisch sind – und umgekehrt. Für Unternehmen mit internationalem Dokumentenbestand ist das ein erheblicher Mehrwert.

Was kostet ein RAG-System für ein mittelständisches Unternehmen?

Ein typisches RAG-Projekt bei DATUREX liegt zwischen 8.000 € und 35.000 € für Konzeption, Implementierung und initiale Befüllung – abhängig von der Komplexität der Datenquellen, dem Umfang des Berechtigungskonzepts und der gewünschten Benutzeroberfläche. Die laufenden Betriebskosten bei On-Premise-Betrieb beschränken sich auf Strom und Hardware-Abschreibung – keine monatlichen API-Gebühren.

Kostenlose Beratung anfragen

Projekt starten

Lassen Sie uns über Ihr Projekt sprechen. Kostenlose Erstberatung.

Angebot anfragen

Telefon: 0351 / 79593513

App entwickeln lassen — regional oder remote?

Als App-Agentur in Dresden entwickeln wir native iOS/Android- und Cross-Platform-Apps für KMU, Startups und Konzerne. Von der UI/UX-Konzeption bis zum App-Store-Launch — Festpreis ab 15.000 €.

→ App-Entwicklung Dresden anfragen

RAG-Systeme & Vektordatenbanken