Eigene KI-Modelle trainieren (Finetuning & Custom LLMs)

Wir passen Open-Source-Modelle exakt an den Jargon, die Prozesse und das Spezialwissen Ihres Unternehmens an.

Standard-KI ist gut, eine unternehmenseigene KI ist überlegen

Modelle wie GPT-4 oder das quelloffene Llama 3 besitzen ein immenses Allgemeinwissen. Sie können Shakespeare zitieren oder Programmiercode schreiben. Doch wenn es um die spezifischen Prozesse, Produktnamen oder den Fachjargon Ihres Unternehmens geht, stoßen diese „Generalisten“ an ihre Grenzen. Sie wissen nicht, wie Ihre internen Artikelnummern aufgebaut sind, wie der Tonfall Ihrer Marketingabteilung klingt oder wie Ihre spezifischen Qualitätsrichtlinien lauten.

Die Lösung der DATUREX GmbH: Finetuning. Wir nehmen ein extrem leistungsstarkes Open-Source-Basismodell (Foundation Model) und trainieren es auf Ihren proprietären Daten weiter. Das Modell verinnerlicht Ihre Firmensprache, Ihr Fachwissen und Ihre gewünschten Formatierungen. Aus einem Generalisten wird ein absoluter Spezialist für exakt Ihr Geschäft.

Was bedeutet KI-Modelle trainieren? Grundlagen verständlich erklärt

Maschinelles Lernen (Machine Learning) ist der Prozess, bei dem ein Algorithmus aus Daten lernt, ohne explizit programmiert zu werden. Bei großen Sprachmodellen (Large Language Models, kurz LLMs) wurde dieses Training bereits in einem enormen Maßstab durchgeführt: Das Basismodell hat Milliarden von Webseiten, Büchern und Codezeilen gelesen und daraus ein breites Weltwissen extrahiert.

Wenn wir von KI-Modelle trainieren für Ihr Unternehmen sprechen, meinen wir in den meisten Fällen eines von zwei Szenarien:

Fine-Tuning: Das Basismodell wird auf einem kleinen, hochwertigen, domänenspezifischen Datensatz weitertrainiert. Das Modell „vergisst“ nicht sein Allgemeinwissen, lernt aber zusätzlich Ihre spezifischen Muster, Ihren Stil und Ihr Vokabular.
Training von Grund auf (Pretraining): Dies ist deutlich aufwendiger und teurer und ist in der Regel nur für sehr große Unternehmen oder spezialisierte Forschungseinrichtungen sinnvoll, die proprietäre Daten in Milliardengröße besitzen.

Für die überwiegende Mehrheit unserer Unternehmenskunden ist Fine-Tuning der ideale Ansatz: kosteneffizient, schnell umsetzbar und mit messbaren Qualitätsgewinnen gegenüber einem generischen Modell.

Der Finetuning-Prozess: Wie wir Ihr Modell „erziehen“

1. Bedarfsanalyse und Zieldefinition

Bevor wir eine einzige Zeile Code schreiben, führen wir eine detaillierte Bedarfsanalyse durch. Was soll das Modell konkret können? Welche Fehler macht das allgemeine Modell, die Ihr Business beeinträchtigen? Anhand dieser Analyse wählen wir das passende Basismodell aus – ob Llama 3, Mistral, Phi-3 oder ein anderes Open-Source-Modell – und definieren die Metriken, an denen wir den Trainingserfolg messen werden.

2. Datensammlung & Kuration (Data Engineering)

Der wichtigste Schritt beim maschinellen Lernen sind qualitativ hochwertige Daten (Ground Truth). Schlechte Trainingsdaten führen zwangsläufig zu einem schlechten Modell – man spricht vom „Garbage In, Garbage Out“-Prinzip. Wir unterstützen Sie dabei, Trainingsdatensätze aus Ihrem Unternehmen zu extrahieren. Das können hunderttausende beantwortete Support-Tickets, erfolgreiche Verkaufsangebote, technische Dokumentationen oder juristische Schriftsätze sein.

Unser Data-Engineering-Team übernimmt dabei folgende Schritte:

Datenselektion: Welche Daten sind repräsentativ für das gewünschte Modellverhalten? Welche enthalten Fehler oder Ausreißer, die das Modell in die falsche Richtung lenken würden?
Bereinigung und Normalisierung: Doppelte Einträge, Sonderzeichen und inkonsistente Formatierungen werden entfernt.
Anonymisierung: Personenbezogene Daten (DSGVO-konform), Geheimnummern und andere sensible Informationen werden durch Platzhalter ersetzt.
Formatierung: Die Daten werden in das für das Training benötigte Format gebracht (typischerweise JSONL mit Prompt-Completion-Paaren oder Chatml-Format).

3. Labeling und Annotation

Für bestimmte Trainingsaufgaben – insbesondere Klassifikation oder Named Entity Recognition – müssen Trainingsdaten manuell annotiert werden. Das bedeutet: Menschliche Experten lesen durch die Trainingsdaten und kennzeichnen z.B. alle Erwähnungen von Produktnamen, markieren positive und negative Kundenbewertungen oder bewertet zwei konkurrierende Modellantworten nach ihrer Qualität.

Dieses Human-in-the-Loop-Labeling ist zeitaufwendig, aber wichtig für die finale Modellqualität. Je nach Datenmenge und Komplexität nutzen wir interne Experten, crowd-basierte Labeling-Plattformen oder – wo sinnvoll – schwächere KI-Modelle, die einen ersten Labeling-Vorschlag machen und von Menschen korrigiert werden (sogenanntes „Silver Labeling“).

4. Supervised Fine-Tuning (SFT) & LoRA

Das Training eines kompletten Sprachmodells von null an kostet Millionen. Wir nutzen stattdessen parameter-effiziente Trainingsmethoden wie LoRA (Low-Rank Adaptation) oder QLoRA. Dabei werden die ursprünglichen Milliarden Parameter des Basismodells eingefroren und nur ein kleiner, zusätzlicher Satz an Gewichten (Adaptern) trainiert. Statt hunderte Gigabyte Modellgewichte neu zu berechnen, werden lediglich ein paar hundert Megabyte Adapter-Gewichte optimiert. Das spart massiv Rechenzeit und GPU-Kosten.

Wir führen diesen Trainingsprozess auf unseren eigenen, abgeschirmten NVIDIA-GPU-Clustern durch – Ihre Trainingsdaten gehen zu keinem Zeitpunkt in die öffentliche Cloud. Als Trainingsframework setzen wir je nach Anforderung auf Hugging Face Transformers, Unsloth oder LLaMA-Factory, die alle state-of-the-art Optimierungen für speichereffizientes Training unter sich vereinen.

5. Hyperparameter-Tuning

Beim Training stehen zahlreiche Parameter zur Verfügung, die den Trainingsvorgang und die Qualität des resultierenden Modells stark beeinflussen: die Lernrate (Learning Rate), die Batch-Größe, die Anzahl der Trainingsepochen, der LoRA-Rang sowie die LoRA-Alpha. Falsch gewählte Hyperparameter führen zu Overfitting (das Modell lernt die Trainingsdaten auswendig, kann aber nicht generalisieren) oder Underfitting (das Modell lernt zu wenig).

Wir führen systematisches Hyperparameter-Tuning durch – entweder manuell durch erfahrene ML-Ingenieure oder mit automatisierten Optimierungsframeworks wie Optuna oder Weights & Biases Sweeps – bis das Modell auf dem Validierungsdatensatz solide Ergebnisse liefert.

6. Alignment (RLHF / DPO)

Damit die KI nicht nur sachlich richtig, sondern auch im gewünschten Tonfall (z.B. höflich, bestimmt, in kurzen Sätzen) antwortet, nutzen wir Techniken wie Reinforcement Learning from Human Feedback (RLHF) oder Direct Preference Optimization (DPO). Wir „belohnen“ das Modell für Antworten, die Ihren Unternehmensrichtlinien entsprechen, und „bestrafen“ unerwünschte Ausgaben. Das Ergebnis ist ein Modell, das nicht nur kompetent, sondern auch compliant ist.

7. Evaluierung und Benchmarking

Nach dem Training ist vor dem Deployment: Wir evaluieren das feinjustierte Modell systematisch auf einem separaten Testdatensatz, der nicht im Training verwendet wurde. Dabei setzen wir auf verschiedene Metriken:

BLEU / ROUGE: Für Textzusammenfassungen und Übersetzungen
Perplexität: Ein Maß für die Sicherheit des Modells bei der Textgenerierung
Aufgabenspezifische Metriken: F1-Score für Klassifikation, Exact Match für Faktenfragen
Human Evaluation: Die finale Qualitätskontrolle – menschliche Experten bewerten eine repräsentative Stichprobe von Modellantworten blind im Vergleich zum Basismodell

On-Premise vs. Cloud Training: Was ist das Richtige für Ihr Unternehmen?

Eine der ersten strategischen Entscheidungen beim KI-Training ist die Wahl der Infrastruktur.

Cloud-Training (z.B. AWS, GCP, Azure, Lambda Labs)

Cloud-Anbieter bieten on-demand Zugriff auf leistungsstarke GPU-Cluster. Der Vorteil: keine Vorabinvestition in Hardware, flexible Skalierbarkeit. Der Nachteil: Ihre proprietären Trainingsdaten verlassen Ihr Unternehmen und werden auf Servern Dritter gespeichert. Für Unternehmen mit weniger sensiblen Daten und für erste Prototypen ist dies oft die schnellste Option.

On-Premise Training (Eigene GPU-Server)

Für Unternehmen mit sensiblen Daten – etwa aus dem Gesundheitswesen, dem Rechtswesen oder dem Finanzsektor – ist On-Premise Training die einzig akzeptable Option. Die Trainingsdaten verlassen das Unternehmensnetzwerk nie. DATUREX verfügt über eine eigene GPU-Infrastruktur mit NVIDIA A100- und H100-Karten für performantes Training. Alternativ unterstützen wir Sie beim Aufbau und Betrieb Ihrer eigenen GPU-Infrastruktur.

GPU-Auswahl: Welche Hardware eignet sich für welche Modellgröße?

Modellgröße	Empfohlene GPU	VRAM	Trainingsdauer (ca.)
7B Parameter (z.B. Mistral 7B)	NVIDIA RTX 3090 / 4090	24 GB	2–8 Stunden
13B Parameter (z.B. Llama 2 13B)	NVIDIA A100 40GB	40 GB	8–24 Stunden
70B Parameter (z.B. Llama 3 70B)	4x NVIDIA A100 80GB	320 GB	1–5 Tage

Was kostet das Training eines Custom AI Models?

Die Kosten für das Training eines KI-Modells hängen von mehreren Faktoren ab:

Datenvorbereitung und Labeling: 3.000 € – 20.000 € je nach Datenmenge und Komplexität der Annotation
Trainingsrechnerzeit (GPU-Stunden): 500 € – 5.000 € für typische Fine-Tuning-Projekte
Engineering und Projektmanagement: 5.000 € – 30.000 € für das Gesamtprojekt inkl. Evaluierung und Deployment
Deployment-Infrastruktur: Ab 200 €/Monat für dedizierte Inferenz-Server

Im Vergleich: Die monatlichen API-Kosten für GPT-4 bei intensiver Nutzung (z.B. 1 Million Tokens/Tag) betragen ca. 1.000–3.000 €/Monat. Ein einmalig trainiertes, lokal betriebenes Custom-Modell amortisiert sich in der Regel innerhalb von 6–18 Monaten – und gibt Ihnen vollständige Datenkontrolle und Unabhängigkeit von API-Preisänderungen.

Transfer Learning: Auf den Schultern von Giganten stehen

Transfer Learning ist das fundamentale Prinzip hinter allen modernen Fine-Tuning-Ansätzen: Statt ein Modell von null zu trainieren (was Monate und Millionen Euro kostet), übernehmen wir das in jahrelangem Training auf Petabytes von Daten aufgebaute Wissen eines Foundation Models und transferieren es auf Ihre Domäne. Das Basismodell hat bereits gelernt, Sprache zu verstehen, Schlussfolgerungen zu ziehen und Texte zu generieren – wir passen diese Fähigkeit lediglich auf Ihr spezifisches Einsatzgebiet an. Transfer Learning reduziert die benötigte Trainingsdatenmenge und -zeit um Größenordnungen.

Deployment: Das trainierte Modell in den Produktivbetrieb bringen

Nach dem Training muss das Modell für den Einsatz optimiert und bereitgestellt werden. Wir unterstützen Sie bei allen Deployment-Szenarien:

Quantisierung: Durch Techniken wie GGUF/GPTQ reduzieren wir den Speicherbedarf des Modells um bis zu 75 %, ohne die Qualität signifikant zu beeinträchtigen. Ein 70B-Modell, das ursprünglich 140 GB VRAM benötigt, kann so auf einem einzelnen Server mit 2x NVIDIA 3090 (48 GB) betrieben werden.
Inferenz-Framework: Wir setzen auf hochoptimierte Inferenz-Frameworks wie vLLM, llama.cpp oder Ollama für maximalen Durchsatz und minimale Latenz.
API-Bereitstellung: Das Modell wird über eine OpenAI-kompatible REST-API bereitgestellt, sodass Ihre bestehenden Anwendungen direkt eingebunden werden können, ohne den Code anzupassen.
Monitoring: Wir richten Logging und Performance-Monitoring ein, um die Modellqualität im Produktivbetrieb kontinuierlich zu überwachen und bei Bedarf nachzujustieren.

Vorteile individueller KI-Modelle auf einen Blick

Höchste Präzision im Fachjargon: Medizinische, juristische oder hochtechnische Begriffe werden fehlerfrei verstanden und im richtigen Kontext angewendet.
Konsistente Markenstimme (Corporate Wording): Der KI-Agent schreibt E-Mails oder Angebote exakt im Wording Ihres besten Vertriebsmitarbeiters.
Datensouveränität (IP-Schutz): Das fertig trainierte Modell (die Gewichte) gehört Ihnen. Es ist Ihr geistiges Eigentum (IP). Sie können es lokal hosten, verkaufen oder als Software-as-a-Service (SaaS) für Ihre eigenen Kunden anbieten.
Kostenreduktion bei der Inferenz: Ein finetuntes, kleineres Modell (z.B. 8 Milliarden Parameter) übertrifft bei spezifischen Aufgaben oft riesige, teure Modelle (mit 70+ Milliarden Parametern). Das bedeutet für Sie: Das Modell läuft schneller und benötigt günstigere Hardware im Dauerbetrieb.
Offline-Fähigkeit: Keine Internetverbindung nötig, keine API-Ausfälle, keine Abhängigkeit von US-amerikanischen Cloud-Dienstleistern.
Compliance: DSGVO, BDSG und branchenspezifische Datenschutzanforderungen werden vollständig eingehalten, da keine Daten das Unternehmen verlassen.

Warum DATUREX für Ihr KI-Training?

Die DATUREX GmbH mit Sitz in Dresden kombiniert tiefes Machine-Learning-Know-how mit einem ausgeprägten Verständnis für Datenschutz und Compliance-Anforderungen in deutschen Unternehmen. Wir sind keine theoretisierende Beratung – wir sind ein Entwicklungsunternehmen, das Custom AI Modelle für reale Produktivumgebungen baut und betreibt. Unsere Erfahrung reicht von kleinen Mittelständlern, die ihren Kundenservice automatisieren wollen, bis hin zu komplexen Multi-Modell-Architekturen für sicherheitskritische Anwendungen.

Wir bieten Ihnen:

Unverbindliche Machbarkeitsstudie zu Ihrem Anwendungsfall
Transparente, meilensteinbasierte Projektabrechnung
Vollständige Übergabe aller Modellgewichte, Trainingsskripte und Dokumentation
Optional: Langzeit-Support und Modell-Retraining bei neuen Datensätzen

Kombination aus Finetuning und RAG

Der Goldstandard der Unternehmens-KI ist die Kombination aus Finetuning (für das Verständnis des Jargons und des Formats) und RAG (für das Abrufen tagesaktueller Fakten). Wir bauen für Sie Systeme, die das Beste aus beiden Welten vereinen: Eine KI, die wie Ihr bester Mitarbeiter spricht und in Millisekunden auf Ihr gesamtes Archiv zugreifen kann.

FAQ: Häufige Fragen zum Training von KI-Modellen

Wie viele Trainingsdaten brauche ich für ein gutes Fine-Tuning?

Das hängt stark von der Aufgabe ab. Für einfaches Stil-Finetuning (z.B. Corporate Wording) reichen oft schon 500–2.000 hochwertige Beispieldatenpunkte. Für komplexe Aufgaben wie medizinische Diagnose-Unterstützung oder juristische Dokumentenanalyse empfehlen wir 10.000–100.000 annotierte Beispiele. Wichtig ist die Qualität – 500 exzellente Beispiele schlagen 10.000 schlechte.

Wie lange dauert ein typisches Fine-Tuning-Projekt von der Anfrage bis zum Deployment?

Ein typisches Projekt läuft in drei bis acht Wochen ab: eine bis zwei Wochen Bedarfsanalyse und Datenvorbereitung, ein bis zwei Wochen Training und Evaluation, eine bis zwei Wochen Deployment und Integration. Bei gut vorbereiteten Datensätzen und klaren Anforderungen können wir auch innerhalb von zwei Wochen liefern.

Gehört das trainierte Modell mir oder DATUREX?

Das trainierte Modell – inklusive aller Modellgewichte und der LoRA-Adapter – gehört vollständig Ihnen. Wir übertragen nach Projektabschluss alle Rechte. Sie können es frei nutzen, hosten, lizenzieren oder in eigene Produkte einbetten. Das Basismodell (z.B. Llama 3) unterliegt der jeweiligen Open-Source-Lizenz (Meta Llama License), die in der Regel kommerzielle Nutzung erlaubt.

Was ist der Unterschied zwischen Fine-Tuning und RAG?

Fine-Tuning verändert die Gewichte des Modells dauerhaft – das Wissen wird „eingebrannt“. RAG (Retrieval-Augmented Generation) hingegen hält die Modellgewichte unverändert und injiziert relevante Informationen beim Inferenzzeitpunkt dynamisch als Kontext. Fine-Tuning eignet sich für stabiles Wissen (Fachjargon, Stil, Format), RAG für tagesaktuelle Fakten (Preislisten, aktuelle Verträge). Der Goldstandard kombiniert beide Ansätze.

Kann ich ein Fine-Tuning auch für Nicht-Text-KI nutzen, z.B. für Bild- oder Code-Generierung?

Ja, absolut. Die gleichen Prinzipien (Transfer Learning, Fine-Tuning, LoRA) lassen sich auch auf multimodale Modelle (Text+Bild, z.B. LLaVA oder Stable Diffusion), reine Bildmodelle oder Code-Modelle (z.B. CodeLlama) anwenden. DATUREX hat Erfahrung mit Fine-Tuning in allen diesen Bereichen. Sprechen Sie uns auf Ihren spezifischen Anwendungsfall an.

Kostenlose Beratung anfragen

Projekt starten

Lassen Sie uns über Ihr Projekt sprechen. Kostenlose Erstberatung.

Angebot anfragen

Telefon: 0351 / 79593513

App entwickeln lassen — regional oder remote?

Als App-Agentur in Dresden entwickeln wir native iOS/Android- und Cross-Platform-Apps für KMU, Startups und Konzerne. Von der UI/UX-Konzeption bis zum App-Store-Launch — Festpreis ab 15.000 €.

→ App-Entwicklung Dresden anfragen

KI-Modelle trainieren (Finetuning)