Datenqualität für KI: Warum GenAI ohne saubere Daten scheitert
KI-Projekte scheitern selten an Algorithmen. Sie scheitern an Daten. Laut Branchenerfahrungen verbringen Data-Science-Teams den Großteil ihrer Zeit mit Datenbereinigung und -aufbereitung — nicht mit Modellentwicklung. Für den Mittelstand, der mit fragmentierten ERP-Systemen, Excel-Inseln und gewachsenen Datensilos arbeitet, ist das eine existenzielle Herausforderung. Denn der EU AI Act (Verordnung (EU) 2024/1689) macht Datenqualität für Hochrisiko-KI-Systeme zusätzlich zur regulatorischen Pflicht. Dieser Guide zeigt, wie Sie Ihre Datenlage in 90 Tagen messbar verbessern — ohne Millionenbudget.
„Garbage In, Garbage Out" — warum KI-Projekte an Daten scheitern
Die häufigsten Datenqualitätsprobleme in Mittelstandsunternehmen
Die KI-Begeisterung folgt einem vorhersehbaren Muster: Phase 1 ist die Euphorie über die Möglichkeiten. Phase 2 ist der Pilotversuch. Phase 3 ist die Ernüchterung, wenn das Modell in der Produktion deutlich schlechtere Ergebnisse liefert als im Lab. Der Grund ist fast immer derselbe: Die Trainingsdaten spiegeln nicht die Realität wider — oder die Produktionsdaten sind zu schmutzig für zuverlässige Vorhersagen.
Die typischen Probleme, die wir in Mittelstandsunternehmen sehen:
- Duplikate: Derselbe Kunde existiert dreimal im CRM — einmal als „Müller GmbH", einmal als „Mueller GmbH" und einmal als „H. Müller GmbH & Co. KG". Eine KI, die auf diesen Daten trainiert, lernt falsche Muster.
- Veraltete Daten: Produktkataloge mit Artikeln, die seit Jahren nicht mehr verkauft werden. Preislisten, die nicht aktuell sind. Kontaktdaten, die nie bereinigt werden.
- Inkonsistente Formate: Datum als „01.03.2026" in einem System, als „2026-03-01" in einem anderen, als „March 1, 2026" in einem dritten.
- Fehlende Werte: Lücken in kritischen Feldern — ein Kundendatensatz ohne Branchenzuordnung, ein Produktdatensatz ohne Gewichtsangabe.
- Datensilos: ERP, CRM, MES und Excel-Listen, die dieselben Entitäten unterschiedlich abbilden und nie synchronisiert werden.
Was „KI-ready" Daten von normalen Daten unterscheidet
Daten, die für operative Geschäftsprozesse „gut genug" sind, reichen für KI oft nicht. Ein Sachbearbeiter kann mit einer fehlenden Postleitzahl umgehen — er schaut nach. Ein Modell kann das nicht.
KI-ready Daten erfüllen drei zusätzliche Anforderungen:
- Statistische Repräsentativität: Die Daten bilden die reale Verteilung ab. Wenn 30 % Ihrer Kunden aus dem Maschinenbau kommen, sollten auch 30 % der Trainingsdaten diese Branche widerspiegeln.
- Konsistente Semantik: Dasselbe Feld bedeutet in jedem Datensatz dasselbe. „Umsatz" ist entweder Brutto oder Netto — nicht mal so, mal so.
- Ausreichendes Volumen: KI-Modelle brauchen Datenmengen. Für einfache Klassifikationsaufgaben mindestens einige tausend Beispiele. Für komplexere Aufgaben deutlich mehr.
Datenqualität messen — die fünf Dimensionen
Das DAMA DMBOK (Data Management Body of Knowledge) definiert einen international anerkannten Rahmen zur Bewertung von Datenqualität. Für die KI-Readiness sind fünf Dimensionen entscheidend:
1. Vollständigkeit (Completeness)
Definition: Sind alle erwarteten Datenwerte vorhanden?
Messbar machen: Anteil der Datensätze mit befüllten Pflichtfeldern. Beispiel: 95 % aller Kundendatensätze haben eine gültige E-Mail-Adresse.
KI-Relevanz: Fehlende Werte erzwingen entweder den Ausschluss von Trainingsdaten (weniger Daten = schlechteres Modell) oder Imputation (geschätzte Werte = Rauschquelle).
Zielwert: >95 % für Pflichtfelder, >80 % für optionale Felder.
2. Korrektheit (Accuracy)
Definition: Entsprechen die gespeicherten Werte der Realität?
Messbar machen: Stichprobenprüfung gegen externe Quellen. Beispiel: Vergleich von Firmenanschriften mit Handelsregister-Daten.
KI-Relevanz: Falsche Daten erzeugen falsche Muster. Ein Modell, das auf fehlerhaften Verkaufszahlen trainiert wird, liefert fehlerhafte Prognosen.
Zielwert: >98 % für geschäftskritische Daten, >90 % für sekundäre Daten.
3. Konsistenz (Consistency)
Definition: Stimmen die Daten systemübergreifend überein?
Messbar machen: Cross-System-Abgleich. Beispiel: Kundenstammdaten in ERP vs. CRM. Wie viele Abweichungen gibt es?
KI-Relevanz: Inkonsistente Daten aus verschiedenen Quellen erzeugen widersprüchliche Trainingssignale. Das Modell lernt Rauschen statt Muster.
Zielwert: >90 % Übereinstimmung zwischen Quellsystemen für Kerndaten.
4. Aktualität (Timeliness)
Definition: Sind die Daten aktuell genug für den Verwendungszweck?
Messbar machen: Alter der Datensätze, letzte Aktualisierung. Beispiel: Durchschnittliches Alter der Preisdaten in Tagen.
KI-Relevanz: Veraltete Daten sind besonders gefährlich, weil sie für das Modell wie aktuelle Daten aussehen. Ein Preismodell, das auf Daten von vor zwei Jahren trainiert wird, berücksichtigt keine Inflation.
Zielwert: Abhängig vom Use Case. Für Echtzeit-Anwendungen: Stunden. Für strategische Analysen: Monate akzeptabel.
5. Relevanz (Relevance)
Definition: Sind die Daten für den Verwendungszweck geeignet?
Messbar machen: Feature-Importance-Analyse nach dem ersten Modelltraining. Welche Datenpunkte tragen zur Vorhersagequalität bei?
KI-Relevanz: Irrelevante Features erhöhen die Modellkomplexität, ohne die Vorhersagequalität zu verbessern — und können Bias einführen.
Zielwert: Keine quantitative Schwelle, aber: Jedes Feature im Modell muss einen fachlichen Grund haben.
Praxis-Assessment: So bewerten Sie Ihre Datenlage in 2 Wochen
Woche 1: Scope definieren und Daten sammeln
- Identifizieren Sie die 3–5 wichtigsten Datenbestände für Ihre geplanten KI-Use-Cases
- Ziehen Sie Stichproben (mindestens 1.000 Datensätze pro Bestand)
- Messen Sie Vollständigkeit und Konsistenz automatisiert (SQL-Queries oder Profiling-Tools)
Woche 2: Bewerten und priorisieren
- Prüfen Sie Korrektheit durch manuelle Stichprobenvergleiche (100 Datensätze pro Bestand)
- Erstellen Sie einen Data Quality Scorecard pro Bestand
- Identifizieren Sie die drei größten Qualitätslücken
| Datenbestand | Vollständigkeit | Korrektheit | Konsistenz | Handlungsbedarf |
|---|---|---|---|---|
| Kundenstammdaten | 87 % | 92 % | 78 % | 🔴 Hoch (Konsistenz) |
| Produktdaten | 95 % | 96 % | 93 % | 🟢 Niedrig |
| Vertriebsdaten | 72 % | 89 % | 81 % | 🔴 Hoch (Vollständigkeit) |
| Maschinendaten | 98 % | 97 % | 95 % | 🟢 Niedrig |
Quick Wins für bessere Datenqualität
Datenbereinigung systematisieren (Master Data Management Light)
Sie brauchen kein Enterprise-MDM-Projekt mit sieben Beratern und 18 Monaten Laufzeit. Ein pragmatischer Ansatz:
Deduplizierung: Identifizieren und bereinigen Sie Duplikate in den Kernbeständen. Tools wie Informatica Data Quality, Talend oder auch einfache Python-Skripte mit der Bibliothek „recordlinkage" helfen. Für viele Mittelständler reicht ein einmaliger Bereinigungslauf mit anschließender Duplicate-Detection im laufenden Betrieb.
Standardisierung: Definieren Sie verbindliche Formate. Datum: ISO 8601 (YYYY-MM-DD). Anschriften: nach DIN 5008. Produktnummern: einheitliches Schema. Setzen Sie die Standards über Validierungsregeln in den Quellsystemen durch.
Anreicherung: Ergänzen Sie fehlende Werte aus externen Quellen. Firmendaten aus dem Handelsregister. Geodaten aus Geocoding-Services. Branchenzuordnungen aus Klassifikationssystemen (WZ-Code).
Daten-Ownership klären — wer ist verantwortlich?
Das häufigste Problem ist nicht technischer Natur. Es ist organisatorisch: Niemand fühlt sich verantwortlich.
Die Lösung: Definieren Sie für jeden Kerndatenbestand einen Data Owner — eine Person (nicht eine Abteilung), die für die Qualität dieser Daten verantwortlich ist.
| Datenbestand | Data Owner | Verantwortung |
|---|---|---|
| Kundenstammdaten | Leiter Vertrieb | Qualitätsstandards, Freigabe von Änderungen |
| Produktstammdaten | Leiter Produktmanagement | Vollständigkeit, Aktualität |
| Finanzdaten | CFO | Korrektheit, Konsistenz |
| Maschinendaten | Leiter Produktion | Verfügbarkeit, Aktualität |
Wichtig: Data Ownership ist eine Business-Verantwortung, keine IT-Verantwortung. Die IT stellt die Werkzeuge bereit. Der Fachbereich stellt die Qualität sicher.
Automatisierte Qualitätschecks einrichten
Datenqualität ist kein Projekt — es ist ein Prozess. Richten Sie automatisierte Checks ein, die kontinuierlich laufen:
- Vollständigkeitschecks: Tägliche Reports über Pflichtfeld-Befüllung in neuen Datensätzen
- Duplikat-Detection: Wöchentlicher Abgleich auf potenzielle Duplikate
- Plausibilitätsprüfungen: Automatische Warnungen bei Ausreißern (z. B. Auftragswert > 10x Durchschnitt)
- Cross-System-Abgleich: Monatlicher Vergleich von Kerndaten zwischen ERP und CRM
Tools: Great Expectations (Open Source), dbt Tests, oder einfache SQL-Jobs im Data Warehouse. Die Investition ist gering — der Effekt auf die Datenqualität ist substanziell.
Data Governance als Fundament — Rollen, Prozesse, Werkzeuge
Data Steward, Data Owner, Data Committee — minimale Governance für den Mittelstand
Das DAMA DMBOK definiert ein umfassendes Governance-Framework mit über einem Dutzend Rollen. Für ein Unternehmen mit 200–2.000 Mitarbeitenden reichen drei:
1. Data Owner (pro Datendomäne)
- Verantwortlich für Datenqualität in seinem Bereich
- Definiert Qualitätsstandards und genehmigt Änderungen
- Berichtet an das Data Committee
2. Data Steward (zentral oder pro Domäne)
- Operativ verantwortlich für die Umsetzung der Qualitätsstandards
- Führt Bereinigungsmaßnahmen durch oder koordiniert sie
- Überwacht die automatisierten Qualitätschecks
- Im Mittelstand oft eine Teilzeit-Rolle (20–30 % eines FTE)
3. Data Committee (quartalsweise)
- Strategisches Gremium aus Data Owners, IT-Leitung und einem Geschäftsführungsmitglied
- Entscheidet über Daten-Standards, Priorisierung von Bereinigungsprojekten, Budget
- Quartalstreffen von 90 Minuten reicht für den Start
📌 Zusammenfassung: Data Governance im Mittelstand muss nicht komplex sein. Drei Rollen, ein Quartalstreffen und klare Verantwortlichkeiten sind besser als ein 200-Seiten-Framework, das niemand lebt.
Governance-Artefakte — das Minimum:
| Artefakt | Inhalt | Aktualisierung |
|---|---|---|
| Datenkatalog | Übersicht aller Datenbestände mit Beschreibung, Owner und Qualitäts-Score | Halbjährlich |
| Datenqualitäts-Policy | Qualitätsstandards, Messmetriken, Verantwortlichkeiten | Jährlich |
| Datenqualitäts-Dashboard | Automatisierte Anzeige der KPIs pro Datendomäne | Echtzeit |
Verbindung zur Regulierung: AI Act fordert Datenqualität
Der EU AI Act macht Datenqualität nicht nur zur Best Practice, sondern zur gesetzlichen Pflicht für Hochrisiko-KI-Systeme.
Artikel 10 der Verordnung (EU) 2024/1689 definiert klare Anforderungen an Trainings-, Validierungs- und Testdaten:
- Datensätze müssen relevanten, hinreichend repräsentativen und möglichst fehlerfreien Daten-Governance- und -Management-Praktiken unterliegen (Art. 10 Abs. 2)
- Trainings-, Validierungs- und Testdatensätze müssen unter Berücksichtigung der Zweckbestimmung des KI-Systems geeignete statistische Eigenschaften aufweisen (Art. 10 Abs. 3)
- Mögliche Verzerrungen (Bias), die zu diskriminierenden Ergebnissen führen könnten, müssen erkannt und durch geeignete Maßnahmen adressiert werden (Art. 10 Abs. 2 lit. f)
- Datensätze müssen den spezifischen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Rahmen berücksichtigen, in dem das System eingesetzt wird (Art. 10 Abs. 5)
(Quelle: Verordnung (EU) 2024/1689, Artikel 10)
Was das für Ihre KI-Strategie bedeutet:
Wenn Sie KI-Systeme in Hochrisiko-Bereichen einsetzen (HR, Kreditscoring, kritische Infrastruktur), müssen Sie die Datenqualität nicht nur messen — Sie müssen sie dokumentiert nachweisen. Das betrifft:
- Die Herkunft und Zusammensetzung der Trainingsdaten
- Maßnahmen zur Erkennung und Reduzierung von Bias
- Die statistische Repräsentativität für den Einsatzkontext
- Laufende Überwachung der Datenqualität im Betrieb
Unternehmen, die heute eine solide Data-Governance-Struktur aufbauen, erfüllen damit gleichzeitig regulatorische Anforderungen und verbessern die Qualität ihrer KI-Ergebnisse.
Mehr zur AI-Act-Compliance insgesamt finden Sie in unserem AI Act Praxis-Guide.
Der 90-Tage-Plan: Von der Bestandsaufnahme zur KI-ready Datenlandschaft
Tag 1–14: Assessment
- Top-5-Datenbestände identifizieren (orientiert an KI-Use-Cases)
- Datenqualitäts-Assessment durchführen (2-Wochen-Methode aus diesem Artikel)
- Data Quality Scorecard erstellen
Tag 15–30: Quick Wins
- Deduplizierung der kritischsten Datenbestände
- MFA für Datenzugriff einrichten (Security + Governance)
- Data Owner für die Top-5-Bestände benennen
Tag 31–60: Systematisierung
- Automatisierte Qualitätschecks implementieren
- Datenqualitäts-Policy schreiben (2–3 Seiten)
- Erste Datenbereinigungsrunde abschließen
Tag 61–90: Governance aufsetzen
- Erstes Data Committee Meeting durchführen
- Datenkatalog erstellen (kann eine einfache Confluence-Seite sein)
- Datenqualitäts-Dashboard aufsetzen
- Review: Wie hat sich der Quality Score in 90 Tagen verändert?
Was das für Ihre IT-Strategie bedeutet
📋 Handlungsempfehlungen
Starten Sie das Datenqualitäts-Assessment vor dem KI-Pilot — nicht danach. Der häufigste Fehler: KI-Projekte starten, ohne die Datengrundlage zu prüfen. Investieren Sie zwei Wochen in ein Assessment Ihrer Top-5-Datenbestände. Die Ergebnisse bestimmen, welche KI-Use-Cases realistisch sind.
Benennen Sie Data Owner — und machen Sie es zur Führungsaufgabe. Datenqualität ist kein IT-Problem. Jeder Kerndatenbestand braucht einen verantwortlichen Fachbereichsleiter, der für die Qualität gerade steht. Ohne klare Ownership bleibt Datenqualität ein Wunsch.
Automatisieren Sie Qualitätschecks von Tag eins. Einmalige Bereinigungsaktionen verfallen schnell. Richten Sie automatisierte Checks ein (Vollständigkeit, Duplikate, Plausibilität), die täglich oder wöchentlich laufen. Der Aufwand ist gering, der Effekt nachhaltig.
Nutzen Sie den AI Act als Hebel für Daten-Governance. Art. 10 der Verordnung (EU) 2024/1689 macht Datenqualität zur Compliance-Pflicht für Hochrisiko-KI. Nutzen Sie diese Anforderung, um Budget und Management-Attention für Datenqualitätsmaßnahmen zu sichern.
Denken Sie Data Governance pragmatisch — nicht akademisch. Drei Rollen (Data Owner, Data Steward, Data Committee), ein Quartalstreffen und ein einfaches Dashboard reichen für den Start. Perfekte Governance existiert nicht — aber jede Governance ist besser als keine.
Quellen und weiterführende Informationen
- DAMA International: DMBOK — Data Management Body of Knowledge, 2. Auflage — Framework für Datenqualität und Data Governance
- EU AI Act, Verordnung (EU) 2024/1689, Artikel 10 — Datenqualitätsanforderungen für Hochrisiko-KI: Volltext auf EUR-Lex
- Great Expectations: Open-Source-Framework für Datenvalidierung — greatexpectations.io
- CDDO (UK Government): Data Quality Framework — Referenzmodell für Qualitätsdimensionen