Daten & Analytics

Datenqualität für KI: Warum GenAI ohne saubere Daten scheitert

Datenqualität für KI verbessern: 5 Dimensionen, Quick Wins und Governance-Modell für den Mittelstand. Inkl. AI-Act-Anforderungen.

CIO-Wissen Redaktion 26. März 2026 10 Min. Lesezeit

Datenqualität für KI: Warum GenAI ohne saubere Daten scheitert

KI-Projekte scheitern selten an Algorithmen. Sie scheitern an Daten. Laut Branchenerfahrungen verbringen Data-Science-Teams den Großteil ihrer Zeit mit Datenbereinigung und -aufbereitung — nicht mit Modellentwicklung. Für den Mittelstand, der mit fragmentierten ERP-Systemen, Excel-Inseln und gewachsenen Datensilos arbeitet, ist das eine existenzielle Herausforderung. Denn der EU AI Act (Verordnung (EU) 2024/1689) macht Datenqualität für Hochrisiko-KI-Systeme zusätzlich zur regulatorischen Pflicht. Dieser Guide zeigt, wie Sie Ihre Datenlage in 90 Tagen messbar verbessern — ohne Millionenbudget.

„Garbage In, Garbage Out" — warum KI-Projekte an Daten scheitern

Die häufigsten Datenqualitätsprobleme in Mittelstandsunternehmen

Die KI-Begeisterung folgt einem vorhersehbaren Muster: Phase 1 ist die Euphorie über die Möglichkeiten. Phase 2 ist der Pilotversuch. Phase 3 ist die Ernüchterung, wenn das Modell in der Produktion deutlich schlechtere Ergebnisse liefert als im Lab. Der Grund ist fast immer derselbe: Die Trainingsdaten spiegeln nicht die Realität wider — oder die Produktionsdaten sind zu schmutzig für zuverlässige Vorhersagen.

Die typischen Probleme, die wir in Mittelstandsunternehmen sehen:

Duplikate: Derselbe Kunde existiert dreimal im CRM — einmal als „Müller GmbH", einmal als „Mueller GmbH" und einmal als „H. Müller GmbH & Co. KG". Eine KI, die auf diesen Daten trainiert, lernt falsche Muster.
Veraltete Daten: Produktkataloge mit Artikeln, die seit Jahren nicht mehr verkauft werden. Preislisten, die nicht aktuell sind. Kontaktdaten, die nie bereinigt werden.
Inkonsistente Formate: Datum als „01.03.2026" in einem System, als „2026-03-01" in einem anderen, als „March 1, 2026" in einem dritten.
Fehlende Werte: Lücken in kritischen Feldern — ein Kundendatensatz ohne Branchenzuordnung, ein Produktdatensatz ohne Gewichtsangabe.
Datensilos: ERP, CRM, MES und Excel-Listen, die dieselben Entitäten unterschiedlich abbilden und nie synchronisiert werden.

Was „KI-ready" Daten von normalen Daten unterscheidet

Daten, die für operative Geschäftsprozesse „gut genug" sind, reichen für KI oft nicht. Ein Sachbearbeiter kann mit einer fehlenden Postleitzahl umgehen — er schaut nach. Ein Modell kann das nicht.

KI-ready Daten erfüllen drei zusätzliche Anforderungen:

Statistische Repräsentativität: Die Daten bilden die reale Verteilung ab. Wenn 30 % Ihrer Kunden aus dem Maschinenbau kommen, sollten auch 30 % der Trainingsdaten diese Branche widerspiegeln.
Konsistente Semantik: Dasselbe Feld bedeutet in jedem Datensatz dasselbe. „Umsatz" ist entweder Brutto oder Netto — nicht mal so, mal so.
Ausreichendes Volumen: KI-Modelle brauchen Datenmengen. Für einfache Klassifikationsaufgaben mindestens einige tausend Beispiele. Für komplexere Aufgaben deutlich mehr.

Datenqualität messen — die fünf Dimensionen

Das DAMA DMBOK (Data Management Body of Knowledge) definiert einen international anerkannten Rahmen zur Bewertung von Datenqualität. Für die KI-Readiness sind fünf Dimensionen entscheidend:

1. Vollständigkeit (Completeness)

Definition: Sind alle erwarteten Datenwerte vorhanden?

Messbar machen: Anteil der Datensätze mit befüllten Pflichtfeldern. Beispiel: 95 % aller Kundendatensätze haben eine gültige E-Mail-Adresse.

KI-Relevanz: Fehlende Werte erzwingen entweder den Ausschluss von Trainingsdaten (weniger Daten = schlechteres Modell) oder Imputation (geschätzte Werte = Rauschquelle).

Zielwert: >95 % für Pflichtfelder, >80 % für optionale Felder.

2. Korrektheit (Accuracy)

Definition: Entsprechen die gespeicherten Werte der Realität?

Messbar machen: Stichprobenprüfung gegen externe Quellen. Beispiel: Vergleich von Firmenanschriften mit Handelsregister-Daten.

KI-Relevanz: Falsche Daten erzeugen falsche Muster. Ein Modell, das auf fehlerhaften Verkaufszahlen trainiert wird, liefert fehlerhafte Prognosen.

Zielwert: >98 % für geschäftskritische Daten, >90 % für sekundäre Daten.

3. Konsistenz (Consistency)

Definition: Stimmen die Daten systemübergreifend überein?

Messbar machen: Cross-System-Abgleich. Beispiel: Kundenstammdaten in ERP vs. CRM. Wie viele Abweichungen gibt es?

KI-Relevanz: Inkonsistente Daten aus verschiedenen Quellen erzeugen widersprüchliche Trainingssignale. Das Modell lernt Rauschen statt Muster.

Zielwert: >90 % Übereinstimmung zwischen Quellsystemen für Kerndaten.

4. Aktualität (Timeliness)

Definition: Sind die Daten aktuell genug für den Verwendungszweck?

Messbar machen: Alter der Datensätze, letzte Aktualisierung. Beispiel: Durchschnittliches Alter der Preisdaten in Tagen.

KI-Relevanz: Veraltete Daten sind besonders gefährlich, weil sie für das Modell wie aktuelle Daten aussehen. Ein Preismodell, das auf Daten von vor zwei Jahren trainiert wird, berücksichtigt keine Inflation.

Zielwert: Abhängig vom Use Case. Für Echtzeit-Anwendungen: Stunden. Für strategische Analysen: Monate akzeptabel.

5. Relevanz (Relevance)

Definition: Sind die Daten für den Verwendungszweck geeignet?

Messbar machen: Feature-Importance-Analyse nach dem ersten Modelltraining. Welche Datenpunkte tragen zur Vorhersagequalität bei?

KI-Relevanz: Irrelevante Features erhöhen die Modellkomplexität, ohne die Vorhersagequalität zu verbessern — und können Bias einführen.

Zielwert: Keine quantitative Schwelle, aber: Jedes Feature im Modell muss einen fachlichen Grund haben.

Praxis-Assessment: So bewerten Sie Ihre Datenlage in 2 Wochen

Woche 1: Scope definieren und Daten sammeln

Identifizieren Sie die 3–5 wichtigsten Datenbestände für Ihre geplanten KI-Use-Cases
Ziehen Sie Stichproben (mindestens 1.000 Datensätze pro Bestand)
Messen Sie Vollständigkeit und Konsistenz automatisiert (SQL-Queries oder Profiling-Tools)

Woche 2: Bewerten und priorisieren

Prüfen Sie Korrektheit durch manuelle Stichprobenvergleiche (100 Datensätze pro Bestand)
Erstellen Sie einen Data Quality Scorecard pro Bestand
Identifizieren Sie die drei größten Qualitätslücken

Datenbestand	Vollständigkeit	Korrektheit	Konsistenz	Handlungsbedarf
Kundenstammdaten	87 %	92 %	78 %	🔴 Hoch (Konsistenz)
Produktdaten	95 %	96 %	93 %	🟢 Niedrig
Vertriebsdaten	72 %	89 %	81 %	🔴 Hoch (Vollständigkeit)
Maschinendaten	98 %	97 %	95 %	🟢 Niedrig

Quick Wins für bessere Datenqualität

Datenbereinigung systematisieren (Master Data Management Light)

Sie brauchen kein Enterprise-MDM-Projekt mit sieben Beratern und 18 Monaten Laufzeit. Ein pragmatischer Ansatz:

Deduplizierung: Identifizieren und bereinigen Sie Duplikate in den Kernbeständen. Tools wie Informatica Data Quality, Talend oder auch einfache Python-Skripte mit der Bibliothek „recordlinkage" helfen. Für viele Mittelständler reicht ein einmaliger Bereinigungslauf mit anschließender Duplicate-Detection im laufenden Betrieb.
Standardisierung: Definieren Sie verbindliche Formate. Datum: ISO 8601 (YYYY-MM-DD). Anschriften: nach DIN 5008. Produktnummern: einheitliches Schema. Setzen Sie die Standards über Validierungsregeln in den Quellsystemen durch.
Anreicherung: Ergänzen Sie fehlende Werte aus externen Quellen. Firmendaten aus dem Handelsregister. Geodaten aus Geocoding-Services. Branchenzuordnungen aus Klassifikationssystemen (WZ-Code).

Daten-Ownership klären — wer ist verantwortlich?

Das häufigste Problem ist nicht technischer Natur. Es ist organisatorisch: Niemand fühlt sich verantwortlich.

Die Lösung: Definieren Sie für jeden Kerndatenbestand einen Data Owner — eine Person (nicht eine Abteilung), die für die Qualität dieser Daten verantwortlich ist.

Datenbestand	Data Owner	Verantwortung
Kundenstammdaten	Leiter Vertrieb	Qualitätsstandards, Freigabe von Änderungen
Produktstammdaten	Leiter Produktmanagement	Vollständigkeit, Aktualität
Finanzdaten	CFO	Korrektheit, Konsistenz
Maschinendaten	Leiter Produktion	Verfügbarkeit, Aktualität

Wichtig: Data Ownership ist eine Business-Verantwortung, keine IT-Verantwortung. Die IT stellt die Werkzeuge bereit. Der Fachbereich stellt die Qualität sicher.

Automatisierte Qualitätschecks einrichten

Datenqualität ist kein Projekt — es ist ein Prozess. Richten Sie automatisierte Checks ein, die kontinuierlich laufen:

Vollständigkeitschecks: Tägliche Reports über Pflichtfeld-Befüllung in neuen Datensätzen
Duplikat-Detection: Wöchentlicher Abgleich auf potenzielle Duplikate
Plausibilitätsprüfungen: Automatische Warnungen bei Ausreißern (z. B. Auftragswert > 10x Durchschnitt)
Cross-System-Abgleich: Monatlicher Vergleich von Kerndaten zwischen ERP und CRM

Tools: Great Expectations (Open Source), dbt Tests, oder einfache SQL-Jobs im Data Warehouse. Die Investition ist gering — der Effekt auf die Datenqualität ist substanziell.

Data Governance als Fundament — Rollen, Prozesse, Werkzeuge

Data Steward, Data Owner, Data Committee — minimale Governance für den Mittelstand

Das DAMA DMBOK definiert ein umfassendes Governance-Framework mit über einem Dutzend Rollen. Für ein Unternehmen mit 200–2.000 Mitarbeitenden reichen drei:

1. Data Owner (pro Datendomäne)

Verantwortlich für Datenqualität in seinem Bereich
Definiert Qualitätsstandards und genehmigt Änderungen
Berichtet an das Data Committee

2. Data Steward (zentral oder pro Domäne)

Operativ verantwortlich für die Umsetzung der Qualitätsstandards
Führt Bereinigungsmaßnahmen durch oder koordiniert sie
Überwacht die automatisierten Qualitätschecks
Im Mittelstand oft eine Teilzeit-Rolle (20–30 % eines FTE)

3. Data Committee (quartalsweise)

Strategisches Gremium aus Data Owners, IT-Leitung und einem Geschäftsführungsmitglied
Entscheidet über Daten-Standards, Priorisierung von Bereinigungsprojekten, Budget
Quartalstreffen von 90 Minuten reicht für den Start

📌 Zusammenfassung: Data Governance im Mittelstand muss nicht komplex sein. Drei Rollen, ein Quartalstreffen und klare Verantwortlichkeiten sind besser als ein 200-Seiten-Framework, das niemand lebt.

Governance-Artefakte — das Minimum:

Artefakt	Inhalt	Aktualisierung
Datenkatalog	Übersicht aller Datenbestände mit Beschreibung, Owner und Qualitäts-Score	Halbjährlich
Datenqualitäts-Policy	Qualitätsstandards, Messmetriken, Verantwortlichkeiten	Jährlich
Datenqualitäts-Dashboard	Automatisierte Anzeige der KPIs pro Datendomäne	Echtzeit

Verbindung zur Regulierung: AI Act fordert Datenqualität

Der EU AI Act macht Datenqualität nicht nur zur Best Practice, sondern zur gesetzlichen Pflicht für Hochrisiko-KI-Systeme.

Artikel 10 der Verordnung (EU) 2024/1689 definiert klare Anforderungen an Trainings-, Validierungs- und Testdaten:

Datensätze müssen relevanten, hinreichend repräsentativen und möglichst fehlerfreien Daten-Governance- und -Management-Praktiken unterliegen (Art. 10 Abs. 2)
Trainings-, Validierungs- und Testdatensätze müssen unter Berücksichtigung der Zweckbestimmung des KI-Systems geeignete statistische Eigenschaften aufweisen (Art. 10 Abs. 3)
Mögliche Verzerrungen (Bias), die zu diskriminierenden Ergebnissen führen könnten, müssen erkannt und durch geeignete Maßnahmen adressiert werden (Art. 10 Abs. 2 lit. f)
Datensätze müssen den spezifischen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Rahmen berücksichtigen, in dem das System eingesetzt wird (Art. 10 Abs. 5)

(Quelle: Verordnung (EU) 2024/1689, Artikel 10)

Was das für Ihre KI-Strategie bedeutet:

Wenn Sie KI-Systeme in Hochrisiko-Bereichen einsetzen (HR, Kreditscoring, kritische Infrastruktur), müssen Sie die Datenqualität nicht nur messen — Sie müssen sie dokumentiert nachweisen. Das betrifft:

Die Herkunft und Zusammensetzung der Trainingsdaten
Maßnahmen zur Erkennung und Reduzierung von Bias
Die statistische Repräsentativität für den Einsatzkontext
Laufende Überwachung der Datenqualität im Betrieb

Unternehmen, die heute eine solide Data-Governance-Struktur aufbauen, erfüllen damit gleichzeitig regulatorische Anforderungen und verbessern die Qualität ihrer KI-Ergebnisse.

Mehr zur AI-Act-Compliance insgesamt finden Sie in unserem AI Act Praxis-Guide.

Der 90-Tage-Plan: Von der Bestandsaufnahme zur KI-ready Datenlandschaft

Tag 1–14: Assessment

Top-5-Datenbestände identifizieren (orientiert an KI-Use-Cases)
Datenqualitäts-Assessment durchführen (2-Wochen-Methode aus diesem Artikel)
Data Quality Scorecard erstellen

Tag 15–30: Quick Wins

Deduplizierung der kritischsten Datenbestände
MFA für Datenzugriff einrichten (Security + Governance)
Data Owner für die Top-5-Bestände benennen

Tag 31–60: Systematisierung

Automatisierte Qualitätschecks implementieren
Datenqualitäts-Policy schreiben (2–3 Seiten)
Erste Datenbereinigungsrunde abschließen

Tag 61–90: Governance aufsetzen

Erstes Data Committee Meeting durchführen
Datenkatalog erstellen (kann eine einfache Confluence-Seite sein)
Datenqualitäts-Dashboard aufsetzen
Review: Wie hat sich der Quality Score in 90 Tagen verändert?

Was das für Ihre IT-Strategie bedeutet

📋 Handlungsempfehlungen

Starten Sie das Datenqualitäts-Assessment vor dem KI-Pilot — nicht danach. Der häufigste Fehler: KI-Projekte starten, ohne die Datengrundlage zu prüfen. Investieren Sie zwei Wochen in ein Assessment Ihrer Top-5-Datenbestände. Die Ergebnisse bestimmen, welche KI-Use-Cases realistisch sind.

Benennen Sie Data Owner — und machen Sie es zur Führungsaufgabe. Datenqualität ist kein IT-Problem. Jeder Kerndatenbestand braucht einen verantwortlichen Fachbereichsleiter, der für die Qualität gerade steht. Ohne klare Ownership bleibt Datenqualität ein Wunsch.

Automatisieren Sie Qualitätschecks von Tag eins. Einmalige Bereinigungsaktionen verfallen schnell. Richten Sie automatisierte Checks ein (Vollständigkeit, Duplikate, Plausibilität), die täglich oder wöchentlich laufen. Der Aufwand ist gering, der Effekt nachhaltig.

Nutzen Sie den AI Act als Hebel für Daten-Governance. Art. 10 der Verordnung (EU) 2024/1689 macht Datenqualität zur Compliance-Pflicht für Hochrisiko-KI. Nutzen Sie diese Anforderung, um Budget und Management-Attention für Datenqualitätsmaßnahmen zu sichern.

Denken Sie Data Governance pragmatisch — nicht akademisch. Drei Rollen (Data Owner, Data Steward, Data Committee), ein Quartalstreffen und ein einfaches Dashboard reichen für den Start. Perfekte Governance existiert nicht — aber jede Governance ist besser als keine.

Quellen und weiterführende Informationen

DAMA International: DMBOK — Data Management Body of Knowledge, 2. Auflage — Framework für Datenqualität und Data Governance
EU AI Act, Verordnung (EU) 2024/1689, Artikel 10 — Datenqualitätsanforderungen für Hochrisiko-KI: Volltext auf EUR-Lex
Great Expectations: Open-Source-Framework für Datenvalidierung — greatexpectations.io
CDDO (UK Government): Data Quality Framework — Referenzmodell für Qualitätsdimensionen

Datenqualität für KI: Warum GenAI ohne saubere Daten scheitert

„Garbage In, Garbage Out" — warum KI-Projekte an Daten scheitern

Die häufigsten Datenqualitätsprobleme in Mittelstandsunternehmen

Was „KI-ready" Daten von normalen Daten unterscheidet

Datenqualität messen — die fünf Dimensionen

1. Vollständigkeit (Completeness)

2. Korrektheit (Accuracy)

3. Konsistenz (Consistency)

4. Aktualität (Timeliness)

5. Relevanz (Relevance)

Praxis-Assessment: So bewerten Sie Ihre Datenlage in 2 Wochen

Quick Wins für bessere Datenqualität

Datenbereinigung systematisieren (Master Data Management Light)

Daten-Ownership klären — wer ist verantwortlich?

Automatisierte Qualitätschecks einrichten

Data Governance als Fundament — Rollen, Prozesse, Werkzeuge

Data Steward, Data Owner, Data Committee — minimale Governance für den Mittelstand

Verbindung zur Regulierung: AI Act fordert Datenqualität

Der 90-Tage-Plan: Von der Bestandsaufnahme zur KI-ready Datenlandschaft

Was das für Ihre IT-Strategie bedeutet

📋 Handlungsempfehlungen

Quellen und weiterführende Informationen

Weitere Artikel

AI Act Compliance: Was CIOs jetzt umsetzen müssen

FinOps einführen: Cloud-Kosten senken in 5 Schritten

IT-Budget im Board: So überzeugen Sie die Geschäftsführung