Die meisten gescheiterten KI-Projekte scheitern nicht an Algorithmen oder Rechenleistung — sie scheitern an schlechten Daten. Laut Gartner kostet mangelhafte Datenqualität Unternehmen im Schnitt 12,9 Millionen US-Dollar pro Jahr.[1] IBM bezifferte die volkswirtschaftlichen Kosten schlechter Daten allein in den USA auf 3,1 Billionen US-Dollar jährlich.[2] Doppelte Kundendatensätze, inkonsistente Produktkategorien, veraltete Adressdaten: Was in klassischen Prozessen als lästig, aber tolerierbar galt, wird für KI-Anwendungen zum Showstopper. Datenqualität ist kein Hygienethema mehr — sie ist strategische Infrastruktur.
Die sechs Dimensionen der Datenqualität

Datenqualität ist kein binärer Zustand. Sie lässt sich in sechs messbare Dimensionen zerlegen — ein Modell, das unter anderem von DAMA International im DMBOK (Data Management Body of Knowledge) etabliert wurde:[3]
- Vollständigkeit: Sind alle erwarteten Felder gefüllt? Fehlen Datensätze?
- Korrektheit: Stimmen die Werte mit der Realität überein? Ist die Adresse aktuell?
- Konsistenz: Sagen verschiedene Systeme dasselbe? Ist "GmbH" überall gleich geschrieben?
- Aktualität: Wie alt sind die Daten? Wann wurden sie zuletzt validiert?
- Eindeutigkeit: Gibt es Duplikate? Ist jeder Datensatz einmal vorhanden?
- Validität: Entsprechen die Werte den definierten Regeln? Ist die Postleitzahl fünfstellig?
Für KI-Projekte sind Konsistenz und Vollständigkeit besonders kritisch. Ein Modell, das mit inkonsistent kategorisierten Trainingsdaten gefüttert wird, lernt die Inkonsistenz — und reproduziert sie.[4]
Messen statt mutmaßen

Datenqualität wird erst managebar, wenn sie messbar ist. Drei Ansätze:
- Data Quality Score: Ein aggregierter Wert pro Datensatz oder Tabelle, der die sechs Dimensionen gewichtet zusammenfasst. Beispiel: Kundendatensatz mit fehlender E-Mail = Score 85/100
- Automatisierte Validierungsregeln: SQL-Checks oder Tools wie Great Expectations, die bei jedem Datenimport prüfen: Sind PLZ fünfstellig? Liegen Umsatzwerte im plausiblen Bereich?[5]
- Data Quality Dashboards: Zeitliche Entwicklung sichtbar machen. Wird die Datenqualität besser oder schlechter? Welche Quellsysteme liefern die schlechtesten Daten?
Der häufigste Fehler: Datenqualität einmalig messen und dann vergessen. Gartner betont, dass Datenqualität ein kontinuierlicher Prozess sein muss, kein einmaliges Projekt.[1]
Datenqualität ist kein IT-Problem. Es ist ein Geschäftsprozess-Problem, das sich in der IT manifestiert. Die Wurzel schlechter Daten liegt fast immer in den Prozessen, die sie erzeugen.
Die Datenqualitäts-Pipeline

Datenqualität muss an mehreren Punkten im Datenlebenszyklus gesichert werden:
- At Source: Validierung bei der Eingabe — Pflichtfelder, Formatprüfungen, Plausibilitätschecks. Je früher ein Fehler abgefangen wird, desto billiger die Korrektur — IBM schätzt das Kostenverhältnis auf 1:10:100 (Quelle → Integration → Analyse).[2]
- At Ingestion: Automatische Prüfungen beim Import in Data Warehouses oder Data Lakes. Datenverträge (Data Contracts) zwischen Quellsystem und Konsument definieren, was erwartet wird[6]
- At Rest: Regelmäßige Profiling-Läufe auf bestehenden Datenbeständen. Duplikaterkennung, Anomalie-Detection, Alterungsprüfungen
- At Consumption: Monitoring der Datenqualität in KI-Pipelines. Wenn sich die Datenverteilung verschiebt (Data Drift), muss das Modell neu bewertet werden[7]
Data Ownership: Wem gehören die Daten?

Die technischen Tools sind verfügbar. Was fehlt, ist meistens die organisatorische Verankerung:
- Data Owner: Fachbereichsverantwortliche, die für die Qualität ihrer Datendomäne zuständig sind — nicht die IT[3]
- Data Stewards: Operative Kümmerer, die Qualitätsprobleme identifizieren und Korrekturen koordinieren
- Data Quality SLAs: Messbare Vereinbarungen zwischen datenliefernden und datenkonsumierenden Teams
Im Mittelstand reicht oft ein pragmatischer Ansatz: Jedes CRM-Feld hat einen Verantwortlichen. Jede Schnittstelle hat einen Datenvertrag. Jede KI-Pipeline hat einen Qualitäts-Check.
Was das für Ihre IT-Strategie bedeutet
- Führen Sie ein Datenqualitäts-Assessment für Ihre drei wichtigsten Datenquellen durch — CRM, ERP und das System, das Ihre KI-Projekte füttert
- Implementieren Sie automatisierte Validierungsregeln für jeden Datenimport — starten Sie mit den zehn häufigsten Fehlertypen
- Benennen Sie Data Owner in den Fachbereichen — Datenqualität ist keine IT-Aufgabe, sondern eine Geschäftsprozess-Verantwortung
- Machen Sie Datenqualität sichtbar: Ein monatliches Dashboard mit Quality Scores pro Domäne verändert das Bewusstsein
- Vor jedem KI-Projekt: Datenqualitäts-Check als Gate — kein Modelltraining auf Daten unter definiertem Qualitätsniveau
Quellen und Referenzen
- Gartner: "How to Improve Your Data Quality", Gartner Research, 2021. (Häufig zitiert: durchschnittliche Kosten schlechter Datenqualität von 12,9 Mio. USD pro Organisation und Jahr.)
- IBM: "The Cost of Poor Data Quality", IBM Big Data & Analytics Hub, 2016. (Schätzung: 3,1 Billionen USD volkswirtschaftliche Kosten schlechter Daten in den USA.)
- DAMA International: "DAMA-DMBOK: Data Management Body of Knowledge", 2. Auflage, Technics Publications, 2017.
- Andrew Ng: "Data-Centric AI", Stanford HAI, 2021. https://hai.stanford.edu
- Great Expectations: "Open Source Data Quality Framework", Superconductive, 2024. https://greatexpectations.io
- Andrew Jones: "Data Contracts — Bridging the Gap Between Data Producers and Consumers", O'Reilly Media, 2023.
- Google Cloud: "Best Practices for ML Engineering — Monitoring Data Drift", Google, 2024. https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
- Harvard Business Review: Thomas C. Redman: "Seizing Opportunity in Data Quality", HBR, 2017. https://hbr.org