Die meisten gescheiterten KI-Projekte scheitern nicht an Algorithmen oder Rechenleistung — sie scheitern an schlechten Daten. Laut Gartner kostet mangelhafte Datenqualität Unternehmen im Schnitt 12,9 Millionen US-Dollar pro Jahr.[1] IBM bezifferte die volkswirtschaftlichen Kosten schlechter Daten allein in den USA auf 3,1 Billionen US-Dollar jährlich.[2] Doppelte Kundendatensätze, inkonsistente Produktkategorien, veraltete Adressdaten: Was in klassischen Prozessen als lästig, aber tolerierbar galt, wird für KI-Anwendungen zum Showstopper. Datenqualität ist kein Hygienethema mehr — sie ist strategische Infrastruktur.

Die sechs Dimensionen der Datenqualität

Datenqualität entsteht erst, wenn Vollständigkeit, Aktualität und Verantwortlichkeit zusammenpassen.
Abbildung 1: Datenqualität entsteht erst, wenn Vollständigkeit, Aktualität und Verantwortlichkeit zusammenpassen.

Datenqualität ist kein binärer Zustand. Sie lässt sich in sechs messbare Dimensionen zerlegen — ein Modell, das unter anderem von DAMA International im DMBOK (Data Management Body of Knowledge) etabliert wurde:[3]

  • Vollständigkeit: Sind alle erwarteten Felder gefüllt? Fehlen Datensätze?
  • Korrektheit: Stimmen die Werte mit der Realität überein? Ist die Adresse aktuell?
  • Konsistenz: Sagen verschiedene Systeme dasselbe? Ist "GmbH" überall gleich geschrieben?
  • Aktualität: Wie alt sind die Daten? Wann wurden sie zuletzt validiert?
  • Eindeutigkeit: Gibt es Duplikate? Ist jeder Datensatz einmal vorhanden?
  • Validität: Entsprechen die Werte den definierten Regeln? Ist die Postleitzahl fünfstellig?

Für KI-Projekte sind Konsistenz und Vollständigkeit besonders kritisch. Ein Modell, das mit inkonsistent kategorisierten Trainingsdaten gefüttert wird, lernt die Inkonsistenz — und reproduziert sie.[4]

Messen statt mutmaßen

Messpunkte entlang der Datenstrecke machen Qualitätsprobleme früh sichtbar.
Abbildung 2: Messpunkte entlang der Datenstrecke machen Qualitätsprobleme früh sichtbar.

Datenqualität wird erst managebar, wenn sie messbar ist. Drei Ansätze:

  • Data Quality Score: Ein aggregierter Wert pro Datensatz oder Tabelle, der die sechs Dimensionen gewichtet zusammenfasst. Beispiel: Kundendatensatz mit fehlender E-Mail = Score 85/100
  • Automatisierte Validierungsregeln: SQL-Checks oder Tools wie Great Expectations, die bei jedem Datenimport prüfen: Sind PLZ fünfstellig? Liegen Umsatzwerte im plausiblen Bereich?[5]
  • Data Quality Dashboards: Zeitliche Entwicklung sichtbar machen. Wird die Datenqualität besser oder schlechter? Welche Quellsysteme liefern die schlechtesten Daten?

Der häufigste Fehler: Datenqualität einmalig messen und dann vergessen. Gartner betont, dass Datenqualität ein kontinuierlicher Prozess sein muss, kein einmaliges Projekt.[1]

Datenqualität ist kein IT-Problem. Es ist ein Geschäftsprozess-Problem, das sich in der IT manifestiert. Die Wurzel schlechter Daten liegt fast immer in den Prozessen, die sie erzeugen.

Die Datenqualitäts-Pipeline

Eine belastbare Pipeline trennt Erfassung, Validierung und Nutzung klar voneinander.
Abbildung 3: Eine belastbare Pipeline trennt Erfassung, Validierung und Nutzung klar voneinander.

Datenqualität muss an mehreren Punkten im Datenlebenszyklus gesichert werden:

  • At Source: Validierung bei der Eingabe — Pflichtfelder, Formatprüfungen, Plausibilitätschecks. Je früher ein Fehler abgefangen wird, desto billiger die Korrektur — IBM schätzt das Kostenverhältnis auf 1:10:100 (Quelle → Integration → Analyse).[2]
  • At Ingestion: Automatische Prüfungen beim Import in Data Warehouses oder Data Lakes. Datenverträge (Data Contracts) zwischen Quellsystem und Konsument definieren, was erwartet wird[6]
  • At Rest: Regelmäßige Profiling-Läufe auf bestehenden Datenbeständen. Duplikaterkennung, Anomalie-Detection, Alterungsprüfungen
  • At Consumption: Monitoring der Datenqualität in KI-Pipelines. Wenn sich die Datenverteilung verschiebt (Data Drift), muss das Modell neu bewertet werden[7]

Data Ownership: Wem gehören die Daten?

Datenqualität bleibt nur stabil, wenn Fachbereiche und IT gemeinsame Verantwortung tragen.
Abbildung 4: Datenqualität bleibt nur stabil, wenn Fachbereiche und IT gemeinsame Verantwortung tragen.

Die technischen Tools sind verfügbar. Was fehlt, ist meistens die organisatorische Verankerung:

  • Data Owner: Fachbereichsverantwortliche, die für die Qualität ihrer Datendomäne zuständig sind — nicht die IT[3]
  • Data Stewards: Operative Kümmerer, die Qualitätsprobleme identifizieren und Korrekturen koordinieren
  • Data Quality SLAs: Messbare Vereinbarungen zwischen datenliefernden und datenkonsumierenden Teams

Im Mittelstand reicht oft ein pragmatischer Ansatz: Jedes CRM-Feld hat einen Verantwortlichen. Jede Schnittstelle hat einen Datenvertrag. Jede KI-Pipeline hat einen Qualitäts-Check.

Was das für Ihre IT-Strategie bedeutet

  1. Führen Sie ein Datenqualitäts-Assessment für Ihre drei wichtigsten Datenquellen durch — CRM, ERP und das System, das Ihre KI-Projekte füttert
  2. Implementieren Sie automatisierte Validierungsregeln für jeden Datenimport — starten Sie mit den zehn häufigsten Fehlertypen
  3. Benennen Sie Data Owner in den Fachbereichen — Datenqualität ist keine IT-Aufgabe, sondern eine Geschäftsprozess-Verantwortung
  4. Machen Sie Datenqualität sichtbar: Ein monatliches Dashboard mit Quality Scores pro Domäne verändert das Bewusstsein
  5. Vor jedem KI-Projekt: Datenqualitäts-Check als Gate — kein Modelltraining auf Daten unter definiertem Qualitätsniveau

Quellen und Referenzen

  1. Gartner: "How to Improve Your Data Quality", Gartner Research, 2021. (Häufig zitiert: durchschnittliche Kosten schlechter Datenqualität von 12,9 Mio. USD pro Organisation und Jahr.)
  2. IBM: "The Cost of Poor Data Quality", IBM Big Data & Analytics Hub, 2016. (Schätzung: 3,1 Billionen USD volkswirtschaftliche Kosten schlechter Daten in den USA.)
  3. DAMA International: "DAMA-DMBOK: Data Management Body of Knowledge", 2. Auflage, Technics Publications, 2017.
  4. Andrew Ng: "Data-Centric AI", Stanford HAI, 2021. https://hai.stanford.edu
  5. Great Expectations: "Open Source Data Quality Framework", Superconductive, 2024. https://greatexpectations.io
  6. Andrew Jones: "Data Contracts — Bridging the Gap Between Data Producers and Consumers", O'Reilly Media, 2023.
  7. Google Cloud: "Best Practices for ML Engineering — Monitoring Data Drift", Google, 2024. https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
  8. Harvard Business Review: Thomas C. Redman: "Seizing Opportunity in Data Quality", HBR, 2017. https://hbr.org