Daten & Analytics

Datenqualität als KI-Fundament: Warum Garbage In, Garbage Out teurer wird

KI-Modelle sind nur so gut wie ihre Daten. Wie Sie Datenqualität messbar machen und systematisch verbessern — bevor Ihre KI-Projekte daran scheitern.

CIO-Wissen Redaktion· 2026-03-26 ·3 Min.

Die meisten gescheiterten KI-Projekte scheitern nicht an Algorithmen oder Rechenleistung — sie scheitern an schlechten Daten. Doppelte Kundendatensätze, inkonsistente Produktkategorien, veraltete Adressdaten: Was in klassischen Prozessen als lästig, aber tolerierbar galt, wird für KI-Anwendungen zum Showstopper. Datenqualität ist kein Hygienethema mehr — sie ist strategische Infrastruktur.

Die sechs Dimensionen der Datenqualität

Datenqualität ist kein binärer Zustand. Sie lässt sich in sechs messbare Dimensionen zerlegen:

  • Vollständigkeit: Sind alle erwarteten Felder gefüllt? Fehlen Datensätze?
  • Korrektheit: Stimmen die Werte mit der Realität überein? Ist die Adresse aktuell?
  • Konsistenz: Sagen verschiedene Systeme dasselbe? Ist "GmbH" überall gleich geschrieben?
  • Aktualität: Wie alt sind die Daten? Wann wurden sie zuletzt validiert?
  • Eindeutigkeit: Gibt es Duplikate? Ist jeder Datensatz einmal vorhanden?
  • Validität: Entsprechen die Werte den definierten Regeln? Ist die Postleitzahl fünfstellig?

Für KI-Projekte sind Konsistenz und Vollständigkeit besonders kritisch. Ein Modell, das mit inkonsistent kategorisierten Trainingsdaten gefüttert wird, lernt die Inkonsistenz — und reproduziert sie.

Messen statt mutmaßen

Datenqualität wird erst managebar, wenn sie messbar ist. Drei Ansätze:

  • Data Quality Score: Ein aggregierter Wert pro Datensatz oder Tabelle, der die sechs Dimensionen gewichtet zusammenfasst. Beispiel: Kundendatensatz mit fehlender E-Mail = Score 85/100
  • Automatisierte Validierungsregeln: SQL-Checks oder Tools wie Great Expectations, die bei jedem Datenimport prüfen: Sind PLZ fünfstellig? Liegen Umsatzwerte im plausiblen Bereich?
  • Data Quality Dashboards: Zeitliche Entwicklung sichtbar machen. Wird die Datenqualität besser oder schlechter? Welche Quellsysteme liefern die schlechtesten Daten?

Der häufigste Fehler: Datenqualität einmalig messen und dann vergessen. Datenqualität ist kein Projekt, sondern ein Prozess.

Datenqualität ist kein IT-Problem. Es ist ein Geschäftsprozess-Problem, das sich in der IT manifestiert. Die Wurzel schlechter Daten liegt fast immer in den Prozessen, die sie erzeugen.

Die Datenqualitäts-Pipeline

Datenqualität muss an mehreren Punkten im Datenlebenszyklus gesichert werden:

  • At Source: Validierung bei der Eingabe — Pflichtfelder, Formatprüfungen, Plausibilitätschecks. Je früher ein Fehler abgefangen wird, desto billiger die Korrektur
  • At Ingestion: Automatische Prüfungen beim Import in Data Warehouses oder Data Lakes. Datenverträge (Data Contracts) zwischen Quellsystem und Konsument definieren, was erwartet wird
  • At Rest: Regelmäßige Profiling-Läufe auf bestehenden Datenbeständen. Duplikaterkennung, Anomalie-Detection, Alterungsprüfungen
  • At Consumption: Monitoring der Datenqualität in KI-Pipelines. Wenn sich die Datenverteilung verschiebt (Data Drift), muss das Modell neu bewertet werden

Data Ownership: Wem gehören die Daten?

Die technischen Tools sind verfügbar. Was fehlt, ist meistens die organisatorische Verankerung:

  • Data Owner: Fachbereichsverantwortliche, die für die Qualität ihrer Datendomäne zuständig sind — nicht die IT
  • Data Stewards: Operative Kümmerer, die Qualitätsprobleme identifizieren und Korrekturen koordinieren
  • Data Quality SLAs: Messbare Vereinbarungen zwischen datenliefernden und datenkonsumierenden Teams

Im Mittelstand reicht oft ein pragmatischer Ansatz: Jedes CRM-Feld hat einen Verantwortlichen. Jede Schnittstelle hat einen Datenvertrag. Jede KI-Pipeline hat einen Qualitäts-Check.

Was das für Ihre IT-Strategie bedeutet

  1. Führen Sie ein Datenqualitäts-Assessment für Ihre drei wichtigsten Datenquellen durch — CRM, ERP und das System, das Ihre KI-Projekte füttert
  2. Implementieren Sie automatisierte Validierungsregeln für jeden Datenimport — starten Sie mit den zehn häufigsten Fehlertypen
  3. Benennen Sie Data Owner in den Fachbereichen — Datenqualität ist keine IT-Aufgabe, sondern eine Geschäftsprozess-Verantwortung
  4. Machen Sie Datenqualität sichtbar: Ein monatliches Dashboard mit Quality Scores pro Domäne verändert das Bewusstsein
  5. Vor jedem KI-Projekt: Datenqualitäts-Check als Gate — kein Modelltraining auf Daten unter definiertem Qualitätsniveau