Datenqualität im Mittelstand: Warum KI ohne saubere Daten scheitert
7 Min. Lesezeit
KI-Projekte scheitern – aber selten an der KI selbst. In den meisten Fällen liegt das Problem eine Etage tiefer: bei den Daten. Wer 2026 in generative KI investiert, ohne vorher seine Datenqualität zu prüfen, verbrennt Budget und verliert Vertrauen in die Technologie.
Das Wichtigste in Kürze
- 57 Prozent nicht bereit: Mehr als die Hälfte der Unternehmen schätzt die eigenen Daten als nicht KI-tauglich ein (Gartner, Q3 2024).
- 60 Prozent Abbruchrate: KI-Projekte ohne qualitätsgesicherte Datenbasis werden laut Gartner-Prognose mehrheitlich aufgegeben (Gartner, Februar 2025).
- 73 Prozent nennen Daten als Barriere: Datenqualität ist die meistgenannte Hürde für KI-Erfolg bei Entscheidungsträgern (Capital One/Morning Consult, Juli 2024).
- Regulierung verschärft den Druck: Der EU AI Act (Artikel 10) schreibt für Hochrisiko-KI nachweisbare Datenqualität vor – ab August 2026.
- Sechs Dimensionen entscheiden: Vollständigkeit, Genauigkeit, Aktualität, Konsistenz, Eindeutigkeit und Gültigkeit bilden das DAMA-Framework für messbare Datenqualität.
Die unbequeme Wahrheit: Die meisten Daten sind nicht KI-bereit
Deutschland investiert massiv in künstliche Intelligenz. Laut Bitkom-Studie 2025 nutzen bereits 36 Prozent der deutschen Unternehmen KI aktiv – fast doppelt so viele wie im Vorjahr. Weitere 47 Prozent planen oder diskutieren den Einsatz. Doch die Euphorie verdeckt ein fundamentales Problem: Die Daten, auf denen diese KI-Projekte im Mittelstand aufbauen sollen, sind in der Mehrzahl nicht bereit.
Eine Gartner-Befragung unter 248 Datenmanagement-Verantwortlichen im dritten Quartal 2024 liefert ernüchternde Zahlen: 57 Prozent der Unternehmen schätzen ihre eigenen Daten als nicht KI-tauglich ein. Noch gravierender: 63 Prozent geben an, entweder keine geeigneten Datenmanagement-Praktiken zu haben oder sich darüber nicht im Klaren zu sein. Im Februar 2025 verschärfte Gartner die Prognose: 60 Prozent aller KI-Projekte, die nicht auf KI-bereiten Daten basieren, werden aufgegeben.
Quellen: Gartner Q3 2024, Gartner Februar 2025, Capital One/Morning Consult Juli 2024
Warum GenAI das Datenproblem verschärft
Generative KI reagiert empfindlicher auf Datenqualität als klassische Analytik. Ein Dashboard mit fehlerhaften Umsatzzahlen fällt irgendwann auf. Ein KI-Modell, das auf inkonsistenten Stammdaten trainiert wurde, produziert Ergebnisse die plausibel aussehen, aber falsch sind – und niemand bemerkt es sofort. Das ist der Kern des Problems: GenAI macht schlechte Daten unsichtbar statt sichtbar.
Im klassischen Reporting führen Dateninkonsistenzen zu offensichtlichen Widersprüchen. Wenn der Umsatzbericht zwei verschiedene Zahlen zeigt, stellt jemand die Frage. Bei einem KI-gestützten Prognosemodell passiert das nicht: Es berechnet eine scheinbar plausible Antwort auf Basis verzerrter Daten. Erst wenn die Bedarfsprognose monatelang daneben liegt oder der Chatbot Kunden falsche Produktinformationen gibt, wird das Datenproblem sichtbar – zu spät und zu teuer.
Die Informatica CDO Insights 2025 – eine Befragung unter 600 Chief Data Officers weltweit – zeigt die Konsequenz: 67 Prozent der befragten Datenverantwortlichen konnten nicht einmal die Hälfte ihrer GenAI-Pilotprojekte erfolgreich in Produktion überführen. 43 Prozent der Data-Leader nennen Datenqualität, Datenvollständigkeit und Datenbereitschaft als größtes Hindernis bei KI-Projekten. Gleichzeitig gaben 92 Prozent der CDOs an, besorgt zu sein, dass KI-Piloten voranschreiten, ohne dass vorhandene Datenprobleme vorher gelöst werden.
Die NTT DATA Global GenAI-Studie vom November 2024, basierend auf 2.300 Entscheidungsträgern aus 34 Ländern, bestätigt das Bild: 70 bis 85 Prozent der GenAI-Deployments erreichen nicht den gewünschten Return on Investment. Der häufigste Grund: Die Datenbasis war nicht belastbar genug für den produktiven Einsatz.
Besonders tückisch: Der typische Mittelständler arbeitet mit fünf bis fünfzehn verschiedenen Systemen, von ERP über CRM bis zu spezialisierten Branchenlösungen und manuellen Excel-Listen. Jedes System hat eigene Datenformate, eigene Pflegeprozesse, eigene Verantwortliche – und oft auch eigene Definitionen für scheinbar einfache Begriffe wie „aktiver Kunde“ oder „offener Auftrag“. Die Datenqualität erodiert an den Schnittstellen zwischen diesen Systemen – genau dort, wo KI-Modelle übergreifend trainiert werden sollen. Wer diese Bruchstellen nicht systematisch kennt, kann sie nicht reparieren.
Die sechs Dimensionen der Datenqualität
Datenqualität ist kein Bauchgefühl. Das DAMA International Framework (Data Management Body of Knowledge) definiert sechs messbare Dimensionen. Für den Mittelstand lohnt sich ein ehrlicher Abgleich mit der eigenen Datenbasis:
| Dimension | Was sie misst | Typisches Problem im Mittelstand |
|---|---|---|
| Vollständigkeit | Sind alle erforderlichen Felder gefüllt? | CRM-Kontakte ohne Branche oder Unternehmensgröße |
| Genauigkeit | Bilden die Daten die Realität korrekt ab? | Veraltete Kundenadressen, falsche Artikelnummern |
| Aktualität | Sind die Daten aktuell genug für den Zweck? | Lagerbestände die nur einmal täglich synchronisiert werden |
| Konsistenz | Stimmen Daten über Systeme hinweg überein? | Kundenstamm in ERP und CRM weicht ab |
| Eindeutigkeit | Gibt es Duplikate? | Derselbe Lieferant dreimal im System – unterschiedlich geschrieben |
| Gültigkeit | Entsprechen Daten den definierten Regeln? | Freitextfelder statt strukturierter Eingaben |
Die Analyse-Firma BARC bestätigt die Relevanz: Im jährlichen Data, BI and Analytics Trend Monitor rangiert Datenqualitätsmanagement seit sechs Jahren unter den Top-2-Themen – 2024 erneut direkt hinter Datensicherheit. Es ist kein neues Problem, aber eines das mit KI deutlich teurer wird.
Ein konkretes Beispiel aus der Praxis: Ein mittelständischer Maschinenbauer will KI-gestützte Bedarfsprognosen einführen. Die Artikelstammdaten im ERP sind zu 85 Prozent vollständig – klingt akzeptabel. Doch bei den fehlenden 15 Prozent handelt es sich überproportional um Neuprodukte und Ersatzteile mit hoher Marge. Das Prognosemodell lernt systematisch falsch, weil es die profitabelsten Produkte nicht kennt. Erst nach sechs Monaten fällt die Abweichung auf – sechs Monate verlorene Optimierung.
Der regulatorische Druck steigt
Neben dem wirtschaftlichen Risiko kommt regulatorischer Druck hinzu. Der EU AI Act schreibt in Artikel 10 für Hochrisiko-KI-Systeme erstmals konkrete Anforderungen an die Datenqualität vor: Trainings-, Validierungs- und Testdaten müssen relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig sein. Anbieter müssen nachweisen, dass sie systematisch nach Verzerrungen (Bias) suchen und diese korrigieren. Ab August 2026 greifen die Hochrisiko-Bestimmungen.
Zwar fallen die meisten KI-Anwendungen im Mittelstand – etwa Bedarfsprognosen, Chatbots oder Prozessoptimierung – nicht unter die Hochrisiko-Kategorie. Doch wer KI im Personalwesen, in der Kreditwürdigkeitsprüfung oder in sicherheitsrelevanten Bereichen einsetzt, ist direkt betroffen. Und auch ohne Hochrisiko-Einstufung etabliert der AI Act einen Standard, den Kunden und Partner zunehmend erwarten werden.
Parallel verschärft die CSRD die Anforderungen an ESG-Daten. Laut Workiva Sustainability Practitioner Survey 2024 (2.000 befragte Fachleute) empfinden 83 Prozent der Unternehmen bereits das Sammeln der erforderlichen Nachhaltigkeitsdaten als schwierig. 79 Prozent haben Probleme mit der Verifizierung. Die EFRAG-Standards umfassen über 1.100 Einzeldatenpunkte für die CSRD-Berichterstattung – eine Herausforderung für jedes Unternehmen, das seine Datenqualität bisher nicht systematisch steuert.
Wer hier seine Daten-Governance nicht im Griff hat, bekommt zwei Baustellen gleichzeitig: KI-Projekte und Compliance. Der Vorteil: Wer für KI in Datenqualität investiert, profitiert automatisch auch bei der ESG-Berichterstattung – und umgekehrt. Beide Anforderungen treiben in dieselbe Richtung: strukturierte, vollständige und nachvollziehbare Daten.
Fünf Schritte zur KI-bereiten Datenbasis
Datenqualität ist kein Projekt mit Anfang und Ende. Es ist eine Fähigkeit, die ein Unternehmen aufbauen muss. Diese fünf Schritte bilden einen realistischen Einstieg für den Mittelstand:
1. Dateninventur durchführen. Vor jedem KI-Vorhaben steht die Frage: Welche Daten haben wir, wo liegen sie und wer pflegt sie? Viele Mittelständler unterschätzen die Anzahl ihrer Datenquellen. ERP, CRM, Excel-Listen, Sharepoint-Ordner, E-Mail-Postfächer – alles zusammenzählen, nichts auslassen. Das Ergebnis ist eine Datenlandkarte: eine Übersicht aller Quellen mit Verantwortlichen, Aktualisierungsfrequenz und Qualitätseinschätzung. Dieses Dokument ist die Grundlage für jede weitere Entscheidung.
2. Qualität messen statt vermuten. Die sechs DAMA-Dimensionen als Checkliste nutzen. Für den konkreten KI-Anwendungsfall die drei relevantesten Dimensionen identifizieren und mit Stichproben prüfen. Beispiel: Für eine Bedarfsprognose sind Vollständigkeit, Aktualität und Konsistenz kritisch. Für einen Kundenservice-Chatbot dagegen Genauigkeit und Gültigkeit. Es hilft, 100 Datensätze manuell zu prüfen und die Fehlerquote hochzurechnen. Das dauert einen halben Tag und liefert eine belastbare Einschätzung.
3. Verantwortlichkeiten definieren. Datenqualität ohne klare Zuständigkeit wird nicht besser. Es braucht keinen Chief Data Officer – aber eine Person pro Kernsystem, die für Datenpflege verantwortlich ist. Im Mittelstand oft der Fachabteilungsleiter, nicht die IT. Entscheidend ist, dass diese Verantwortung nicht nur zugewiesen, sondern auch mit Zeit und Werkzeugen hinterlegt wird. Ein Vertriebsleiter, der nebenbei für CRM-Datenqualität zuständig ist, wird das Thema immer hinten anstellen.
4. Automatisierte Prüfungen einführen. Manuelle Bereinigung skaliert nicht. Data-Observability-Tools wie Soda.io oder Great Expectations erkennen Anomalien automatisch – etwa wenn ein Pflichtfeld plötzlich in 30 Prozent der neuen Datensätze leer bleibt oder ein Zahlenwert um Größenordnungen vom üblichen Bereich abweicht. Der Markt für diese Werkzeuge wächst aktuell um über 16 Prozent jährlich – die nutzungsbasierte Lizenzierung macht sie auch für kleinere Unternehmen zugänglich. Wer keine zusätzliche Software einführen will, kann mit einfachen SQL-Abfragen oder Python-Skripten auf der bestehenden Datenbankinfrastruktur starten.
5. Klein anfangen und lernen. Nicht die gesamte Datenbasis auf einmal bereinigen. Stattdessen: einen konkreten KI-Use-Case auswählen, nur dessen Daten qualitätssichern und daraus lernen. Die Erkenntnisse aus dem ersten Projekt – welche Datenquellen problematisch waren, welche Bereinigungsschritte den größten Effekt hatten – übertragen sich auf alle folgenden Vorhaben. Gartner prognostiziert, dass bis 2028 bereits 80 Prozent der GenAI-Geschäftsanwendungen auf bestehenden Datenmanagement-Plattformen entwickelt werden. Wer heute die Grundlage schafft, wird diese Entwicklung nutzen können.
Fazit
Die Zahlen sind eindeutig: KI-Investitionen ohne vorherige Datenqualitätssicherung sind Risikoinvestitionen. 57 Prozent der Unternehmen wissen das bereits – und tun trotzdem zu wenig. Für den Mittelstand liegt darin auch eine Chance: Wer jetzt die Datenbasis sauber aufstellt, hat einen strukturellen Vorteil gegenüber Wettbewerbern, die KI-Projekte starten und erst hinterher merken, dass die Grundlage fehlt.
Der erste Schritt muss kein Großprojekt sein. Eine Dateninventur für den wichtigsten Use-Case, eine ehrliche Qualitätsmessung und eine klare Verantwortlichkeit reichen für den Start. Der Rest ergibt sich – vorausgesetzt, Datenqualität wird nicht als einmaliges IT-Projekt verstanden, sondern als kontinuierliche Managementaufgabe. Die Technologie ist bereit. Die Frage ist, ob es die Daten auch sind.
Häufige Fragen
Wie erkenne ich, ob meine Daten KI-bereit sind?
Prüfen Sie die sechs DAMA-Dimensionen (Vollständigkeit, Genauigkeit, Aktualität, Konsistenz, Eindeutigkeit und Gültigkeit) anhand einer Stichprobe aus dem geplanten KI-Anwendungsfall. Wenn mehr als zehn Prozent der Datensätze in einer der Dimensionen mangelhaft sind, ist Bereinigung vor dem KI-Start notwendig. Gartner schätzt, dass 57 Prozent der Unternehmen bei dieser Prüfung durchfallen.
Was kostet schlechte Datenqualität?
Direkte Kosten entstehen durch Fehlentscheidungen, manuelle Bereinigung und gescheiterte Projekte. Indirekte Kosten durch verlorenes Vertrauen in KI-Initiativen und verzögerte Digitalisierung. Die NTT DATA-Studie 2024 zeigt, dass 70 bis 85 Prozent der GenAI-Deployments ihren geplanten ROI verfehlen – häufig wegen unzureichender Datengrundlage.
Braucht der Mittelstand einen Chief Data Officer?
Nicht zwingend. Wichtiger als der Titel ist eine klare Zuständigkeit für Datenqualität pro Kernsystem. Im Mittelstand kann das der IT-Leiter koordinieren, während die Fachabteilungsleiter operative Verantwortung für ihre Daten übernehmen. Entscheidend ist, dass jemand regelmäßig prüft und Qualitätskennzahlen erhebt.
Welche Rolle spielt der EU AI Act für die Datenqualität?
Artikel 10 des EU AI Act schreibt für Hochrisiko-KI-Systeme nachweisbare Datenqualität vor: Trainingsdaten müssen relevant, repräsentativ und so weit wie möglich fehlerfrei sein. Bias muss systematisch geprüft werden. Die meisten KI-Anwendungen im Mittelstand fallen zwar nicht unter Hochrisiko, aber der Standard wird sich als Markterwartung durchsetzen. Wer heute saubere Daten hat, muss später weniger nachrüsten.
Wie lange dauert es, eine Datenbasis KI-bereit zu machen?
Für einen einzelnen Use-Case ist ein realistischer Zeitrahmen vier bis acht Wochen – vorausgesetzt, die Datenquellen sind bekannt und der Anwendungsfall klar definiert. Unternehmensweite Datenqualitätsprogramme dauern sechs bis zwölf Monate bis zur ersten messbaren Verbesserung. Wichtig: Nicht alles auf einmal bereinigen, sondern Use-Case-getrieben vorgehen.
Lesetipps der Redaktion
Quelle Titelbild: Pexels / Kampus Production (px:6248957)

