Illustration mit Papierstapel, Lupe, roten Pfeilen und geordneten Dokumenten auf hellem Grund
13.01.2026

Daten als Grundlage für KI: warum der Pilot enttäuscht

7 Min. Lesezeit

Viele KI-Projekte enttäuschen aus einem Grund, der nichts mit dem Modell zu tun hat. Der Pilot läuft, die Demo begeistert, und im echten Betrieb liefert das System falsche oder widersprüchliche Antworten. Die Ursache liegt fast immer eine Ebene tiefer, in den Daten, auf die das System zugreift. Wer Automatisierung und KI ernst meint, investiert zuerst in die Datenbasis und erst danach in das nächste Werkzeug.

Das Wichtigste in Kürze

  • Das Modell ist selten der Engpass: KI-Projekte scheitern meist an der Datengrundlage, nicht an der Rechenleistung. Ein gutes Modell auf schlechten Daten liefert überzeugend formulierte Fehler.
  • Der Großteil der Daten ist unsichtbar: Branchenschätzungen zufolge liegen über 80 Prozent der Unternehmensdaten unstrukturiert vor. Genau dort steckt der Kontext, den eine KI braucht, und genau dort fehlt die Ordnung.
  • Governance schlägt Modellgröße: Verlässliche KI entsteht aus einer indexierten, eindeutigen und mit Regeln versehenen Datenbasis. Das größere Modell hilft erst danach. Diese Arbeit zeigt niemand auf einer Bühne.

Verwandt:Hyperautomation: warum RPA allein nicht mehr reicht  /  KI im Mittelstand: warum viele zögern

Warum der KI-Pilot im Betrieb enttäuscht

Das Muster wiederholt sich in vielen Unternehmen. Eine Abteilung testet einen KI-Assistenten an einem sauberen, kuratierten Datensatz. Die Ergebnisse sind beeindruckend, das Budget wird freigegeben, der Rollout beginnt. Im echten Betrieb trifft das System dann auf die gewachsene Realität: drei Versionen desselben Vertrags, veraltete Richtlinien, Belege in einem Dutzend Formaten und ein Wissen, das in Mailverläufen verstreut ist. Die Qualität der Antworten fällt, und niemand versteht zunächst, warum.

Der Grund ist unbequem, aber simpel. Ein KI-System ist ein Spiegel der Daten, die es bekommt. Sind diese Daten widersprüchlich, gibt das System die Widersprüche zurück, nur schneller und in selbstbewusstem Ton. Oft ist das gar keine Halluzination im engeren Sinn. Das Modell zitiert korrekt aus einer falschen oder veralteten Quelle, weil ihm niemand gesagt hat, welche Version gilt.

Aus der Praxis lässt sich das hart zusammenfassen: Migrationen und KI-Rollouts scheitern selten an der Technik. Sie scheitern an einer Datenlandschaft, die für menschliche Improvisation gebaut war und der ersten Maschine, die sie wörtlich nimmt, nicht standhält.

Dark Data, der blinde Fleck im Datenschatz

Was ist Dark Data? Als Dark Data gelten Informationen, die ein Unternehmen erzeugt und speichert, aber nicht aktiv nutzt: Dokumente, E-Mails, Protokolle, Aufnahmen, Sensordaten. Sie liegen in Silos, sind selten indexiert und tragen oft genau den fachlichen Kontext, der für Auswertung und KI entscheidend ist.

Die viel zitierte Zahl, dass über 80 Prozent der Unternehmensdaten unstrukturiert sind, klingt abstrakt, bis man sie übersetzt. Sie bedeutet, dass der weitaus größte Teil des Wissens einer Organisation nicht in der Datenbank steht, die jeder kennt, sondern in Dateien, die niemand systematisch erschlossen hat. Genau dieser Teil entscheidet darüber, ob ein Assistent eine Frage zum letzten Vertrag, zur gültigen Richtlinie oder zum offenen Vorgang beantworten kann.

Das Problem an Dark Data ist nicht die Menge. Speicher ist billig. Das Problem ist die fehlende Erschließung. Daten ohne Index, ohne klare Herkunft und ohne Gültigkeitsmarker sind für eine Maschine fast wertlos, egal wie groß ihr Modell ist.

80 %
der Unternehmensdaten liegen Branchenschätzungen zufolge unstrukturiert vor. Sie sind der Rohstoff jeder ernsthaften KI-Anwendung und zugleich der am wenigsten gepflegte.
Quelle: gängige Branchenschätzungen

Warum ein größeres Modell das nicht löst

Die verbreitete Reaktion auf einen enttäuschenden Piloten ist, am Modell zu drehen. Ein leistungsfähigeres System, ein besserer Anbieter, mehr Kontextfenster. Das verschiebt die Grenze ein Stück, behebt die Ursache aber nicht. Wenn die zugrunde liegenden Daten ungeordnet sind, skaliert ein stärkeres Modell vor allem die Geschwindigkeit, mit der falsche Antworten entstehen.

Was tatsächlich hilft, ist unspektakulärer. Eine Organisation braucht eine Schicht zwischen ihren Rohdaten und der KI, die Bedeutung mitliefert: welche Quelle gilt und wie ein Begriff im Unternehmen definiert ist. In der Fachsprache heißt das Semantic Layer. Dazu kommt die Governance, die regelt, wer auf welche Daten zugreifen darf und welche überhaupt verwendet werden. In der Praxis heißt das beides, dass jemand die Hausaufgaben gemacht hat, bevor die KI ausrückt.

Dieselbe Grundlage zahlt doppelt ein. Eine geordnete, eindeutige Datenbasis ist nicht nur die Bedingung für verlässliche KI, sie ist auch die Bedingung für jede Automatisierung, für Compliance und für belastbare Auswertungen. Wer hier investiert, baut kein einzelnes KI-Feature. Er baut ein Fundament, das mehrere Vorhaben gleichzeitig trägt.

Konkret sieht das so aus: Bevor ein Assistent eine Frage beantwortet, sucht er in den Unternehmensdaten nach passenden Stellen und legt sie dem Modell vor. Diese Suche ist nur so gut wie die Struktur darunter. Findet sie drei widersprüchliche Treffer ohne Datum und ohne Status, übernimmt das Modell die Verwirrung. Eine saubere Erschließung mit eindeutigen Quellen verbessert die Antwortqualität deshalb oft stärker als jeder Modellwechsel.

Was Data-Readiness praktisch verlangt

Der Weg dahin ist kein Großprojekt, das zwei Jahre läuft und dann ein Ergebnis liefert. Er beginnt mit einer ehrlichen Bestandsaufnahme: Wo liegen die Daten, die für den geplanten Anwendungsfall zählen, und in welchem Zustand sind sie? Schon diese Frage fördert in den meisten Unternehmen mehr Schatten-Ablagen zutage als erwartet.

Der zweite Schritt ist die Erschließung dieses einen Bereichs: Dubletten bereinigen, Metadaten ergänzen, Zugriffsregeln klären, eine eindeutige Quelle benennen. Erst auf dieser sauberen Teilmenge lohnt sich der KI-Einsatz, und er liefert dann auch Ergebnisse, die im Betrieb halten. Ein funktionierender Anwendungsfall überzeugt die Geschäftsleitung mehr als eine Roadmap über Data Governance.

Für die Geschäftsführung ist das vor allem eine Priorisierungsfrage. Datenarbeit konkurriert immer mit sichtbareren Vorhaben und verliert diesen Wettbewerb, solange niemand ihren Hebel benennt. Wer den nächsten KI-Anwendungsfall plant, sollte die Aufräumarbeit an den Daten als Teil des Projekts budgetieren und nicht als optionale Vorstufe behandeln. Sonst zahlt das Unternehmen sie später doppelt, in Form enttäuschter Piloten und nachträglicher Korrekturen.

Das ist die unbequeme Seite des KI-Themas. Vorn liegt nicht, wer das neueste Modell zuerst einkauft, sondern wer seine Daten so weit im Griff hat, dass jedes Modell darauf zuverlässig arbeitet. Diese Arbeit ist weniger sichtbar als ein KI-Launch und entscheidet trotzdem über das Ergebnis.

Häufige Fragen

Warum scheitern KI-Projekte an den Daten und nicht am Modell?

Weil ein KI-System auf die Daten zugreift, die es bekommt. Sind diese ungeordnet, doppelt oder veraltet, liefert es überzeugend formulierte, aber falsche Antworten. Ein stärkeres Modell behebt das nicht, es beschleunigt nur die Fehlerproduktion. Die Qualität der Antworten folgt der Qualität der Datenbasis.

Was sind Dark Data und warum sind sie ein Problem?

Dark Data sind erzeugte, aber ungenutzte Daten: Dokumente, E-Mails, Protokolle, oft in Silos und ohne Index. Sie tragen viel fachlichen Kontext, sind für eine Maschine aber kaum erschließbar. Branchenschätzungen zufolge machen unstrukturierte Daten über 80 Prozent des Bestands aus.

Was bedeutet ein Semantic Layer?

Ein Semantic Layer ist eine Schicht zwischen Rohdaten und Anwendung, die Bedeutung mitliefert: welche Quelle gilt und wie ein Begriff definiert ist. Er gibt einer KI den fachlichen Kontext, den sie braucht. Wer auf welche Daten zugreifen darf, regelt daneben die Governance.

Lohnt sich ein größeres KI-Modell?

Nur begrenzt, solange die Datengrundlage ungeordnet ist. Ein stärkeres Modell verschiebt die Grenze, behebt aber keine widersprüchlichen Quellen. Der größere Hebel liegt in einer indexierten, eindeutigen und mit Regeln versehenen Datenbasis, auf der jedes Modell besser arbeitet.

Wo fängt man mit Data-Readiness an?

Bei einem konkreten Anwendungsfall mit überschaubarem Datenbereich. Diesen Bereich aufräumen: Dubletten entfernen, Metadaten ergänzen, eine eindeutige Quelle und Zugriffsregeln festlegen. Auf dieser sauberen Teilmenge liefert die KI Ergebnisse, die im Betrieb halten, und schafft die Grundlage für den nächsten Schritt.

Bildquelle: KI-generiert (Januar 2026), C2PA-Zertifikat im Bild hinterlegt

Ein Magazin der evernine media GmbH
Das Entscheider-Magazin für den DACH-Mittelstand DEENFRES