KI teurer als geplant: Was die 33-Prozent-Cost-Overrun-Rate aus der Bitkom-Studie 2026 für Mittelstands-CFOs bedeutet
8 Min. Lesezeit
Ein Drittel der DACH-Unternehmen sagt laut der Bitkom-Studie vom April 2026: KI ist teurer geworden als geplant. Das ist keine Frage falsch geschätzter Mengen, sondern eine Architektur- und Procurement-Frage. Wer als CFO im Mittelstand jetzt nicht in die Kostenmodelle schaut, kürzt in zwölf Monaten am Personal statt am Vendor.
Das Wichtigste in Kürze
- 41 Prozent KI-Nutzung, 33 Prozent Kostenüberschreitung: Die Bitkom-Studie 2026 zeigt eine Verdoppelung der Adoption gegenüber 2024 – aber jedes dritte Unternehmen liegt über Plan (Bitkom, April 2026).
- Cost-Overrun ist Architektur, nicht Volumen: Hyperscaler-Lock-in, ineffiziente RAG-Pipelines und fehlendes Model-Routing treiben die Inferenzkosten weit stärker als die Nutzungsmenge.
- Procurement muss umgebaut werden: Klassische Lizenz-Logik passt nicht zu Token-Pricing – CFOs brauchen Total-Cost-of-Inference-Modelle, bevor der nächste Vertrag unterschrieben wird.
Was die Bitkom-Zahlen für die CFO-Realität bedeuten
Die Bitkom-Studie vom April 2026 misst zwei Realitäten gleichzeitig. 41 Prozent der Unternehmen in DACH setzen KI aktiv ein – 2024 waren es 17 Prozent. Adoption ist also nicht das Problem. Das Problem zeigt der zweite Wert: 33 Prozent berichten Kostenüberschreitungen. 19 Prozent haben im Zuge dessen Stellen abgebaut. Das ist eine harte Zahl in einer Studie, die sonst eher Stimmungsbilder sammelt.
Wer als CFO nur die Adoptionsrate liest, übersieht den teuren Teil. Die Cost-Overruns sind nicht gleichmäßig verteilt. In Branchenbeobachtungen konzentrieren sie sich auf zwei Cluster. Erstens Mittelständler, die ohne Architektur-Review direkt in einen Hyperscaler-Vertrag gegangen sind. Zweitens Unternehmen, die einen Generative-AI-Use-Case ins Kerngeschäft skaliert haben, ohne die Inferenzkosten pro Transaktion durchgerechnet zu haben.
Für die Finanzfunktion heißt das: Der KI-Posten ist kein Software-Posten mehr. Er verhält sich wie ein variabler Energieposten – mit dem Unterschied, dass die meisten ERP-Systeme ihn nicht so abbilden. Wer ihn als fixe Lizenzkosten in den Forecast schreibt, hat schon verloren.
Die 19 Prozent sind das eigentliche Alarmsignal. Sie sagen: Der Mittelstand hat die Adoption begonnen, ohne den finanziellen Sicherheitsabstand zu definieren. Sobald der Cashflow eng wird, geht die Kürzung an die Personalseite, nicht an den Vendor. Das ist umgekehrt zu dem, was die KI-Investitionsthese eigentlich verspricht – und es liegt fast immer daran, dass niemand vor dem Start eine ehrliche Total-Cost-of-Inference-Kalkulation gemacht hat.
Vier Architektur-Antipattern, die Cost-Overruns produzieren
Cost-Overruns kommen selten aus dem Lizenzpreis. Sie kommen aus der Architektur, die unter dem Lizenzpreis liegt. Vier Pattern tauchen in DACH-Pilotprojekten besonders häufig auf – und sie sind alle vermeidbar, wenn der CFO vor dem Architektur-Sign-off die richtigen Fragen stellt.
Was Kosten treibt
- Hyperscaler-Lock-in: Inferenz auf einer Plattform, kein Vergleichspreis im Vertrag
- RAG-Pipelines, die ganze Dokumente in den Context laden statt zu chunken
- Premium-Modell für jede Anfrage – auch für simple Klassifikationen
- Inferenz-Workload überdimensioniert (GPU 24/7 reserviert statt on-demand)
Was Kosten trägt
- Multi-Provider-Setup mit Routing-Layer (mind. zwei Inference-Quellen)
- Token-Budget pro Use-Case, nicht pro Abteilung
- Kleine Modelle als Default, Premium nur bei Bedarf
- Caching-Schicht für wiederkehrende Anfragen (oft 30 bis 50 Prozent der Last)
Der teuerste der vier Punkte ist meistens die RAG-Pipeline. Eine schlecht gebaute Retrieval-Architektur lädt für jede Anfrage 8.000 bis 16.000 Tokens Kontext, obwohl 1.500 reichen würden. Bei Tokens, die pro Million abgerechnet werden, multipliziert sich der Faktor direkt in die Monatsrechnung. CFOs sollten deshalb beim ersten Sign-off nicht nach dem Modellpreis fragen, sondern nach dem durchschnittlichen Token-Verbrauch pro Transaktion – und nach dem Worst-Case bei Lastspitzen.
Hyperscaler-Lock-in ist der zweite große Hebel. Wer einen Use-Case komplett auf einer Cloud aufsetzt, ohne einen zweiten Inference-Anbieter integriert zu haben, hat keinen Verhandlungsanker. Im DACH-Mittelstand ist das oft eine Kombination aus historisch gewachsener Cloud-Bindung und Vertriebs-Druck des Hyperscalers, der den KI-Stack als Bundle reinpitcht. Die Folge: Preiserhöhungen lassen sich nicht abfedern, weil das Replacement-Projekt sechs bis neun Monate kostet.
Wie ein CFO einen KI-Business-Case validiert (5 Schritte)
Klassische Software-Business-Cases prüfen Lizenzpreis, Implementierungsaufwand, Wartung. Bei KI fehlen damit die zwei wichtigsten Posten: Inferenzkosten und Skalierungspfad. Diese fünf Schritte ergänzen den Business-Case so, dass die wahren Treiber sichtbar werden, bevor der Vertrag unterschrieben ist.
Die fünf Schritte sind kein Framework. Sie sind die Mindestmenge an Disziplin, die verhindert, dass aus einem 50.000-Euro-Pilot ein 380.000-Euro-Kostenblock wird, ohne dass irgendwer dazwischen Stop sagen konnte. In Branchenbeobachtungen passiert genau das in den meisten Cost-Overrun-Fällen: Niemand hatte den Auftrag, den Drift zu sehen.
Procurement neu denken: vom Lizenzkauf zum Inferenz-Vertrag
Klassisches Software-Procurement im Mittelstand kauft eine Lizenz pro Nutzer, vielleicht plus Wartung. Bei KI funktioniert das nur in den Pilotphasen. Sobald ein Use-Case in den Produktivbetrieb geht, sprengt die Token-Logik die Lizenz-Logik. Wer Procurement nicht umbaut, holt sich denselben Cost-Overrun jedes Quartal neu – nur in größerer Menge.
Der erste Umbau-Schritt ist der Wechsel von Per-Seat- zu Per-Outcome-Verträgen, wo der Anbieter sich überhaupt darauf einlässt. Das ist im DACH-Mittelstand selten direkt verhandelbar, aber als Hybridmodell durchaus: Eine Grundgebühr deckt eine definierte Token-Menge ab; alles darüber wird transparent ausgewiesen. Was nicht passieren darf: Token-Verbrauch ohne Vertragslimit. Das ist der Standardweg in den 33-Prozent-Cluster.
Zweiter Hebel ist Vendor-Konsolidierung gegenläufig zum üblichen Pattern. Wo bisher die Faustregel „lieber drei spezialisierte Anbieter als einer für alles“ galt, kippt das bei KI-Inferenz. Drei Inferenz-Anbieter parallel zu betreiben ist teuer in Setup und Monitoring. Sinnvoll ist meistens: Ein Hauptanbieter für 70 Prozent des Volumens plus ein zweiter für Routing und Verhandlungsdruck. Drei Modelle gleichzeitig zu betreiben rechnet sich erst ab bestimmten Skalengrößen, die der typische Mittelständler 2026 noch nicht erreicht.
Dritter Punkt sind die Datenklauseln. Je mehr Use-Cases auf interne Daten zugreifen, desto wichtiger werden Restriktionen zur Trainings-Nutzung, zur Datenresidenz und zu Audit-Rechten. Diese Klauseln sind kein DSGVO-Thema mehr allein, sie sind ein Cost-Driver: Ein Anbieter, der Trainings-Nutzung ausschließt, kann bessere Konditionen anbieten, weil sein eigenes Geschäftsmodell anders kalkuliert. CFOs sollten Procurement bitten, das aktiv durchzuverhandeln, statt es als Standardklausel zu schlucken.
Die nächsten zwölf Monate: Was CFOs konkret aufsetzen sollten
Die 33-Prozent-Zahl wird sich nicht von selbst korrigieren. Wer im Mittelstand 2026 KI im Einsatz hat und keinen klaren Cost-Tracking-Mechanismus, ist Kandidat für die nächste Runde. Drei konkrete Maßnahmen lassen sich in den nächsten zwölf Monaten realistisch umsetzen, ohne die Adoption zu killen.
Der Fahrplan wirkt unspektakulär – das ist Absicht. KI-Cost-Control im Mittelstand braucht keine neuen Frameworks. Sie braucht den Willen, den Posten ernst zu nehmen, bevor er das Personalbudget angreift. Die 19-Prozent-Zahl aus der Bitkom-Studie zeigt, was passiert, wenn dieser Wille fehlt.
Fazit
Die Bitkom-Zahlen 2026 sind kein Adoptions-Problem, sondern ein Architektur- und Procurement-Problem. CFOs im Mittelstand können die Cost-Overrun-Welle abfedern, wenn sie die KI-Kosten als variablen Posten behandeln, Token-Profile vor dem Vertrag verlangen und mindestens einen zweiten Inference-Anbieter parat haben. Wer das nicht tut, hat in zwölf Monaten dieselbe Wahl wie die 19 Prozent: am Personal kürzen oder den Use-Case zurückbauen. Beide Wege sind teurer als der saubere Procurement-Aufbau jetzt.
Häufige Fragen
Warum sind 33 Prozent Cost-Overrun bei KI-Projekten so hoch im Vergleich zu klassischen IT-Projekten?
Weil KI-Inferenz variabel abgerechnet wird, klassische Software aber fix. CFOs kalkulieren oft mit Lizenz-Logik (fixer Preis pro Nutzer) und übersehen, dass Token-Pricing pro Transaktion skaliert. Ein Use-Case, der erfolgreich angenommen wird, treibt die Kosten überproportional – genau das Gegenteil der klassischen Software-Skalierung.
Was ist Total Cost of Inference und wie berechne ich sie?
Total Cost of Inference summiert alle Kosten, die pro KI-Anfrage anfallen: Input-Tokens, Output-Tokens, Routing-Overhead, Caching-Anteil, Monitoring. Berechnung im Mittelstand: durchschnittliche Token pro Transaktion mal Anzahl Transaktionen pro Monat, mal Token-Preis. Plus 10 bis 15 Prozent Aufschlag für Lastspitzen. Das ergibt eine ehrliche Monats-Schätzung, die im Forecast steht.
Reicht es, wenn unser IT-Leiter die Architektur-Entscheidung trifft, oder muss der CFO mit am Tisch sitzen?
Bei Pilotprojekten reicht IT-Leitung. Sobald ein Use-Case in den Produktivbetrieb geht und Inferenzkosten über etwa 5.000 Euro pro Monat liegen, gehört die Finanzfunktion in das Architektur-Sign-off. Hyperscaler-Lock-in und fehlendes Modell-Routing sind keine technischen Detailfragen mehr, sondern Vertragsbindungen mit mehrjähriger Kostenwirkung.
Wie verhandele ich mit einem Hyperscaler über KI-Kosten, wenn ich keinen zweiten Anbieter habe?
Ohne Alternative ist der Verhandlungsspielraum begrenzt. Realistisch sind drei Hebel: erstens Volumen-Commits gegen Preisreduktion (typisch 5 bis 10 Prozent), zweitens Multi-Year-Verträge gegen Kostendeckel, drittens Inklusion eines Routing-Rechts in den Vertrag. Wichtiger ist der parallele Aufbau eines zweiten Anbieters – ohne den bleiben künftige Verhandlungen einseitig.
Was kostet eine schlecht gebaute RAG-Pipeline im Mittelstand typischerweise mehr als eine optimierte?
In Branchenbeobachtungen liegt der Faktor bei drei bis fünf bei mittlerem Volumen. Eine schlechte Pipeline lädt 8.000 bis 16.000 Tokens Kontext pro Anfrage, eine optimierte 1.500 bis 3.000. Bei 50.000 Anfragen pro Monat addiert sich das auf vier- bis fünfstellige Beträge – in der Differenz, nicht im Gesamtpreis. Caching-Schichten und besseres Chunking sind technisch oft kleine Eingriffe mit großer Hebelwirkung.
Quelle Titelbild: Pexels / Kampus Production (px:8353840)
Lesetipps der Redaktion
80 Prozent AI-Failure-Rate 2026: Wie RAND und Gartner die KI-Produktivitätslücke einordnen
KI-Daten-Reife im Mittelstand 2026: Fünf Hausaufgaben vor dem ersten Produktiv-Agent
Gartner 2.520 Mrd. US-Dollar KI-Spending 2026: Wie Mittelständler die Zahlen einordnen
