CFO im Mittelstand analysiert KI-Projektkosten am Laptop
28.04.2026

KI teurer als geplant: Was die 33-Prozent-Cost-Overrun-Rate aus der Bitkom-Studie 2026 für Mittelstands-CFOs bedeutet

8 Min. Lesezeit

Ein Drittel der DACH-Unternehmen sagt laut der Bitkom-Studie vom April 2026: KI ist teurer geworden als geplant. Das ist keine Frage falsch geschätzter Mengen, sondern eine Architektur- und Procurement-Frage. Wer als CFO im Mittelstand jetzt nicht in die Kostenmodelle schaut, kürzt in zwölf Monaten am Personal statt am Vendor.

Das Wichtigste in Kürze

  • 41 Prozent KI-Nutzung, 33 Prozent Kostenüberschreitung: Die Bitkom-Studie 2026 zeigt eine Verdoppelung der Adoption gegenüber 2024 – aber jedes dritte Unternehmen liegt über Plan (Bitkom, April 2026).
  • Cost-Overrun ist Architektur, nicht Volumen: Hyperscaler-Lock-in, ineffiziente RAG-Pipelines und fehlendes Model-Routing treiben die Inferenzkosten weit stärker als die Nutzungsmenge.
  • Procurement muss umgebaut werden: Klassische Lizenz-Logik passt nicht zu Token-Pricing – CFOs brauchen Total-Cost-of-Inference-Modelle, bevor der nächste Vertrag unterschrieben wird.

Was die Bitkom-Zahlen für die CFO-Realität bedeuten

Die Bitkom-Studie vom April 2026 misst zwei Realitäten gleichzeitig. 41 Prozent der Unternehmen in DACH setzen KI aktiv ein – 2024 waren es 17 Prozent. Adoption ist also nicht das Problem. Das Problem zeigt der zweite Wert: 33 Prozent berichten Kostenüberschreitungen. 19 Prozent haben im Zuge dessen Stellen abgebaut. Das ist eine harte Zahl in einer Studie, die sonst eher Stimmungsbilder sammelt.

Wer als CFO nur die Adoptionsrate liest, übersieht den teuren Teil. Die Cost-Overruns sind nicht gleichmäßig verteilt. In Branchenbeobachtungen konzentrieren sie sich auf zwei Cluster. Erstens Mittelständler, die ohne Architektur-Review direkt in einen Hyperscaler-Vertrag gegangen sind. Zweitens Unternehmen, die einen Generative-AI-Use-Case ins Kerngeschäft skaliert haben, ohne die Inferenzkosten pro Transaktion durchgerechnet zu haben.

Für die Finanzfunktion heißt das: Der KI-Posten ist kein Software-Posten mehr. Er verhält sich wie ein variabler Energieposten – mit dem Unterschied, dass die meisten ERP-Systeme ihn nicht so abbilden. Wer ihn als fixe Lizenzkosten in den Forecast schreibt, hat schon verloren.

33 %
der DACH-Unternehmen mit aktivem KI-Einsatz berichten 2026 Kostenüberschreitungen. 19 Prozent haben deshalb Stellen abgebaut.
Quelle: Bitkom-Pressemitteilung, April 2026

Die 19 Prozent sind das eigentliche Alarmsignal. Sie sagen: Der Mittelstand hat die Adoption begonnen, ohne den finanziellen Sicherheitsabstand zu definieren. Sobald der Cashflow eng wird, geht die Kürzung an die Personalseite, nicht an den Vendor. Das ist umgekehrt zu dem, was die KI-Investitionsthese eigentlich verspricht – und es liegt fast immer daran, dass niemand vor dem Start eine ehrliche Total-Cost-of-Inference-Kalkulation gemacht hat.

Vier Architektur-Antipattern, die Cost-Overruns produzieren

Cost-Overruns kommen selten aus dem Lizenzpreis. Sie kommen aus der Architektur, die unter dem Lizenzpreis liegt. Vier Pattern tauchen in DACH-Pilotprojekten besonders häufig auf – und sie sind alle vermeidbar, wenn der CFO vor dem Architektur-Sign-off die richtigen Fragen stellt.

Was Kosten treibt

  • Hyperscaler-Lock-in: Inferenz auf einer Plattform, kein Vergleichspreis im Vertrag
  • RAG-Pipelines, die ganze Dokumente in den Context laden statt zu chunken
  • Premium-Modell für jede Anfrage – auch für simple Klassifikationen
  • Inferenz-Workload überdimensioniert (GPU 24/7 reserviert statt on-demand)

Was Kosten trägt

  • Multi-Provider-Setup mit Routing-Layer (mind. zwei Inference-Quellen)
  • Token-Budget pro Use-Case, nicht pro Abteilung
  • Kleine Modelle als Default, Premium nur bei Bedarf
  • Caching-Schicht für wiederkehrende Anfragen (oft 30 bis 50 Prozent der Last)

Der teuerste der vier Punkte ist meistens die RAG-Pipeline. Eine schlecht gebaute Retrieval-Architektur lädt für jede Anfrage 8.000 bis 16.000 Tokens Kontext, obwohl 1.500 reichen würden. Bei Tokens, die pro Million abgerechnet werden, multipliziert sich der Faktor direkt in die Monatsrechnung. CFOs sollten deshalb beim ersten Sign-off nicht nach dem Modellpreis fragen, sondern nach dem durchschnittlichen Token-Verbrauch pro Transaktion – und nach dem Worst-Case bei Lastspitzen.

Hyperscaler-Lock-in ist der zweite große Hebel. Wer einen Use-Case komplett auf einer Cloud aufsetzt, ohne einen zweiten Inference-Anbieter integriert zu haben, hat keinen Verhandlungsanker. Im DACH-Mittelstand ist das oft eine Kombination aus historisch gewachsener Cloud-Bindung und Vertriebs-Druck des Hyperscalers, der den KI-Stack als Bundle reinpitcht. Die Folge: Preiserhöhungen lassen sich nicht abfedern, weil das Replacement-Projekt sechs bis neun Monate kostet.

Wie ein CFO einen KI-Business-Case validiert (5 Schritte)

Klassische Software-Business-Cases prüfen Lizenzpreis, Implementierungsaufwand, Wartung. Bei KI fehlen damit die zwei wichtigsten Posten: Inferenzkosten und Skalierungspfad. Diese fünf Schritte ergänzen den Business-Case so, dass die wahren Treiber sichtbar werden, bevor der Vertrag unterschrieben ist.

CFO-Validierung in 5 Schritten
1
Token-Profil pro Transaktion erfragen. Nicht pro Nutzer, nicht pro Monat – pro tatsächlicher Use-Case-Transaktion. Input plus Output. Wenn der Lieferant das nicht beziffern kann, ist der Business-Case noch nicht reif.
2
Lastspitzen-Szenario rechnen. Was kostet ein Tag mit dreifachem Volumen? Was bei zehnfachem? Bei Token-Pricing skaliert das linear, bei reservierten GPUs nicht. Beide Modelle gegeneinander stellen.
3
Modell-Routing als Vertragsklausel. Im Vertrag muss stehen, dass der Anbieter unterschiedliche Modellgrößen anbietet und die Migration zwischen ihnen möglich ist. Sonst zahlt das Unternehmen Premium für simple Klassifikationen.
4
Exit-Pfad benennen. Wie hoch sind die Kosten, den Use-Case auf einen zweiten Anbieter umzuziehen? Wenn die Antwort sechs Monate lautet, ist das Risiko-Pricing falsch kalibriert.
5
Quartalsweises Re-Forecasting fixieren. KI-Kosten gehören in den rollierenden Forecast, nicht in den Jahresbudget-Block. Sonst sieht der CFO den Drift erst im Q4-Closing.

Die fünf Schritte sind kein Framework. Sie sind die Mindestmenge an Disziplin, die verhindert, dass aus einem 50.000-Euro-Pilot ein 380.000-Euro-Kostenblock wird, ohne dass irgendwer dazwischen Stop sagen konnte. In Branchenbeobachtungen passiert genau das in den meisten Cost-Overrun-Fällen: Niemand hatte den Auftrag, den Drift zu sehen.

Procurement neu denken: vom Lizenzkauf zum Inferenz-Vertrag

Klassisches Software-Procurement im Mittelstand kauft eine Lizenz pro Nutzer, vielleicht plus Wartung. Bei KI funktioniert das nur in den Pilotphasen. Sobald ein Use-Case in den Produktivbetrieb geht, sprengt die Token-Logik die Lizenz-Logik. Wer Procurement nicht umbaut, holt sich denselben Cost-Overrun jedes Quartal neu – nur in größerer Menge.

Der erste Umbau-Schritt ist der Wechsel von Per-Seat- zu Per-Outcome-Verträgen, wo der Anbieter sich überhaupt darauf einlässt. Das ist im DACH-Mittelstand selten direkt verhandelbar, aber als Hybridmodell durchaus: Eine Grundgebühr deckt eine definierte Token-Menge ab; alles darüber wird transparent ausgewiesen. Was nicht passieren darf: Token-Verbrauch ohne Vertragslimit. Das ist der Standardweg in den 33-Prozent-Cluster.

Zweiter Hebel ist Vendor-Konsolidierung gegenläufig zum üblichen Pattern. Wo bisher die Faustregel „lieber drei spezialisierte Anbieter als einer für alles“ galt, kippt das bei KI-Inferenz. Drei Inferenz-Anbieter parallel zu betreiben ist teuer in Setup und Monitoring. Sinnvoll ist meistens: Ein Hauptanbieter für 70 Prozent des Volumens plus ein zweiter für Routing und Verhandlungsdruck. Drei Modelle gleichzeitig zu betreiben rechnet sich erst ab bestimmten Skalengrößen, die der typische Mittelständler 2026 noch nicht erreicht.

Dritter Punkt sind die Datenklauseln. Je mehr Use-Cases auf interne Daten zugreifen, desto wichtiger werden Restriktionen zur Trainings-Nutzung, zur Datenresidenz und zu Audit-Rechten. Diese Klauseln sind kein DSGVO-Thema mehr allein, sie sind ein Cost-Driver: Ein Anbieter, der Trainings-Nutzung ausschließt, kann bessere Konditionen anbieten, weil sein eigenes Geschäftsmodell anders kalkuliert. CFOs sollten Procurement bitten, das aktiv durchzuverhandeln, statt es als Standardklausel zu schlucken.

Die nächsten zwölf Monate: Was CFOs konkret aufsetzen sollten

Die 33-Prozent-Zahl wird sich nicht von selbst korrigieren. Wer im Mittelstand 2026 KI im Einsatz hat und keinen klaren Cost-Tracking-Mechanismus, ist Kandidat für die nächste Runde. Drei konkrete Maßnahmen lassen sich in den nächsten zwölf Monaten realistisch umsetzen, ohne die Adoption zu killen.

12-Monats-Fahrplan CFO-Funktion
Q2 2026
Bestandsaufnahme aller produktiven KI-Use-Cases. Pro Use-Case: Token-Verbrauch, Anbieter, Vertragslaufzeit, Exit-Aufwand. Kein neues Tool nötig – eine Tabelle reicht für den Anfang.
Q3 2026
Token-Budget pro Use-Case festlegen, Alerting bei 80 Prozent Verbrauch einrichten. Falls der Anbieter das nicht liefert, eigenes Logging vor den Inference-Call setzen.
Q4 2026
Procurement-Playbook für KI-Verträge erstellen. Mindestbestandteile: Modell-Routing-Klausel, Token-Profil, Exit-Pfad, Trainings-Restriktion, quartalsweises Pricing-Review.
Q1 2027
Zweiten Inference-Anbieter parallel anbinden, Routing-Layer aktivieren, Verhandlungsdruck auf den Hauptanbieter erhöhen. Ziel: 5 bis 15 Prozent Preisreduktion durch nachweisbare Alternative.

Der Fahrplan wirkt unspektakulär – das ist Absicht. KI-Cost-Control im Mittelstand braucht keine neuen Frameworks. Sie braucht den Willen, den Posten ernst zu nehmen, bevor er das Personalbudget angreift. Die 19-Prozent-Zahl aus der Bitkom-Studie zeigt, was passiert, wenn dieser Wille fehlt.

Fazit

Die Bitkom-Zahlen 2026 sind kein Adoptions-Problem, sondern ein Architektur- und Procurement-Problem. CFOs im Mittelstand können die Cost-Overrun-Welle abfedern, wenn sie die KI-Kosten als variablen Posten behandeln, Token-Profile vor dem Vertrag verlangen und mindestens einen zweiten Inference-Anbieter parat haben. Wer das nicht tut, hat in zwölf Monaten dieselbe Wahl wie die 19 Prozent: am Personal kürzen oder den Use-Case zurückbauen. Beide Wege sind teurer als der saubere Procurement-Aufbau jetzt.

Häufige Fragen

Warum sind 33 Prozent Cost-Overrun bei KI-Projekten so hoch im Vergleich zu klassischen IT-Projekten?

Weil KI-Inferenz variabel abgerechnet wird, klassische Software aber fix. CFOs kalkulieren oft mit Lizenz-Logik (fixer Preis pro Nutzer) und übersehen, dass Token-Pricing pro Transaktion skaliert. Ein Use-Case, der erfolgreich angenommen wird, treibt die Kosten überproportional – genau das Gegenteil der klassischen Software-Skalierung.

Was ist Total Cost of Inference und wie berechne ich sie?

Total Cost of Inference summiert alle Kosten, die pro KI-Anfrage anfallen: Input-Tokens, Output-Tokens, Routing-Overhead, Caching-Anteil, Monitoring. Berechnung im Mittelstand: durchschnittliche Token pro Transaktion mal Anzahl Transaktionen pro Monat, mal Token-Preis. Plus 10 bis 15 Prozent Aufschlag für Lastspitzen. Das ergibt eine ehrliche Monats-Schätzung, die im Forecast steht.

Reicht es, wenn unser IT-Leiter die Architektur-Entscheidung trifft, oder muss der CFO mit am Tisch sitzen?

Bei Pilotprojekten reicht IT-Leitung. Sobald ein Use-Case in den Produktivbetrieb geht und Inferenzkosten über etwa 5.000 Euro pro Monat liegen, gehört die Finanzfunktion in das Architektur-Sign-off. Hyperscaler-Lock-in und fehlendes Modell-Routing sind keine technischen Detailfragen mehr, sondern Vertragsbindungen mit mehrjähriger Kostenwirkung.

Wie verhandele ich mit einem Hyperscaler über KI-Kosten, wenn ich keinen zweiten Anbieter habe?

Ohne Alternative ist der Verhandlungsspielraum begrenzt. Realistisch sind drei Hebel: erstens Volumen-Commits gegen Preisreduktion (typisch 5 bis 10 Prozent), zweitens Multi-Year-Verträge gegen Kostendeckel, drittens Inklusion eines Routing-Rechts in den Vertrag. Wichtiger ist der parallele Aufbau eines zweiten Anbieters – ohne den bleiben künftige Verhandlungen einseitig.

Was kostet eine schlecht gebaute RAG-Pipeline im Mittelstand typischerweise mehr als eine optimierte?

In Branchenbeobachtungen liegt der Faktor bei drei bis fünf bei mittlerem Volumen. Eine schlechte Pipeline lädt 8.000 bis 16.000 Tokens Kontext pro Anfrage, eine optimierte 1.500 bis 3.000. Bei 50.000 Anfragen pro Monat addiert sich das auf vier- bis fünfstellige Beträge – in der Differenz, nicht im Gesamtpreis. Caching-Schichten und besseres Chunking sind technisch oft kleine Eingriffe mit großer Hebelwirkung.

Quelle Titelbild: Pexels / Kampus Production (px:8353840)

Lesetipps der Redaktion

80 Prozent AI-Failure-Rate 2026: Wie RAND und Gartner die KI-Produktivitätslücke einordnen

KI-Daten-Reife im Mittelstand 2026: Fünf Hausaufgaben vor dem ersten Produktiv-Agent

Gartner 2.520 Mrd. US-Dollar KI-Spending 2026: Wie Mittelständler die Zahlen einordnen

Auch verfügbar in

Ein Magazin der evernine media GmbH