Mann mit Laptop - KI-Reality-Check für den Mittelstand
27.05.2026

Drei KI-Niederlagen in einer Woche: Lektionen für den Mittelstand

8 Min. Lesezeit

Drei der lautesten KI-Geschichten im Mai 2026 sind keine Erfolgsgeschichten. Starbucks zieht ein Bestandstool zurück, das Milchsorten verwechselt. Microsoft sperrt seinen eigenen Ingenieuren ein populäres KI-Tool, weil die Rechnung explodiert. Uber verbrennt sein gesamtes Jahresbudget für künstliche Intelligenz in vier Monaten und der COO sagt offen, dass der Effekt unklar bleibt. Für den Mittelstand sind das keine Anekdoten, sondern drei nüchterne Hinweise, was bei KI-Investitionen 2026 schiefgeht.

Das Wichtigste in Kürze

  • KI braucht noch viel Aufsicht. Starbucks hat nach neun Monaten Pilot ein Bestandszählsystem in über 11.000 Filialen abgeschaltet, weil Mitarbeiter jede Zählung manuell nachprüfen mussten. Versprochen waren 99 Prozent Genauigkeit und achtmal schnellere Inventur.
  • Die Rechnung kippt mit der Nutzung. Microsoft hat Mitte Mai 2026 die meisten internen Lizenzen für Anthropics KI-Coding-Assistent gekündigt und seine Entwickler auf das eigene Werkzeug zurückgeholt. Begründung in der internen Mail: zu teuer, weil zu erfolgreich.
  • ROI bleibt die offene Flanke. Uber hat sein 2026er KI-Budget bis April aufgebraucht, deckt aktuell etwa 5.000 Engineers mit KI-Werkzeugen ab und sein COO Andrew Macdonald sagt offen, dass er die Verbindung zu neuen Features nicht sauber ziehen kann.

Verwandt:Stanford AI Index 2026: Inaccuracy schlägt Cybersecurity  /  Wenn KI-Tools plötzlich die Marge fressen

Drei Niederlagen in sieben Tagen

Die Reihenfolge ist Zufall, der Kontext nicht. Innerhalb einer Woche im Mai 2026 sind drei prominente KI-Geschichten gekippt, die alle drei verschiedene Versprechen einlösen sollten: bessere Operations, bessere Software, bessere Skalierung. Keines der drei Versprechen ist eingetreten und in zwei Fällen ist es die einsetzende Realität, die das Projekt beendet.

Das ist keine generelle Absage an die Technologie. Es ist ein konkreter Hinweis, dass die Standard-Verkaufsfolien von KI-Anbietern und die Standard-Erwartung in Mittelstands-Vorständen sich gerade in den drei Punkten unterscheiden, an denen Geld ausgegeben wird. Wer in den kommenden zwölf Monaten ein größeres KI-Vorhaben aufsetzt, sollte sich diese drei Fälle ansehen, bevor er die Investitionsvorlage unterschreibt.

Starbucks: wenn die KI Milch nicht von Milch unterscheidet

Starbucks hat im September 2025 in seinen nordamerikanischen Filialen ein Bestandszählsystem ausgerollt, das auf einem KI-Modell des Anbieters NomadGo basiert. Mitarbeiter scannen mit einem Tablet die Regale, das System zählt automatisch über LIDAR- und Kameradaten und überträgt das Ergebnis ins Warenwirtschaftssystem. Werbeversprechen: 99 Prozent Genauigkeit, achtmal schneller als manuelle Inventur.

Am 19. Mai 2026 hat das Unternehmen das Tool über alle rund 11.000 Filialen wieder zurückgezogen. In einem internen Rundschreiben heißt es nüchtern, Getränkebestandteile und Milch würden ab sofort wieder wie alle anderen Kategorien gezählt. Reuters und mehrere US-Medien haben den Hintergrund nachgezeichnet: Das System hat regelmäßig Milchsorten verwechselt, einzelne Flaschen schlicht nicht erkannt und Mitarbeiter haben in der Praxis jede automatische Zählung manuell nachprüfen müssen. In einem Promo-Video aus der Einführungsphase übersieht das System sogar einen Pfefferminzsirup direkt vor der Kamera.

Eckdaten Starbucks-Rollback

  • Anbieter: NomadGo, Tool-Name Automated Counting
  • Laufzeit: September 2025 bis 19. Mai 2026, neun Monate
  • Reichweite: alle nordamerikanischen Filialen, rund 11.000 Standorte
  • Versprechen: 99 Prozent Genauigkeit, achtmal schneller als manuell
  • Realität: Milchsorten verwechselt, einzelne Produkte übersehen, manuelle Nachzählung Pflicht

Die operative Lehre ist banal und genau deshalb relevant. Ein KI-System, das eine Arbeitskraft entlasten soll, aber jeden Output durch dieselbe Arbeitskraft prüfen lässt, erzeugt Mehraufwand und nicht Entlastung. Das gilt nicht nur für Inventur, sondern für jedes KI-Tool im Backoffice, in der Buchhaltung oder im Kundendienst. Die entscheidende Frage in der Investitionsvorlage lautet nicht, wie genau das System laut Anbieter ist, sondern wie oft Menschen die Ergebnisse manuell verifizieren müssen, damit ein Geschäftsprozess noch funktioniert.

Microsoft sperrt seinen eigenen Ingenieuren das Tool

Am 14. Mai 2026 haben Tausende Microsoft-Ingenieure in der Sparte Experiences and Devices, zu der Windows, Microsoft 365, Outlook, Teams und Surface gehören, eine interne Mail bekommen. Inhalt: Die Lizenzen für Anthropics Coding-Assistent Claude Code werden zum 30. Juni 2026 gekündigt, Wechsel auf das hauseigene Tool GitHub Copilot CLI. Berichte unter anderem in Windows Central und The Next Web zitieren die Begründung in seltener Klarheit: Das externe Tool sei innerhalb von Microsoft schlicht zu populär geworden.

Der Mechanismus dahinter ist für jedes Unternehmen relevant, das KI-Werkzeuge nach Verbrauch abrechnet. Anthropics Lizenz wird in Tokens berechnet, also nach jedem Code-Stück, das die KI generiert oder verarbeitet. Je hilfreicher das Werkzeug, desto häufiger nutzen Entwickler es, desto stärker steigt die Rechnung. Microsoft hat damit ein Paradox in Reinform: Der wirtschaftliche Anreiz, das beste Werkzeug einzusetzen, kollidiert mit dem wirtschaftlichen Anreiz, die monatliche Rechnung zu kontrollieren.

Dass Microsoft seine eigene Entwicklungsarbeit damit hörbar bremst, lässt sich an einem Detail ablesen. In einer separaten Mail-Runde hat CEO Satya Nadella laut TheStreet seine Mitarbeiter Anfang Mai 2026 gemahnt, das eigene Copilot intensiver zu nutzen. Wenn der Hersteller selbst seinen Ingenieuren predigen muss, das eigene Tool zu verwenden, ist das ein deutliches Signal über die wahrgenommene Qualität von Eigen- versus Fremdwerkzeug.

Uber: Milliarden ausgegeben, ROI nicht messbar

Der laut Fortune wohl am offensten kommunizierte Fall kommt von Uber. Das Unternehmen hat KI-Coding-Werkzeuge an etwa 5.000 Engineers ausgerollt, die Nutzungsquote stieg zwischen Februar und April 2026 von 32 auf 84 Prozent. Bis April waren 70 Prozent aller Code-Commits durch KI-Werkzeuge mitgeschrieben. Klingt nach Beispiel-Adoption für jede Konferenz-Bühne.

Die andere Seite der Zahlen, ebenfalls in der Fortune-Berichterstattung vom 26. Mai 2026 dokumentiert: Uber hat sein KI-Budget für 2026 in vier Monaten aufgebraucht. Pro Entwickler liegt die Monatsrechnung zwischen rund 460 und 1.840 Euro, je nach Intensität der Nutzung. COO Andrew Macdonald sagt im Earnings-Call sinngemäß, solange man die Linie zwischen KI-Nutzung und ausgelieferten Produktverbesserungen nicht sauber ziehen könne, werde die Investition immer schwerer zu rechtfertigen.

Eckdaten Uber-Budget

  • Rollout: rund 5.000 Engineers mit KI-Coding-Werkzeugen ausgestattet
  • Adoption: 32 auf 84 Prozent zwischen Februar und April 2026
  • Output: 70 Prozent der Code-Commits mit KI-Anteil im April 2026
  • Kosten: rund 460 bis 1.840 Euro pro Engineer pro Monat
  • Budget-Status: Jahresbudget 2026 nach vier Monaten verbraucht
  • ROI-Aussage des COO: Verbindung zu Produktverbesserungen nicht sauber belegbar

Bemerkenswert ist nicht der hohe Verbrauch, sondern die Offenheit. Uber führt damit live vor, was vielen Mittelstands-CFOs gerade Magenschmerzen bereitet: hohe Investition, hohe Nutzung, aber keine sauber zuordenbare Wirkungslinie auf das Geschäftsergebnis. Wenn ein börsennotiertes Tech-Unternehmen mit seiner Engineering-Tiefe diese Linie nicht zieht, wird ein deutsches Maschinenbau-Unternehmen mit 200 Mitarbeitern es erst recht nicht aus dem Stand schaffen.

Was der Mittelstand daraus mitnehmen sollte

Die drei Fälle zeigen drei verschiedene Bruchstellen: Qualität, Kostenkurve, Wirkungsmessung. Für die Investitionsentscheidung im Mittelstand lassen sich daraus konkrete Konsequenzen ableiten, die in jede Vorlage 2026 gehören.

Erstens: Verifikationsaufwand zur Pflichtangabe machen. Jede KI-Investition braucht eine geschätzte Zahl, wie viele menschliche Prüfminuten pro 100 KI-Outputs nötig sind, um den Prozess sicher zu fahren. Diese Zahl ist kein Schönheitsfehler, sie entscheidet den Business Case. Liegt der Verifikationsaufwand bei 50 Prozent oder mehr, ist das Tool keine Automatisierung, sondern eine teure Doppelarbeit.

Zweitens: Token-Modelle nüchtern durchrechnen. Bei jedem Werkzeug mit verbrauchsabhängiger Abrechnung gehört ein Szenario ins Sheet, in dem die Nutzung pro Anwender auf das Drei- bis Fünffache steigt. Genau das ist bei Microsoft und Uber passiert. Wer nur die Pilotgruppe rechnet und die Skalierung vergisst, baut die Kostenfalle aktiv ein.

Drittens: Wirkungsmessung vor dem Start festzurren. Eine grobe, ehrliche Kennzahl vor Projektstart ist mehr wert als ein präzises Reporting hinterher. Welche Durchlaufzeit, welche Fehlerquote, welcher Vertriebsmesswert soll sich um wie viel verändern? Wer die Frage am ersten Tag nicht beantworten kann, beantwortet sie auch nach zwölf Monaten nicht und steht dann wie Uber im Earnings-Call der eigenen Gesellschafter.

Viertens: Anbieter-Lock-in mit Lizenzklauseln dämpfen. Microsoft hat seinen Wechsel binnen Wochen durchgezogen, weil das Tool austauschbar war. Wer ein KI-Werkzeug tief in eigene Workflows verankert, ohne im Vertrag eine Exit-Frist und einen Datenextraktions-Mechanismus zu vereinbaren, wird beim ersten Preiswechsel des Anbieters über den Tisch gezogen.

Fünftens: Pilotgrößen am Lernziel orientieren, nicht am Hype. Ein Pilot mit 20 sorgfältig ausgewählten Anwendern liefert mehr belastbare Daten als ein flächiger Rollout an alle. Starbucks hat 11.000 Filialen ausgestattet, bevor klar war, dass die Mitarbeiter jede Zählung doppelt machen müssen. Diese Reihenfolge ist umkehrbar und für Mittelständler sogar zwingend.

Häufige Fragen

Bedeuten diese drei Fälle, dass KI im Mittelstand 2026 keinen Sinn ergibt?

Nein, sie bedeuten, dass die Standard-Verkaufsfolien zu optimistisch sind. KI bringt in eng abgegrenzten Anwendungsfällen messbare Vorteile, etwa in der Textverarbeitung, in der Fallpriorisierung oder bei strukturierten Auswertungen. Was nicht funktioniert, ist die unkritische Übernahme von Versprechen wie 99 Prozent Genauigkeit oder ROI in sechs Monaten. Wer mit einem klar abgesteckten Pilot startet und Verifikationsaufwand sowie Kostenkurve realistisch ansetzt, profitiert. Wer pauschal flächendeckend ausrollt, wird Geld verlieren.

Wie hoch sollte das KI-Budget eines mittelständischen Unternehmens 2026 sein?

Es gibt keine pauschale Zahl, aber eine pauschale Regel: Plane das Doppelte des ersten Angebots ein und definiere einen harten Deckel, ab dem die Investition gestoppt wird. Uber hat sein Budget in vier Monaten verbraucht, weil die Nutzung schneller stieg als geplant. Im Mittelstand reichen meist Beträge im niedrigen fünfstelligen Bereich für einen seriösen Pilot. Wichtig ist der Deckel und nicht die Größe.

Welche Verträge mit KI-Anbietern sind besonders riskant?

Token- oder verbrauchsbasierte Verträge ohne harten Monatsdeckel sind das größte operative Risiko. Sie können bei populären Tools innerhalb weniger Wochen das Budget eines ganzen Geschäftsjahres aufzehren. Wer solche Verträge unterschreibt, sollte mindestens einen monatlichen Hard-Cap, einen automatischen Nutzungsbericht und eine 30-Tage-Kündigungsfrist verhandeln. Pauschallizenzen pro Nutzer sind teurer im Eintrag, aber planbarer.

Wie misst man Wirkung von KI, wenn Uber es nicht schafft?

Mit einer einzigen Kennzahl pro Anwendungsfall, die vor dem Pilotstart festgelegt wird. Im Vertrieb etwa die Angebotsdurchlaufzeit, in der Buchhaltung die Quote der ohne Eingriff verbuchten Belege, im Kundenservice die durchschnittliche Bearbeitungsdauer. Eine grobe Zahl, die alle akzeptieren, ist mehr wert als ein präzises Dashboard, das niemand pflegt. Uber misst zu viel auf einmal, deshalb fehlt die klare Linie.

Was ist mit deutschen KI-Anbietern, sind die besser?

Die Logik ist identisch. Ob das Modell von einem US- oder DACH-Anbieter kommt, ändert weder den Verifikationsaufwand noch die Token-Mathematik. Was deutsche Anbieter oft besser können: Datenschutz-Verträge auf Deutsch, kürzere Reaktionszeiten und ein realistischeres Pricing-Modell ohne reine Verbrauchsabrechnung. Für die hier beschriebenen Risiken ist Herkunft sekundär, Vertragsdesign primär.

Lesetipps der Redaktion

Quelle Titelbild: Pexels

Ein Magazin der evernine media GmbH