Was eine Studie zu KI-Code mir über meine Arbeit verrät

81 Prozent der Tech-Führungskräfte berichten von Produktionsproblemen durch KI-generierten Code. Das gleiche strukturelle Muster sehe ich bei Solo-Gründern, die ihr erstes MVP bauen.

Die Zahlen

Eine neue Studie von CloudBees hat mehr als 200 Technologieleiter befragt, wie sich KI-generierter Code in ihren Unternehmen auswirkt. Golem hat die Ergebnisse zusammengefasst. Die Zahlen sind eindeutig, und sie passen verdächtig genau zu dem, was ich bei viel kleineren Projekten sehe.

81 Prozent der Befragten berichten von einem Anstieg der Probleme in Produktion, die mit KI-generiertem Code zusammenhängen. Funktionsfehler, Performance-Probleme, Sicherheitslücken.

70 Prozent empfinden die Pflege der Testsuiten inzwischen als größere Belastung als das Schreiben des Codes selbst.

92 Prozent sind trotzdem zuversichtlich, dass ihr Code produktionsreif ist, wenn sie ihn einsetzen.

Nur 56 Prozent glauben, dass die formalen Prüfprozesse in ihrem Unternehmen tatsächlich immer angewendet werden.

Der Einsatz von KI-generiertem Code ist um 52 Prozent gestiegen. Nur 31 Prozent der dafür getätigten Ausgaben lassen sich mit Geschäftsergebnissen verknüpfen.

Was die Studie eigentlich sagt

Auf den ersten Blick wirkt das wie ein Enterprise-Problem. Große Unternehmen, große Teams, große Codebases. Es ist aber das gleiche Muster, das ich bei Solo-Gründern sehe, die mit Manus, Cursor oder Bolt ihr erstes MVP bauen.

Das Kernproblem liegt zwischen Erzeugung und Validierung. Code entsteht schneller, als er geprüft werden kann. Wenn Validierung nicht skaliert, wird sie weggelassen. Sie wird verschoben, sie wird oberflächlich, oder sie findet einfach nicht statt. Wer auslässt, merkt es meistens erst in Produktion. Bei einem Großunternehmen heißt das Ausfall und Compliance-Verstoß. Bei einem Solo-Gründer heißt das App-Store-Ablehnung, ein Datenschutzproblem oder eine Sicherheitslücke, die in der ersten Nutzungswoche auffliegt. Eine Analyse von 670 KI-generierten Websites zeigt, wie oft das in der Praxis vorkommt.

Warum das strukturell ist

Die widersprüchlichste Zahl der Studie ist die mit den 92 Prozent Zuversicht bei gleichzeitig 81 Prozent Produktionsproblemen. Die Befragten wissen, dass es schiefgeht, und glauben trotzdem, ihr eigener Code sei in Ordnung.

Das hat mit Können wenig zu tun. Es liegt am Medium selbst.

KI generiert Code, der gut aussieht. Die Syntax stimmt, die Struktur wirkt sauber, das Beispiel funktioniert. Das erzeugt ein Vertrauen, das nicht durch Verständnis gedeckt ist. Dazu kommt das Sycophancy-Problem: Die KI sagt immer Ja zu deinen Entscheidungen, statt auf Schwachstellen hinzuweisen. Bei jedem Tool, das so überzeugend kommuniziert wie ein moderner KI-Assistent, ist diese Diskrepanz vorprogrammiert.

Dazu kommt: Wer keinen Code geschrieben hat, dem fehlt das körperliche Gefühl dafür, was an einer Lösung wackelig ist. Beim eigenen Code merkt man, an welcher Stelle man geschlampt hat. Beim generierten Code sieht man nur das Ergebnis.

Was das für meine Arbeit bedeutet

Ich begleite Solo-Gründer, die mit KI ihren ersten Prototyp gebaut haben und jetzt vor der Frage stehen, wie sie daraus ein veröffentlichtes Produkt machen. Meine Arbeit setzt dort an, wo die KI strukturell aufhört. Beim Hinterfragen.

Konkret heißt das: Ein Audit, bevor die App in den Store geht. Eine Kontrolle, ob die Datenstruktur trägt, was sie tragen soll. Die häufigsten Befunde aus solchen Audits: API-Keys im Frontend, parallele Auth-Systeme und fehlende Row Level Security. Ein Review nach jeder größeren Änderung. Eine Frage zu jeder Annahme, die die KI getroffen hat.

Ein konkretes Beispiel aus einem aktuellen Projekt: Die KI hatte ein Datenbankschema mit 26 Tabellen für ein einfaches MVP gebaut, inklusive RLS-Policies, die niemand mehr durchschauen konnte. Der Code lief. Die KI meldete “Success”. Aber es war ein Schema, das ein größeres Team auf Jahre beschäftigt hätte und für ein MVP völlig überdimensioniert war. Die eigentliche Arbeit war zu sagen: Das gehört da nicht hin.

Die CloudBees-Studie validiert das auf Enterprise-Ebene. Wenn 200 Tech-Führungskräfte das gleiche strukturelle Problem haben wie ein einzelner Gründer mit einer Manus-App, dann sehen wir ein Prozess-Problem. Es entsteht durch das Tempo der Generierung im Verhältnis zur Validierung. Bessere Modelle vergrößern es eher, als dass sie es lösen.

Und Prozesse skalieren anders als Output.

Was ich daraus mitnehme

KI-Generierung skaliert exponentiell. Validierung skaliert linear. Diese Schere geht weiter auf, je besser die Modelle werden.

Die Rolle, die ich besetze, wird wichtiger. Die entscheidende Fähigkeit verschiebt sich vom Generieren zum Hinterfragen. Und Hinterfragen können nur Menschen.

Code generieren kann inzwischen jeder. Die Frage stellen, ob dieser Code so existieren sollte, ist die eigentliche Arbeit.