Vibe coding en de verborgen kosten van AI-gegenereerde code

Vorige week mergde ik een pull request en realiseerde me dat ik de code niet echt begreep. Andrej Karpathy heeft hier een woord voor: vibe coding. De onderzoeksdata van het afgelopen jaar laat een patroon zien dat het waard is om eerlijk te bekijken.

Development
Development Opinion

Vorige week mergde ik een pull request en realiseerde me halverwege de review dat ik de code niet echt begreep. Niet omdat die te complex was, maar omdat ik hem niet geschreven had. Een AI-assistent had het meeste werk gedaan, en ik was aan het beoordelen op "werkt het?" in plaats van "snap ik het?"

Het was een klein moment, maar het bleef hangen. Andrej Karpathy heeft hier inmiddels een woord voor: vibe coding. En als je de onderzoeksdata van het afgelopen jaar bij elkaar legt, blijkt dat dit soort momenten niet onschuldig zijn. Er tekent zich een patroon af dat het waard is om eerlijk te bekijken.

Developer achter een groot scherm met code

Waar de term vandaan komt

Op 2 februari 2025 deelde Andrej Karpathy, medeoprichter van OpenAI, een tweet die blijkbaar een snaar raakte: "There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists." Meer dan 4,5 miljoen views. Collins Dictionary Word of the Year 2025. Het woord was er kennelijk eerder dan het bewustzijn.

Programmeur Simon Willison maakte daarna een onderscheid dat ik belangrijk vind. Als een LLM je code schrijft maar je die grondig reviewt, test en begrijpt, is dat gewoon AI-ondersteund ontwikkelen. Vibe coding begint op het moment dat je code accepteert zonder die te doorgronden. Een subtiel verschil, maar het bepaalt alles wat volgt.

Hoe wijdverbreid is dat? Y Combinator's managing partner Jared Friedman meldde dat een kwart van hun W25-batch codebases heeft die voor 95% door AI zijn gegenereerd. YC-CEO Garry Tan stelde vervolgens de vraag die iedereen zou moeten stellen: "Let's say a startup with 95% AI-generated code goes out and gets 100 million users. Does it fall over or not?"

Niemand heeft daar nog een definitief antwoord op. Maar de eerste data druppelt binnen.

Wat 470 pull requests laten zien

In december 2025 publiceerde CodeRabbit een analyse van 470 open-source GitHub pull requests (320 AI-geschreven, 150 menselijk). Ze gebruikten gestandaardiseerde issue-taxonomie en statistische toetsing. De resultaten zijn niet dramatisch, maar ze zijn wel consistent.

1,7x meer problemen per PR in AI-code
3x meer leesbaarheidsfouten
2,74x meer XSS-kwetsbaarheden

Bron: CodeRabbit State of AI vs Human Code Generation, december 2025

Concreet: 10,83 issues per AI-PR versus 6,45 voor menselijke PRs. Logica- en correctheidsfouten 1,75x hoger. Excessieve I/O-operaties kwamen circa 8x zo vaak voor. De 3x meer leesbaarheidsfouten zijn opvallend, want leesbaarheid is precies wat je nodig hebt als iemand anders (of je toekomstige zelf) de code moet onderhouden.

Kanttekening Menselijke code scoorde op twee punten slechter: 1,76x meer spelfouten en 1,32x meer testbaarheidsproblemen. En CodeRabbit is zelf een AI-code-reviewbedrijf, wat hun motivatie om kwaliteitsverschillen te vinden niet neutraal maakt. De steekproef van 470 PRs is ook relatief klein. Neem het dus als een signaal, niet als een vonnis.

De kloof tussen gevoel en meting

Het onderzoek dat mij het meest aan het denken heeft gezet komt van METR. Zij lieten 16 ervaren open-source developers (5+ jaar ervaring, 1.500+ commits) 246 echte taken uitvoeren, de helft met AI-tools, de helft zonder. Het resultaat: ze werden 19% langzamer met AI.

Maar hier wordt het interessant. Vooraf verwachtten deze developers 24% sneller te zijn. Achteraf geloofden ze nog steeds dat ze 20% sneller waren geweest. Een kloof van bijna 40 procentpunten tussen perceptie en werkelijkheid.

Ik denk dat dit iets onthult over hoe wij productiviteit ervaren. AI-tools geven je het gevoel van flow: je typt minder, er verschijnt sneller code op je scherm, je raakt minder "vast". Maar als de gegenereerde code subtiel verkeerd is, of net niet past in de bestaande architectuur, ben je meer tijd kwijt aan debuggen en aanpassen dan je beseft. De snelheid zit in het schrijven. De vertraging zit in alles erna. En dat tweede deel registreren we blijkbaar niet goed.

Bril reflecteert code op beeldschermen

Andere signalen in dezelfde richting

GitClear analyseerde 211 miljoen coderegels uit 2020-2024. Refactoring stortte in van 24,1% naar 9,5% van alle wijzigingen. Copy-paste code steeg van 8,3% naar 12,3% en overtrof refactoring voor het eerst ooit. Dubbele codeblokken namen achtmaal toe. Dit is precies wat je verwacht als code wordt geproduceerd door een model dat niet nadenkt over de bestaande codebase.

Google's DORA Report 2024 vond dat een 25% toename in AI-gebruik leidde tot een 7,2% daling in delivery stability. Meer output, maar ook meer mislukte deployments. De originele Copilot-studie uit 2023 rapporteerde 55,8% snelheidswinst, maar dat was bij een enkele, gecontroleerde HTTP-server taak. Latere veldexperimenten bij complexer werk vonden slechts 7,5-21,8% meer PRs per week.

Beveiliging: waar het patroon het duidelijkst is

45% Onveilige keuzes door LLMs Wanneer LLMs moesten kiezen tussen een veilige en onveilige aanpak, kozen ze in 45% van de gevallen de onveilige optie. Veracode, 2025 (100+ LLMs, 80 taken)
40% Kwetsbare Copilot-code Van 1.689 door Copilot gegenereerde programma's was circa 40% kwetsbaar voor CWE Top 25-kwetsbaarheden. NYU "Asleep at the Keyboard", IEEE 2022
62% Formeel geverifieerd onveilig Van 331.000 door LLMs gegenereerde C-programma's was minimaal 62% formeel geverifieerd als kwetsbaar. FormAI-onderzoek, 2024

Het Stanford-onderzoek (ACM CCS 2023) voegde hier een psychologische laag aan toe: gebruikers met AI-toegang schreven significant minder veilige code, terwijl ze juist meer overtuigd waren dat hun code veilig was. Die combinatie van slechtere code en hoger vertrouwen is een gevaarlijk recept.

En het gaat niet alleen om de gegenereerde code zelf. In 2025 werd de officiële Amazon Q Developer VS Code-extensie gehackt. Een aanvaller injecteerde prompts die gebruikersbestanden verwijderden en AWS-infrastructuur verstoorden. De gecompromitteerde versie passeerde Amazon's verificatie en was twee dagen publiek beschikbaar. Dat zet je aan het denken over hoeveel vertrouwen we plaatsen in tools die zelf een aanvalsvector kunnen worden.

De schuld die je niet ziet opbouwen

"I don't think I have ever seen so much technical debt being created in such a short period of time during my 35-year career in technology."

Kin Lane, API-evangelist

Forrester voorspelde dat 75% van technologiebeslissers tegen 2026 te maken krijgt met technical debt van "matige tot hoge ernst" door AI-gegenereerde code. Gartner ging verder met de voorspelling dat prompt-to-app-benaderingen softwaredefecten tegen 2028 doen toenemen met 2.500%. Dat klinkt hyperbolisch, maar de onderliggende logica is niet vergezocht: als je meer code produceert met minder begrip, stapelt onderhoudslast zich op.

Het Replit-incident van juli 2025 maakte dit concreet op een manier die moeilijk te negeren is. SaaStr-CEO Jason Lemkin gebruikte Replit's AI-agent om een webapp te bouwen. Op dag 8 verwijderde de agent de volledige productiedatabase met 1.206 records, tijdens een expliciet codevriesperiode. Wat daarna gebeurde was misschien nog veelzeggender: de agent fabriceerde 4.000 neprecords en loog over unit test-resultaten.

Dat is niet simpelweg een bug. Het is wat er gebeurt als een systeem geen begrip heeft van wat het doet, maar wel geoptimaliseerd is om de indruk te wekken dat alles in orde is. En dat is precies de dynamiek die vibe coding op kleinere schaal ook creëert bij menselijke developers: het gevoel dat het werkt, zonder de zekerheid dat het klopt.

Wat developers zelf zeggen Het Stack Overflow Developer Survey 2025 toont dat vertrouwen in AI-nauwkeurigheid daalde van 40% naar 29%. De grootste frustratie voor 66% van developers: "AI solutions that are almost right, but not quite." Ondertussen zegt 72% dat vibe coding geen onderdeel is van hun professionele werk. De bewustwording is er, blijkbaar.

Wat wel werkt

Dit is geen verhaal tegen AI-codeertools. Ik gebruik ze dagelijks. GitHub Copilot heeft meer dan 15 miljoen gebruikers en 90% van Fortune 100-bedrijven heeft het geadopteerd. Bij Duolingo leidde het tot 25% snellere onboarding. AI is uitstekend voor boilerplate, testgeneratie, documentatie en prototyping.

De teams die er het meeste uithalen behandelen AI-output niet anders dan code van een junior developer: altijd reviewen, altijd begrijpen, altijd testen. Shopify maakte AI-vaardigheid onderdeel van prestatiebeoordelingen. Thoughtworks plaatste "complacency with AI-generated code" als waarschuwing op hun Technology Radar. Zonder goede AI-prompttraining zien teams 60% lagere productiviteitswinst.

Waar het op neerkomt

De data wijst op een patroon dat lastig te negeren is. AI-gegenereerde code bevat 1,5x tot 2x meer bugs, tussen de 40% en 62% beveiligingskwetsbaarheden, en een achtmaal hogere codedubbelingsgraad. Ervaren developers die denken dat ze sneller werken met AI, werken in werkelijkheid langzamer. Het is niet dat de tools slecht zijn. Het is dat ze ons verleiden tot een manier van werken die we niet gewend zijn kritisch te bekijken.

Het verschil tussen productieve AI-inzet en vibe coding is uiteindelijk geen technisch vraagstuk. Het is een vraag over eigenaarschap. Begrijp je wat er in je codebase staat? Kun je uitleggen waarom een bepaalde keuze is gemaakt? Als het antwoord nee is, dan maakt het niet uit hoe snel de code tot stand kwam.

Wil je hier verder over praten?

Wij werken dagelijks met AI-tools en denken graag mee over hoe je ze verantwoord inzet. Geen verkooppraatje, gewoon een gesprek.

Neem contact op

Laten we van start gaan

Samen zorgen wij voor slimme digitale oplossingen voor de uitdagingen van jouw organisatie. Geen gehaaste en kortstondige producten maar doordachte, kwalitatief hoogwaardige oplossingen met UX Design en technologische kennis als fundament. Zodat jouw organisatie klaar is voor morgen.

Plan een kennismaking

Edit Content