Key takeaways
- Generatieve AI heeft moeite met het debuggen van code wat voor menselijke programmeurs eenvoudig is.
- Onderzoekers ontdekten dat zelfs het best presterende model slechts een succespercentage van 48,4 procent behaalde op SWE-bench Lite, een veelgebruikte debugging benchmark.
- Het verfijnen van grote taalmodellen en het ontwikkelen van “info-zoekende” modellen kan de interactieve debuggingcapaciteiten van AI verbeteren, maar er is meer werk nodig.
Ondanks de groeiende integratie van generatieve AI in programmeren, wijst nieuw onderzoek van Microsoft op een belangrijke beperking: deze modellen hebben nog steeds moeite met foutopsporingstaken die relatief eenvoudig zijn voor ervaren menselijke programmeurs. Hoewel AI veelbelovend is in het genereren van code, blijft het vermogen om fouten te identificeren en op te lossen onderontwikkeld.
De studie, uitgevoerd door onderzoekers van Microsoft, testte negen verschillende AI-modellen op SWE-bench Lite, een veelgebruikte debugging benchmark. Claude 3.7 Sonnet behaalde met 48,4 procent het hoogste succespercentage, maar nog steeds niet voldoende voor praktische toepassing. Andere modellen van OpenAI presteerden zelfs nog slechter.
Ontwikkeling nieuw model
Onderzoekers schrijven deze suboptimale prestaties toe aan een gebrek aan trainingsgegevens die het sequentiële besluitvormingsproces weerspiegelen dat cruciaal is voor effectief debuggen. Zij geloven dat het verfijnen van deze grote taalmodellen hun interactieve debugging vaardigheden zou kunnen verbeteren, en zijn bezig met het ontwikkelen van een “info-zoekend” model dat ontworpen is om noodzakelijke informatie te verzamelen voor het oplossen van bugs. In de tussentijd zijn ze van plan om “debug-gym” te open-sourcen, een platform dat AI-agenten in staat stelt om te communiceren met code en tools, zodat ze een debug-aanpak zoals bij mensen nabootsen.
Beperkingen in AI gegenereerde code
Hoewel AI-ondersteuning bij het coderen potentie heeft, suggereert dit onderzoek dat de huidige impact op de workflows van ontwikkelaars overschat zou kunnen worden. De onderzoekers wijzen erop dat debuggen een aanzienlijk deel van de tijd van ontwikkelaars in beslag neemt, wat betekent dat zelfs als AI helpt bij het genereren van code, de totale tijdsbesparing minimaal kan zijn.
Eerdere onderzoeken hebben ook beperkingen in door AI gegenereerde code aan het licht gebracht, waarbij vaak zwakke plekken in de beveiliging en fouten worden ontdekt die te wijten zijn aan een gebrekkig begrip van de programmeringslogica. Dit onderzoek van Microsoft biedt een dieper inzicht in deze hardnekkige uitdaging voor AI-modellen, waardoor ontwikkelaars en besluitvormers de rol van AI bij het coderen voorzichtiger kunnen benaderen.
Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!