Oplossingen van ChatGPT voor code werken maar voor 1,7%

ChatGPT en andere op taal gebaseerde artificial intelligence-modellen worden vaak ingezet om stukjes code voor computerprogramma’s te genereren. Maar als je als informaticastudent met een probleem zit, kan je voor een werkende oplossing vaak niet bij ChatGPT terecht.

In het nieuws: Volgens een onderzoek van de Princeton University werken de informatica-oplossingen van AI bijna niet.

De onderzoekers gebruikten diverse AI-modellen. Deze modellen kregen een stuk computercode met een probleem erin. Daarbij gaf men telkens aan wat het probleem was en de vraag of het AI-programma een oplossing kon uitschrijven.
De output werd meestal gevaagd als een patch, dat een computer precies vertelt welke lijnen code er aangepast moeten worden. De onderzoekers stopten vervolgens de patches in een simulatieprogramma, wat bekeek of het probleem ook daadwerkelijk was opgelost.
De bedoeling was dat de AI-modellen zelf op zoek moesten gaan naar het probleem. Men gebruikte twee onderzoeksmethodes, wat niet eenvoudig was gezien de limieten op het aantal tekens dat je kan ingeven:
- Bij de Sparse-methode wordt de code wiskundig gerangschikt (‘BM25’) tot enkel de essentie overblijft.
- De Oracle-methode bekeek een al bestaande oplossing voor het probleem en voedde de AI-bots met enkel de relevante code. Deze methode gaf betere resultaten, maar is minder realistisch. Een programmeur weet immers niet van tevoren in welke stukken code de fout zit.
De resultaten waren onthutsend: met de tweede methode haalde Claude 2 de beste cijfers, met een magere 4,8 procent correcte oplossingen. GPT-4, de betalende versie van ChatGPT, haalde 1,74 procent. En voor alle programmeerproblemen kwam GPT-3.5 maar in 0,52 procent van de gevallen met een werkende oplossing.

Screenshot: Princeton University

Een hoopvol teken

De conclusies: AI kan door de bomen het bos niet zien.

Volgens de onderzoekers kregen de modellen het lastiger als er langere code werd ingegeven. AI is niet genoeg in staat om op te merken wat relevant is en wat niet, en raakte in de war als het stukken code tegenkwam die het niet nodig had om het probleem op te lossen.
Het werkt beter als je een patch als oplossing vraagt. Dit heeft te maken met hoe het model getraind is. De patches in kwestie zijn wel slecht samengesteld, vandaar dat ze bijna nooit werken. De onderzoekers dachten een oplossing te vinden in het laten genereren van de volledige code, maar dit werkte nog slechter.
- Bovendien wijzigden alle modellen slechts een minieme hoeveelheid aan code, terwijl uitgebreidere wijzigingen beter hadden gewerkt.
Men vond ook weinig verschil tussen de modellen die ontwikkeld waren voor of na 2023, met uitzondering van GPT-4.
- Dit zagen de wetenschappers als een hoopvol teken dat nieuwere GPT-modellen beter kunnen worden in het vinden en oplossen van niet-werkende code. (evb)