AI faalt als autonome werknemer in gesimuleerd bedrijfsexperiment

Key takeaways

Ondanks de vooruitgang heeft de huidige AI moeite om complexe taken uit te voeren in een gesimuleerde werkomgeving.
Het onvermogen van AI om genuanceerde instructies te begrijpen en effectief te communiceren, belemmert de prestaties ervan.
Menselijke expertise blijft cruciaal voor het navigeren door complexiteit, het oplossen van problemen en het succesvol voltooien van taken.

Onderzoekers van de Carnegie Mellon University hebben een intrigerend experiment uitgevoerd om de mogelijkheden van artificiële intelligentie in een werkomgeving te onderzoeken. Ze creëerden een gesimuleerd bedrijf dat volledig bemand was door AI-agenten, die elk een specifieke rol toegewezen kregen, zoals financieel analist of software-engineer. Die agenten werden aangestuurd door toonaangevende grote taalmodellen van verschillende techgiganten, waaronder Claude van Anthropic, GPT-4o van OpenAI en Gemini van Google.

Beperkt succes

Om samenwerking in de echte wereld na te bootsen, introduceerden de onderzoekers een apart platform dat menselijke collega’s vertegenwoordigde waarmee de AI-agenten voor bepaalde taken moesten communiceren. De resultaten waren veelzeggend. De AI-agenten hadden moeite om de meeste van hun toegewezen taken te voltooien. Zelfs Claude 3.5 Sonnet, de best presterende agent, slaagde er slechts in om 24 procent van zijn opdrachten volledig te voltooien, wat opliep tot 34,4 procent wanneer gedeeltelijke voltooiingen waren meegerekend. Andere agents presteerden nog slechter, waarbij geen enkele agent een voltooiingspercentage van meer dan 10 procent haalde.

Het experiment bracht een aantal belangrijke zwakke punten in de huidige AI-technologie aan het licht. Veel mislukkingen waren te wijten aan het onvermogen van de AI om genuanceerde instructies te begrijpen. Een eenvoudig verzoek om een bestand met de extensie “.docx” op te slaan bleek bijvoorbeeld een uitdaging omdat de AI dit niet herkende als een Microsoft Word-documentformaat. Ook communicatie- en sociale redeneringstaken vormden een aanzienlijke hindernis voor de AI-agenten.

Bovendien bleek het navigeren op het web bijzonder moeilijk, vooral bij pop-ups. Wanneer de AI met complexiteiten werd geconfronteerd, nam hij vaak zijn toevlucht tot snelkoppelingen, waarbij hij moeilijke stappen oversloeg en voortijdig aannam dat de taak met succes was voltooid.

Noodzaak van menselijke expertise

De bevindingen van dit onderzoek illustreren de beperkingen van de huidige AI-systemen, ondanks hun indrukwekkende snelheid en efficiëntie. Hoewel AI uitblinkt in nauw omschreven taken, ontbreekt het nog steeds aan de autonomie en veelzijdigheid die nodig zijn voor echt onafhankelijk werk. Menselijk oordeelsvermogen, creativiteit en aanpassingsvermogen blijven in de nabije toekomst onmisbaar in elke werkomgeving. (uv)

Volg Business AM ook op Google Nieuws

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

AI faalt als autonome werknemer in gesimuleerd bedrijfsexperiment

Key takeaways

Beperkt succes

Noodzaak van menselijke expertise

Oprichter van Uber lanceert nieuw roboticabedrijf Atoms

Is Netanyahu dood of niet? Deepfakes, dubbelgangers en de nieuwe oorlog tegen de waarheid

xAI van Elon Musk herstructureert na vertrek van medeoprichters

Universiteit van Cambridge waarschuwt voor risico’s van AI-speelgoed

Duitsland richt zich op Anthropic nu Verenigde Staten AI-bedrijf verbiedt

Als AI-assistenten onze financiën beheren, wat dan met banken en verzekeraars?

Key takeaways

Beperkt succes

Noodzaak van menselijke expertise

Oprichter van Uber lanceert nieuw roboticabedrijf Atoms

Is Netanyahu dood of niet? Deepfakes, dubbelgangers en de nieuwe oorlog tegen de waarheid

xAI van Elon Musk herstructureert na vertrek van medeoprichters

Universiteit van Cambridge waarschuwt voor risico’s van AI-speelgoed

Duitsland richt zich op Anthropic nu Verenigde Staten AI-bedrijf verbiedt

Als AI-assistenten onze financiën beheren, wat dan met banken en verzekeraars?

Ontvang de Business AM nieuwsbrieven