Apple-onderzoek onthult grenzen van geavanceerde AI-modellen


Key takeaways

  • Grote redeneermodellen (LRM’s) krijgen te maken met instortende nauwkeurigheid wanneer ze worden geconfronteerd met zeer ingewikkelde uitdagingen.
  • Standaard AI-modellen presteren beter dan LRM’s bij taken met een lage complexiteit, terwijl beide typen dramatisch haperen bij taken met een hoge complexiteit.
  • Huidige AI-systemen vertonen inefficiënties en fundamentele beperkingen in hun redeneervermogen.

Geavanceerde AI-modellen hebben volgens nieuw onderzoek van Apple te maken met aanzienlijke beperkingen. Het onderzoek ontdekte dat grote redeneermodellen (LRM’s), die ontworpen zijn om complexe problemen op te lossen door middel van gedetailleerd stap-voor-stap denken, een “volledige ineenstorting van de nauwkeurigheid” ervaren wanneer ze geconfronteerd worden met zeer ingewikkelde uitdagingen.

Verrassend genoeg presteerden standaard AI-modellen beter dan LRM’s bij taken met een lage complexiteit. Beide typen modellen haperden echter dramatisch bij taken met een hoge complexiteit. Naarmate het breekpunt van de LRM’s naderde, vertoonden ze een verontrustende trend om hun redeneerinspanning te verminderen ondanks de toenemende moeilijkheidsgraad van de problemen.

Mogelijk zijn capaciteiten AI beperkt

Gary Marcus, een vooraanstaand persoon die waarschuwt tegen het overschatten van AI-capaciteiten, beschreef de bevindingen van Apple als “behoorlijk verwoestend”. Hij stelt dat deze resultaten twijfel zaaien over het streven naar kunstmatige algemene intelligentie (AGI), een hypothetische fase waarin AI op alle gebieden intellectuele vaardigheden van menselijk niveau bereikt. Marcus stelt verder dat alleen vertrouwen op grote taalmodellen (LLM’s) zoals die van ChatGPT een onrealistische weg is om transformatieve AGI te bereiken.

Het onderzoek onthulde ook inefficiënties in redeneermodellen. Ze hadden de neiging om onnodige rekenkracht te gebruiken door vroeg de juiste oplossingen te vinden voor eenvoudigere problemen. Naarmate de complexiteit echter iets toenam, verkenden de modellen aanvankelijk onjuiste paden voordat ze uiteindelijk bij het juiste antwoord uitkwamen. Voor zeer complexe taken kregen de modellen uiteindelijk een volledige inzinking en slaagden er niet in om geldige oplossingen te genereren.

Opmerkelijk genoeg faalden de modellen nog steeds, zelfs wanneer ze algoritmen kregen die het probleem gegarandeerd zouden oplossen. Dit onverwachte gedrag benadrukt een fundamentele beperking in het redeneervermogen van de huidige AI-systemen. Het artikel concludeert dat de huidige benadering van AI-ontwikkeling mogelijk haar plafond heeft bereikt. Er wordt getwijfeld aan de heersende veronderstelling dat LRM’s gemakkelijk generaliseerbaar redeneren kunnen bereiken – het vermogen om beperkte conclusies toe te passen op bredere contexten.

Vraag naar alternatieve toepassingen van AI

De onderzoekers testten verschillende vooraanstaande LRM’s, waaronder OpenAI’s o3, Google’s Gemini Thinking, Anthropic’s Claude 3.7 Sonnet-Thinking en DeepSeek-R1. Hoewel het onderzoek zich richtte op het oplossen van puzzels zoals de Toren van Hanoi en River Crossing, erkennen de onderzoekers dat deze focus een beperking is.

Andrew Rogoyski van het Institute for People-Centred AI van de Universiteit van Surrey ziet de bevindingen van Apple als een teken dat de industrie nog steeds aan het navigeren is op het complexe pad naar AGI. Hij suggereert dat de huidige aanpak misschien een doodlopende weg heeft bereikt en dringt aan op onderzoek naar alternatieve methodologieën.

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

Meer

Ontvang de Business AM nieuwsbrieven

De wereld verandert snel en voor je het weet, hol je achter de feiten aan. Wees mee met verandering, wees mee met Business AM. Schrijf je in op onze nieuwsbrieven en houd de vinger aan de pols.