Google ontwikkelt AI die zowel schaken als Pac-Man aankan

Hoewel het nogal een overwinning was toen kunstmatige intelligentie het schaken meester werd – vanwege de schijnbaar oneindige hoeveelheid zetten – was dat nog relatief eenvoudig omdat de regels daar heel duidelijk zijn. Een algoritme kan op elk moment in het spel precies weten wat alle mogelijke zetten van de tegenstander zijn.

Zo makkelijk is dat niet bij een spel als Pac-Man. Daarbij moet je rekening houden met de vorm van het doolhof, de locatie van de spookjes, de locaties van gebieden met bolletjes die je nog moet schoonvegen, de aanwezigheid van power-ups, enzovoorts. Voor dit soort spellen zijn uiteindelijk ook AI’s te maken, maar die zijn fundamenteel anders dan de AI die kan schaken. Tot nu toe, schrijft vaknieuwssite ARS Technica. DeepMind, een zusterbedrijf van Google, heeft met MuZero een AI ontwikkeld die beide spellen kan spelen. En winnen.

De algoritmen die werken bij spellen zoals schaken en Go doen dat via een beslisboom. Daarbij kijk je simpelweg naar alle mogelijke acties die uit een actie voortkomen. Deze aanpak kost veel rekenkracht, en de algoritmes moeten de regels van het spel kennen en die toepassen op de huidige status. Andere spellen kunnen worden gespeeld door algoritmes die niet veel geven om de huidige status. Zij kijken simpelweg naar wat ze zien, of welke posities van pixels ze registreren, en kiezen op basis daarvan een actie. Er is geen intern model dat de status van het spel weergeeft, en het proces om de AI te trainen draait vooral om het uitvinden welke reactie gepast is gebaseerd op de beschikbare informatie.

MuZero

MuZero, het algoritme dat beide spellen aankan, doet het volgende: er worden tegelijkertijd drie evaluaties gedaan. Eentje kiest de volgende zet op basis van de huidige status van het spel. Een tweede voorspelt de nieuwe status die daaruit voorkomt, en welke onmiddellijke beloning die oplevert. En dan is er nog een derde die ervaring uit het verleden meeweegt en dat gebruikt om de beslissing te beïnvloeden. Alle resultaten zijn het product van training, die zich focust op het minimaliseren van fouten en wat er daadwerkelijk in een spel gebeurt.

MuZero is het eerste algoritme dat zowel Go en schaken ruimschoots kan winnen, maar ook steeds hoger scoort in typische arcadespellen. Het laat zien dat algoritmes er steeds beter in worden om niet alleen één taak uit te voeren, maar meer op een alleskunner te gaan lijken.