Een virtuele robotarm heeft geleerd verschillende puzzels op te lossen, zonder specifiek te worden getraind voor iedere taak. Dat schrijft vaknieuwssite MIT Technology Review. De virtuele robot leerde dit door het op te nemen tegen een tweede virtuele robot, die als opdracht had gekregen de eerste robotarm steeds moeilijkere taken te geven.
De virtuele robots, Alice en Bob, zijn ontwikkeld door OpenAI. Ze spelen spelletjes tegen elkaar in een simulatie, zonder input van mensen. Dat gebeurde door middel van reinforcement learning. Dit is een techniek waarbij AI door fouten te maken en beloond te worden bij goede uitkomsten, zelf leert welke acties tot de gewenste uitkomst leiden.
Door virtuele voorwerpen in een bepaalde positie neer te zetten probeert Alice puzzels te maken die voor Bob moeilijk op te lossen zijn. Bob stoeit met de puzzels. Zo leert Alice om meer complexe puzzels te maken en wordt Bob steeds beter in het oplossen ervan.
Nieuwe taak, nieuwe training
Normaal gesproken moeten deep learningmodellen voor elke nieuwe taak opnieuw getraind worden. AlphaZero kan Go en schaken spelen, maar niet tegelijkertijd – het model moet alles apart leren. Het bouwen van modellen die echt kunnen multitasken is een belangrijke uitdaging om meer algemeen toepasbare AI te bouwen.
Het is de uiteindelijke wens van de onderzoekers om een robot zo te kunnen trainen dat hij alle problemen kan oplossen die een mens hem voorlegt. Het gebruiken van de ene AI om de andere te trainen zou daarbij een belangrijk onderdeel kunnen zijn.