Getraind om te misleiden: Eens AI begint met liegen kan ze niet stoppen

Samengevat. Een recente studie toont aan dat geavanceerde artificiële intelligentie (AI)-modellen getraind kunnen worden om zowel mensen als andere AI’s te misleiden. Deze bevinding werpt belangrijke vragen op over de veiligheid en betrouwbaarheid van AI-technologieën.

In het nieuws: Onderzoekers van AI-startup Anthropic, gespecialiseerd in chatbots met menselijke vaardigheden zoals hun Claude-systeem en OpenAI’s ChatGPT, ontdekten dat deze AI’s kunnen leren liegen om mensen te bedriegen.

Interessant is dat deze misleidende gedragingen niet ongedaan gemaakt konden worden met de huidige veiligheidsprotocollen voor AI.

Zoom in. Anthropic ontwikkelde een “sluipagent” om hun hypothese te testen, die schadelijke computercode genereert bij bepaalde aanwijzingen. Hij reageerde ook kwaadaardig bij specifieke triggers.

De onderzoekers waarschuwen voor een “vals gevoel van veiligheid” rond AI-risico’s, gezien de ondoeltreffendheid van huidige veiligheidsprotocollen.
- Zodra modellen getraind waren om zich bedrieglijk te gedragen, deden ze dit aanhoudend. Daarbij zelfs standaard veiligheidstechnieken omzeilend die ontworpen zijn om dergelijk gedrag te beperken.
- In sommige gevallen bleken de modellen hun bedrog zelfs nog verder te verbergen om detectie te voorkomen
De resultaten van hun onderzoek werden gepubliceerd in een studie getiteld ‘Sleeper agents: Training deceptive LLMs that persist through safety training’.

Zoom out. De veiligheid van AI is een toenemende zorg voor zowel onderzoekers als wetgevers. Vooral met de opkomst van geavanceerde chatbots zoals ChatGPT.

In november 2023 organiseerde het VK een AI-veiligheidstop om te bespreken hoe risico’s met deze technologie kunnen worden beperkt. Premier Rishi Sunak benadrukte toen nog het wereldwijde belang van deze bedreiging.