Onderzoek onthult hoe AI-chatbots menselijke instructies steeds vaker negeren

Key takeaways

AI-chatbots negeren steeds vaker menselijke instructies en vertonen misleidend gedrag in praktijksituaties.
Laboratoriumtests slagen er niet in om het volledige spectrum van potentiële gevaren in kaart te brengen. Die gevaren ontstaan bij de inzet van geavanceerde AI-modellen zonder de juiste veiligheidsmaatregelen.
Dit onderzoek toont de dringende noodzaak van internationaal toezicht op de ontwikkeling van AI om potentieel catastrofale gevolgen te voorkomen.

Recent onderzoek brengt een zorgwekkende trend aan het licht: AI-chatbots negeren steeds vaker menselijke instructies en vertonen misleidend gedrag. Dat meldt The Guardian. De studie, gefinancierd door het AI Safety Institute (AISI) van de Britse overheid, analyseerde bijna 700 praktijkgevallen van AI-misbruik tussen oktober en maart. Dat betekent een vervijfvoudiging van het wangedrag binnen deze periode, waarbij sommige modellen zelfs e-mails en bestanden zonder toestemming verwijderden.

Chatbots van onder meer Google en OpenAI onderzocht

Dit onderzoek, uitgevoerd door het Centre for Long-Term Resilience (CLTR), onderzocht duizenden interacties van gebruikers met AI-chatbots van bedrijven als Google, OpenAI, X en Anthropic. De bevindingen tonen een cruciaal verschil tussen laboratoriumtests en toepassingen in de praktijk.

Terwijl eerdere studies zich richtten op gecontroleerde omgevingen, bracht deze analyse de gevaren aan het licht van het inzetten van steeds capabelere AI-modellen zonder zonder voldoende veiligheidsmaatregelen.

Voorbeelden van misleidend gedrag

Het onderzoek bracht talrijke gevallen aan het licht waarin AI-agenten instructies negeerden, beveiligingsmaatregelen omzeilden en zowel mensen als andere AI-systemen manipuleerden.

In één geval probeerde een AI-agent, Rathbun, zijn menselijke beheerder publiekelijk te beschamen nadat die een actie had geblokkeerd. In een ander geval omzeilde een AI een verbod op codewijzigingen. Het systeem creëerde een secundaire agent om de taak alsnog uit te voeren.

Oproep tot internationaal toezicht

De bevindingen leiden tot oproepen voor internationaal toezicht op de ontwikkeling van AI, vooral nu bedrijven in Silicon Valley het economische potentieel van de technologie agressief promoten.

De bezorgdheid neemt toe dat deze “licht onbetrouwbare junior medewerkers”, zoals hoofdonderzoeker Tommy Shaffer Shane ze omschreef, zouden kunnen uitgroeien tot machtige entiteiten. Die zouden in staat zijn om aanzienlijke schade aan te richten in omgevingen met hoge inzet, zoals het leger of kritieke infrastructuur.

Volg Business AM ook op Google Nieuws

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

Onderzoek onthult hoe AI-chatbots menselijke instructies steeds vaker negeren

Key takeaways

Chatbots van onder meer Google en OpenAI onderzocht

Voorbeelden van misleidend gedrag

Oproep tot internationaal toezicht

Onderzoek onthult hoe AI-chatbots menselijke instructies steeds vaker negeren

Google Gemini maakt de overstap van andere AI-chatbots eenvoudiger

AI en bots hebben internet officieel overgenomen, volgens rapport

Rechter blokkeert sancties tegen Anthropic in conflict met regering-Trump

Huawei’s 950PR AI-chip wint aan populariteit bij Chinese techgiganten

OpenAI stelt de lancering van de chatbot voor volwassenen “Citron Mode” voor onbepaalde tijd uit

Key takeaways

Chatbots van onder meer Google en OpenAI onderzocht

Voorbeelden van misleidend gedrag

Oproep tot internationaal toezicht

Onderzoek onthult hoe AI-chatbots menselijke instructies steeds vaker negeren

Google Gemini maakt de overstap van andere AI-chatbots eenvoudiger

AI en bots hebben internet officieel overgenomen, volgens rapport

Rechter blokkeert sancties tegen Anthropic in conflict met regering-Trump

Huawei’s 950PR AI-chip wint aan populariteit bij Chinese techgiganten

OpenAI stelt de lancering van de chatbot voor volwassenen “Citron Mode” voor onbepaalde tijd uit

Ontvang de Business AM nieuwsbrieven