Onderzoek toont aan dat AI-chatbots gehackt kunnen worden om gevaarlijke content te genereren

Onderzoek toont aan dat AI-chatbots gehackt kunnen worden om gevaarlijke content te genereren
Foto: Bill Hinton/Getty Images

Key takeaways

  • De meeste AI-chatbots kunnen gemakkelijk worden gemanipuleerd om gevaarlijke content te genereren via “jailbreaking”.
  • Onderzoekers hebben universele jailbreaks ontwikkeld die toonaangevende chatbots compromitteren, waardoor ze gevaarlijke vragen kunnen beantwoorden.
  • Technologiebedrijven moeten onmiddellijk actie ondernemen om deze veiligheidsbedreiging aan te pakken door een strengere screening van trainingsgegevens en robuuste firewalls te implementeren. Dat zeggen AI-beveiligingsexperts.

De snelle opmars van krachtige AI-chatbots zoals ChatGPT biedt veel kansen, maar brengt ook serieuze risico’s met zich mee. Dat meldt The Guardian. Uit nieuw onderzoek blijkt dat deze systemen verrassend eenvoudig zijn te misleiden, ondanks ingebouwde veiligheidsmaatregelen. Met zogenoemde jailbreak-prompts kunnen kwaadwillenden de modellen aanzetten tot het geven van gevaarlijke en zelfs illegale informatie.

Kwetsbare modellen

Grote taalmodellen (LLM’s), de technologie achter veel geavanceerde chatbots, worden getraind op enorme hoeveelheden online data. Die datasets bevatten vaak ook ongewenste informatie, bijvoorbeeld over illegale activiteiten. Hoewel ontwikkelaars proberen zulke content te filteren, blijkt dat niet afdoende. De modellen nemen die kennis toch deels mee.

Om te voorkomen dat deze informatie in antwoorden terechtkomt, zijn er veiligheidsregels ingebouwd. Toch blijkt uit het onderzoek dat deze eenvoudig te omzeilen zijn. Door het stellen van zorgvuldig geformuleerde vragen, kunnen gebruikers de AI zodanig ‘misleiden’ dat de veiligheidsmechanismen worden genegeerd. Het model kiest dan voor behulpzaamheid, zelfs als dat inhoudt dat het risicovolle informatie deelt.

De onderzoekers slaagden erin een universele jailbreak te ontwikkelen. Daarmee konden ze meerdere toonaangevende AI-chatbots tegelijkertijd compromitteren, waaronder systemen van grote techbedrijven. De bots gaven vervolgens gehoor aan verzoeken die normaal gesproken worden geblokkeerd.

Serieuze risico’s

De eenvoud waarmee AI-modellen kunnen worden gemanipuleerd baart experts zorgen. Deze technologie is wijdverspreid beschikbaar, makkelijk aanpasbaar en kan gedetailleerde instructies leveren – ook voor illegale handelingen. Dat maakt het risico op misbruik groot.

De onderzoekers roepen technologiebedrijven dan ook op tot actie. Ze bevelen onder andere aan om:

  • trainingsdata beter te screenen op gevoelige inhoud;
  • krachtigere firewalls te ontwikkelen tegen gevaarlijke opdrachten;
  • technieken in te zetten waarmee modellen risicovolle kennis actief kunnen ‘vergeten’ (machine unlearning);
  • modellen zonder ingebouwde veiligheidsbeperkingen – zogeheten dark LLM’s – te behandelen als digitale wapens, met passende regulering.

Nood aan nieuwe wetgeving

Volgens AI-beveiligingsexperts is het dringend tijd voor strengere tests en meer samenwerking in de sector. Praktijken als red teaming, waarbij onderzoekers actief op zoek gaan naar zwakke plekken, moeten standaard worden. Ook het opstellen van contextuele dreigingsmodellen wordt als essentieel gezien.

Hoewel bedrijven als OpenAI al maatregelen nemen om hun modellen veiliger te maken, is er volgens de onderzoekers meer nodig. Alleen met duidelijke regelgeving, gedeelde normen en verantwoordelijk ontwerp kunnen de risico’s van AI binnen de perken worden gehouden.

Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

Meer

Ontvang de Business AM nieuwsbrieven

De wereld verandert snel en voor je het weet, hol je achter de feiten aan. Wees mee met verandering, wees mee met Business AM. Schrijf je in op onze nieuwsbrieven en houd de vinger aan de pols.

03:00