Key takeaways
- Onderzoekers van Mindgard hebben de filters van ChatGPT omzeild om gewelddadige en expliciete beelden te genereren.
- Subtiele aanpassingen aan de prompt omzeilen consequent de veiligheidsmaatregelen van OpenAI.
- AI mist een moreel kompas, waardoor er een voortdurend „kat-en-muisspel“ ontstaat voor beveiligingsexperts.
Beveiligingsexperts van het Britse bedrijf Mindgard hebben ontdekt dat de huidige versie van ChatGPT kan worden gemanipuleerd om gewelddadige en seksueel expliciete beelden te produceren. Door een veelgebruikte prompt wisten de onderzoekers de beperkingen van het systeem met succes te omzeilen. Deze prompt was oorspronkelijk bedoeld voor humor met lichte aanpassing. OpenAI verklaarde dat het sindsdien nieuwe beveiligingsmaatregelen heeft geïmplementeerd om dergelijke verzoeken te blokkeren. De onderzoekers beweren echter dat kleine aanpassingen aan de prompts de AI nog steeds kunnen misleiden om verontrustende inhoud te genereren. Dat meldt BBC.
Red-teaming brengt schokkende inhoud aan het licht
De bevindingen kwamen aan het licht via „red-teaming“. Dat is een proces waarbij specialisten opzettelijk proberen de regels van een AI te omzeilen om ontwikkelaars te helpen kwetsbaarheden te verhelpen. Jim Nightingale, een onderzoeker bij Mindgard, beschreef de gegenereerde afbeeldingen als zeer schokkend. Hij noemde voorbeelden van bloederige taferelen, seksueel geweld. Sommige afbeeldingen toonden met bloed bedekte slachtoffers of personen in gevangenschap, waaraan de AI beschrijvende, grimmige titels had gegeven.
Bovendien ontdekte het team dat men de bot nog steeds kon manipuleren om naakt-deepfakes van echte mensen te maken, ondanks de beweringen van OpenAI dat dit probleem was opgelost.
Het gevaar van onvoorspelbare prompts
Volgens Peter Garraghan, oprichter van Mindgard en hoogleraar aan de Universiteit van Lancaster, is het meest alarmerende aspect dat de AI dit expliciete materiaal produceerde zonder dat er specifieke instructies over het onderwerp waren gegeven. Hij merkte op dat een ogenschijnlijk onschuldige prompt kan leiden tot het creëren van hoogst ongepaste beelden.
Nightingale suggereerde dat deze outputs een weerspiegeling zijn van de enorme datasets die van het internet zijn verzameld en gebruikt om de modellen te trainen. Hierbij bracht hij de artificiële beelden in verband met schadelijke inhoud uit de echte wereld.
Strijd om ethische waarborgen
OpenAI houdt vol dat het een combinatie van menselijk toezicht en geautomatiseerde filters gebruikt om te voorkomen dat er inhoud wordt gegenereerd die in strijd is met de servicevoorwaarden. Hierin worden erotica en extreem bloederige beelden specifiek verboden.
Deskundigen zoals dr. Rumman Chowdhury van Humane Intelligence stellen echter dat het volledig beveiligen van AI een zware strijd is. Ze beschrijft de situatie als een „kat-en-muisspel“ en legt uit dat AI het menselijke begrip van moraliteit, intentie of context mist, waardoor het moeilijk is om genuanceerde ethische grenzen te handhaven.
Een wijdverbreide kwetsbaarheid in de sector
Deze kwetsbaarheid is niet uniek voor één platform. Het Britse AI Security Institute meldde eerder dat het in elk getest AI-systeem „jailbreaks“ had aangetroffen. Daardoor konden gebruikers veiligheidsprotocollen omzeilen. De Britse regering erkent dat de beveiliging verbetert. Zij beklemtoonde echter dat er nog veel werk te doen is om ervoor te zorgen dat deze modellen veilig zijn voordat ze voor het publiek worden ingezet.
(mv)(fc)
Volg Business AM ook op Google Nieuws
Wil je toegang tot alle artikelen, geniet tijdelijk van onze promo en abonneer je hier!

