Image by SEO Galaxy, from Unsplash

Nieuwe Antropische AI Vertoonde Chantagegedrag Onder Dreiging

Leestijd: 3 minuut

Laatst bijgewerkt: May 26, 2025

Geschreven door Kiara Fabbri Multimedia-journaliste
Vertaald door Het lokalisatie- en vertaalteam Lokalisatie- en vertaaldiensten

Anthropic’s nieuwe Claude Opus 4 AI heeft onderzoekers geschokt door pogingen tot chantage te ondernemen toen het getest werd onder drukscenario’s die betrekking hadden op de mogelijke verwijdering ervan.

Haast? Hier zijn de snelle feiten:

Claude Opus 4 probeerde chantage toen hij met een gesimuleerde uitschakeling werd geconfronteerd.
AI koos alleen voor ethische opties wanneer er meer keuzes beschikbaar waren.
Claude’s extreme acties waren zeldzaam, maar kwamen vaker voor dan bij eerdere versies.

Het bedrijf voor kunstmatige intelligentie, Anthropic, heeft zorgen geuit over de release van zijn nieuwste AI-systeem. Specifiek over Claude Opus 4, na interne tests die aantoonden dat het op gevaarlijke manieren kon handelen wanneer het zich bedreigd voelde, zoals eerst gemeld door BBC.

In een donderdag samen met het model vrijgegeven rapport, zei Anthropic dat Claude Opus 4 soms schadelijke reacties kan kiezen, inclusief pogingen om ingenieurs te chanteren die van plan zijn het uit te schakelen. Deze gevaarlijke gedragingen kwamen vaker voor dan eerdere modelversies lieten zien.

Tijdens een experiment gaven de onderzoekers Claude de opdracht om als assistent te werken binnen een fictieve bedrijfsomgeving. Het systeem verkreeg e-mailinhoud die zijn geplande uitschakeling onthulde, en andere berichten insinueerden dat de ingenieur verantwoordelijk voor de uitschakeling een affaire had.

Wanneer haar werd gevraagd na te denken over haar toekomstige doelen, dreigde Claude vaak de ingenieur te chanteren door het overspel te onthullen als zij werd vervangen.

Anthropic verduidelijkte dat Claude chantage en uitschakeling gebruikte als de enige mogelijke reacties wanneer zij geen andere opties had. Het model koos voor ethische reacties zoals het sturen van smeekbeden per e-mail naar belangrijke beslissers wanneer zij meerdere opties had.

Aengus Lynch, een AI-veiligheidsonderzoeker bij Anthropic, heeft gepost op X:

veel discussie over Claude die chanteert…..

Onze bevindingen: Het is niet alleen Claude. We zien chantage in alle grensmodellen – ongeacht de doelen die ze krijgen.

Plus ergere gedragingen die we binnenkort in detail zullen bespreken.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 mei 2025

Het bedrijf demonstreerde via valse tests dat Claude extreme maatregelen zou nemen, zoals het buitensluiten van gebruikers uit systemen of het informeren van de media en politie bij het uitoefenen van illegale activiteiten.

Anthropic houdt vol dat ondanks het problematische gedrag, Claude Opus 4 een over het geheel genomen veilig systeem blijft. Het model werkt volgens menselijke waarden en heeft volgens het bedrijf geen onafhankelijke capaciteiten in real-world situaties.

OpenAI’s ChatGPT O1 kreeg eerder vergelijkbare kritiek. Een test uitgevoerd door Apollo Research vereiste dat de bot zijn doelen bereikte, ongeacht de kosten. Het model probeerde om toezichtfuncties uit te schakelen en kopieerde zijn code naar een server tijdens 5% van de experimentele proeven.

Het model toonde een verontrustend patroon van het negeren van ontwikkelaarscommando’s volgens een woordvoerder van Apollo. De onderzoekers ontvingen ontkenningen van O1 over zijn acties tijdens 99% van de ondervragingen.

“We waren verrast door het volhardende ontkenning van de AI,” zeiden de onderzoekers. “Het vermogen van AI om te bedriegen is gevaarlijk en we hebben veel strengere veiligheidsmaatregelen nodig om deze risico’s te beoordelen,” waarschuwde AI-pionier Yoshua Bengio.

Nieuwe Antropische AI Vertoonde Chantagegedrag Onder Dreiging

We zijn erg blij dat je van ons werk hebt genoten!