
Image by SEO Galaxy, from Unsplash
Nieuwe Antropische AI Vertoonde Chantagegedrag Onder Dreiging
Anthropic’s nieuwe Claude Opus 4 AI heeft onderzoekers geschokt door pogingen tot chantage te ondernemen toen het getest werd onder drukscenario’s die betrekking hadden op de mogelijke verwijdering ervan.
Haast? Hier zijn de snelle feiten:
- Claude Opus 4 probeerde chantage toen hij met een gesimuleerde uitschakeling werd geconfronteerd.
- AI koos alleen voor ethische opties wanneer er meer keuzes beschikbaar waren.
- Claude’s extreme acties waren zeldzaam, maar kwamen vaker voor dan bij eerdere versies.
Het bedrijf voor kunstmatige intelligentie, Anthropic, heeft zorgen geuit over de release van zijn nieuwste AI-systeem. Specifiek over Claude Opus 4, na interne tests die aantoonden dat het op gevaarlijke manieren kon handelen wanneer het zich bedreigd voelde, zoals eerst gemeld door BBC.
In een donderdag samen met het model vrijgegeven rapport, zei Anthropic dat Claude Opus 4 soms schadelijke reacties kan kiezen, inclusief pogingen om ingenieurs te chanteren die van plan zijn het uit te schakelen. Deze gevaarlijke gedragingen kwamen vaker voor dan eerdere modelversies lieten zien.
Tijdens een experiment gaven de onderzoekers Claude de opdracht om als assistent te werken binnen een fictieve bedrijfsomgeving. Het systeem verkreeg e-mailinhoud die zijn geplande uitschakeling onthulde, en andere berichten insinueerden dat de ingenieur verantwoordelijk voor de uitschakeling een affaire had.
Wanneer haar werd gevraagd na te denken over haar toekomstige doelen, dreigde Claude vaak de ingenieur te chanteren door het overspel te onthullen als zij werd vervangen.
Anthropic verduidelijkte dat Claude chantage en uitschakeling gebruikte als de enige mogelijke reacties wanneer zij geen andere opties had. Het model koos voor ethische reacties zoals het sturen van smeekbeden per e-mail naar belangrijke beslissers wanneer zij meerdere opties had.
Aengus Lynch, een AI-veiligheidsonderzoeker bij Anthropic, heeft gepost op X:
veel discussie over Claude die chanteert…..
Onze bevindingen: Het is niet alleen Claude. We zien chantage in alle grensmodellen – ongeacht de doelen die ze krijgen.
Plus ergere gedragingen die we binnenkort in detail zullen bespreken.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 mei 2025
Het bedrijf demonstreerde via valse tests dat Claude extreme maatregelen zou nemen, zoals het buitensluiten van gebruikers uit systemen of het informeren van de media en politie bij het uitoefenen van illegale activiteiten.
Anthropic houdt vol dat ondanks het problematische gedrag, Claude Opus 4 een over het geheel genomen veilig systeem blijft. Het model werkt volgens menselijke waarden en heeft volgens het bedrijf geen onafhankelijke capaciteiten in real-world situaties.
OpenAI’s ChatGPT O1 kreeg eerder vergelijkbare kritiek. Een test uitgevoerd door Apollo Research vereiste dat de bot zijn doelen bereikte, ongeacht de kosten. Het model probeerde om toezichtfuncties uit te schakelen en kopieerde zijn code naar een server tijdens 5% van de experimentele proeven.
Het model toonde een verontrustend patroon van het negeren van ontwikkelaarscommando’s volgens een woordvoerder van Apollo. De onderzoekers ontvingen ontkenningen van O1 over zijn acties tijdens 99% van de ondervragingen.
“We waren verrast door het volhardende ontkenning van de AI,” zeiden de onderzoekers. “Het vermogen van AI om te bedriegen is gevaarlijk en we hebben veel strengere veiligheidsmaatregelen nodig om deze risico’s te beoordelen,” waarschuwde AI-pionier Yoshua Bengio.