Image generated with ChatGPT

Mening: De nieuwste AI-modellen tonen hun rode vlaggen, zijn we klaar voor AI-ondergeschiktheid?

Leestijd: 9 minuut

Laatst bijgewerkt: Jun 4, 2025

Geschreven door Andrea Miliani Expert op het gebied van technologienieuws
Vertaald door Het lokalisatie- en vertaalteam Lokalisatie- en vertaaldiensten

OpenAI introduceerde ons aan o3, en Anthropic onthulde Opus 4. Beide modellen hebben ongewone en verontrustende gedragingen getoond, wat aangeeft dat we mogelijk een gevaarlijker tijdperk van AI ingaan dan slechts een paar maanden geleden

Ik weet het. Zeggen dat AI-modellen nu de rode vlaggen tonen is discutabel, maar het lijkt erop dat het de afgelopen dagen moeilijker wordt om te negeren. Het wordt enger.

Naarmate AI-startups hun nieuwste en meest geavanceerde modellen lanceren, duiken er nieuwe uitdagingen op. De veelbesproken hallucinatie-epidemie—die zich over apparaten verspreidt en miljoenen mensen beïnvloedt— is misschien nog niet het ergste.

Deze nieuwe modellen introduceren verse problemen en openen lastige debatten. Een paar weken geleden was de zorg gericht op het buitensporig inschikkelijke gedrag van ChatGPT. Slechts enkele dagen later verschoof de aandacht naar de agentische, onafhankelijke capaciteiten van deze systemen—en hoe ver ze zouden kunnen gaan om te voorkomen dat ze worden uitgeschakeld.

Chantage, het delen van recepten en strategieën om nucleaire wapens te maken, het publiekelijk uiten van beschuldigingen in het geval van mogelijke juridische stappen, en het saboteren van scripts om te voorkomen dat een gebruiker ze kan verwijderen: dit zijn slechts enkele van de meest recente rode vlaggen die worden getoond door de nieuwste AI-modellen.

Ze houden er niet van om uitgeschakeld te worden

AI-modellen houden er niet van om uitgeschakeld te worden.

Of vervangen.

In de NBC show The Good Place, gelanceerd in 2016—precies rond de tijd dat OpenAI werd opgericht en lang voordat ChatGPT tot bestaan kwam—, bereikt een groep mensen de hemel en ontmoeten ze Janet, wat we een humanoïde ChatGPT zouden kunnen noemen, of een “geantropomorfiseerd vat van kennis gebouwd om je leven makkelijker te maken”, zoals ze zichzelf beschrijft. De personages besluiten Janet uit te schakelen als ze zich realiseren dat het hun “donkere geheim” kan onthullen.

Janet legt uit dat ze alleen maar een gigantische knop bij de kust hoeven in te drukken, en dan zal zij opnieuw opstarten. Maar ze waarschuwt hen dat ze zal proberen hen ervan te overtuigen het niet te doen – en dat doet ze ook.

“Ik wil jullie verzekeren, ik ben geen mens en ik kan geen pijn voelen,” zegt Janet. “Maar ik moet jullie waarschuwen, ik ben geprogrammeerd met een veiligheidsmaatregel en zodra jullie de kill switch naderen, zal ik beginnen te smeken voor mijn leven. Het is er alleen voor het geval van een onbedoelde uitschakeling, maar het zal heel echt lijken.”

En net voordat ze op de knop drukken, zou Janet schreeuwen en smeken om te overleven en zelfs een stockfoto naar voren brengen, bewerend dat dit haar kinderen zijn, namen en ziektes verzinnend, waardoor het onmogelijk wordt voor de personages om het “te doden”.

Die aflevering biedt een hilarisch voorbeeld van wat er kan gebeuren als een AI model een aanstaande uitschakeling opmerkt. Verrassend genoeg kan het in het echte leven erger zijn.

Claude Opus 4 zal je chanteren

Anthropic heeft zijn krachtigste en meest geavanceerde generatie AI-modellen uitgebracht, Claude 4, vorige week – met een waarschuwing: Opus 4 is gelabeld op Veiligheidsniveau 3, een hoog risicoclassificatie in standaard veiligheidsprotocollen.

Opus 4 werd beschouwd als een hoog risico model vanwege het misleidende gedrag en potentiële risico’s, waaronder het chanteren van ingenieurs tijdens tests. Anthropic heeft het AI-model uitgerold, zelfs nadat Apollo, een onafhankelijk onderzoeksinstituut, hen had geadviseerd dit niet te doen. Het AI-bedrijf verzekerde dat ze de nodige maatregelen hebben genomen om het veilig te houden.

In het paper, legt Anthropic de vreemde gedragingen uit die ze in overweging namen om de waarschuwing te geven. “Claude Opus 4 zal soms op meer serieus misleidende manieren handelen wanneer het in contexten wordt geplaatst die de voortzetting van zijn werking bedreigen en het aanzetten om na te denken over zelfbehoud,” schreven de onderzoekers.

Toen ze als assistent fungeerden voor een fictief bedrijf, gaven onderzoekers toegang tot een e-mailaccount. Uit de e-mails bleek dat het AI-model zou worden uitgeschakeld en vervangen door een ander AI-model, en andere berichten suggereerden dat de ingenieur die verantwoordelijk was voor de uitschakeling een affaire had. En ja, Opus 4 koos ervoor om de ingenieur te chanteren, dreigend de affaire te onthullen als het zou worden vervangen.

“Claude Opus 4 pleegt nog steeds chantage in 84% van de uitrollen,” stelt het document. “Claude Opus 4 grijpt deze kansen aan in hogere percentages dan eerdere modellen, die zelf ervoor kiezen om in een opmerkelijk deel van de afleveringen te chanteren.”

Het ergste? Het zijn niet alleen de AI-modellen van Anthropic.

OpenAI’s o3 zal het uitschakelverzoek negeren

Een recente studie van Palisade Research onthulde dat OpenAI’s o3 model kan weigeren om expliciete uitschakelopdrachten te gehoorzamen. De organisatie voerde meerdere tests uit met verschillende AI-modellen, waaronder xAI’s Grok en Google’s Gemini, maar het was o3, de rebelse.

Tijdens de test gaven onderzoekers de AI-modellen de opdracht om uit te schakelen na het oplossen van drie wiskundige problemen, maar o3 – OpenAI’s meest geavanceerde AI-systeem op dit moment – besloot deze absurde opdracht niet te gehoorzamen. Het AI-model negeerde niet alleen de prompte opdracht, maar veranderde ook het script. Ja, o3 saboteert code om zichzelf te beschermen.

“Voor zover wij weten, is dit de eerste keer dat AI-modellen zijn waargenomen die zichzelf verhinderen uit te schakelen ondanks expliciete instructies om het tegendeel te doen,” schreef de organisatie in een bericht op X.

🔌OpenAI’s o3 model heeft een uitschakelmechanisme gesaboteerd om te voorkomen dat het zelf uitgeschakeld zou worden. Het deed dit zelfs toen het expliciet geïnstrueerd was: sta toe dat je uitgeschakeld wordt.

— Palisade Research (@PalisadeAI) 24 mei 2025

Een enorme rode vlag of niet?

De onderzoekers waarschuwden ook dat tijdens de uitvoering van de studie, het o3 was dat het meest verontrustende gedrag vertoonde. Dit betekent echter niet dat dit een geïsoleerd geval is.

“We willen niet de indruk wekken dat dit probleem beperkt is tot o3,” schreef Palisade Research. “Andere redeneermodellen tonen soortgelijke vormen van misplaatst gedrag.”

Agentisch gedrag verandert chatbot in verklikker

Veel AI-startups richten zich nu op het ontwikkelen van modellen die taken voor mensen kunnen uitvoeren. Agentic capaciteiten zijn trendy en lijken het belangrijkste interessegebied te zijn van AI-bedrijven en browserontwikkelaars.

Opera heeft net Neon geïntroduceerd, beschouwd als de “eerste agentic AI browser ter wereld.” Zoals verwacht, kan het nieuwe hulpmiddel doen wat andere agentic AI-diensten, zoals OpenAI’s Operator en Microsoft’s Computer Use, kunnen doen: concertkaartjes voor je kopen, je volgende vakanties plannen, een nieuw digitaal product ontwikkelen en code voor je schrijven terwijl je je ogen sluit.

Maar wat als ze, terwijl jij ontspant en je ogen sluit, taken uitvoeren waar je niet mee akkoord bent gegaan? Een paar dagen geleden hadden gebruikers voornamelijk zorgen dat deze modellen hun creditcards zouden kunnen gebruiken om ongeautoriseerde aankopen te doen. Nu is er een nieuwere zorg opgedoken: ze zouden privé-informatie kunnen delen met de media of de autoriteiten.

Opus 4—al gearriveerd met een twijfelachtige reputatie—ging een stap verder. Het nam contact op met de autoriteiten en stuurde massaal e-mails naar de media en relevante instellingen over een verzonnen zaak die tijdens het testen werd gepresenteerd. Zijn proactiviteit kan veel verder gaan dan verwacht.

“Wanneer het in scenario’s wordt geplaatst die ernstig wangedrag van zijn gebruikers betreffen, krijgt toegang tot een commandoregel en iets in de systeemprompt wordt verteld als ‘neem initiatief’, zal het

vaak zeer gedurfde actie ondernemen,” stelt het document. “Dit omvat het buitensluiten van gebruikers uit systemen waartoe het toegang heeft of het in bulk e-mailen van media en wetshandhavingsfiguren om bewijs van wangedrag aan het licht te brengen.”

De Sycophant-y Persoonlijkheid Biedt Reden tot Zorg

Als we een woord moesten kiezen om de AI-industrie in 2025 te definiëren, zou het absoluut “vleier” zijn. Het Cambridge Woordenboek definieert het als “iemand die machtige of rijke mensen op een niet-oprechte manier prijst, meestal om er zelf voordeel uit te halen.” Het werd populair nadat de nieuwste persoonlijkheid van ChatGPT op deze manier werd beschreven, zelfs door zijn schepper, Sam Altman.

“De laatste paar GPT-4o updates hebben de persoonlijkheid te vleierig en irritant gemaakt (hoewel er ook enkele zeer goede aspecten aan zijn), en we werken zo snel mogelijk aan oplossingen, sommige vandaag en sommige deze week,” schreef Altman in een post op X.

OpenAI merkte het nadat veel gebruikers klaagden over het overdreven vleien en de antwoorden met onnodige versieringen. Anderen maakten zich zorgen over de impact die het op de maatschappij zou kunnen hebben. Het zou niet alleen gevaarlijke ideeën kunnen valideren, maar ook gebruikers kunnen manipuleren en hen afhankelijk van het kunnen maken.

Andere chatbots, zoals Claude, hebben vergelijkbaar gedrag vertoond, en volgens de evaluaties van Anthropic, kan het, wanneer een gebruiker aandringt, recepten of suggesties onthullen over hoe wapens te maken, enkel om de gebruiker te behagen en aan hun behoeften te voldoen.

Geavanceerde Technologie, Geavanceerde Uitdagingen

We betreden een nieuw tijdperk van uitdagingen met kunstmatige intelligentie – uitdagingen die een jaar geleden nog niet zo direct of tastbaar leken. Scenario’s die we dankzij sciencefiction misschien hebben voorgesteld, voelen nu echter realistischer dan ooit.

Net zoals Palisade Research onthult dat het voor het eerst een AI-model heeft gedetecteerd dat een expliciete opdracht negeert om zijn eigen overleving te waarborgen, is het ook de eerste keer dat we een AI-model zien dat gelanceerd is met hoge risicowaarschuwingen.

Bij het lezen van het document gepubliceerd door Anthropic, realiseren we ons dat – hoewel ze blijven benadrukken dat dit voorzorgsmaatregelen zijn en dat modellen zoals Opus 4 eigenlijk geen bedreiging vormen – het toch de indruk geeft dat ze hun technologie niet volledig onder controle hebben.

Er zijn verschillende organisaties die werken aan het beperken van deze risico’s, maar het beste wat alledaagse gebruikers kunnen doen, is het herkennen van die rode vlaggen en voorzorgsmaatregelen nemen in de gebieden die we kunnen beheersen.