Photo by Joshua Woroniecki on Unsplash
Cloudflare Onderzoekers Beweren dat Perplexity Websites Schraapt Ondanks AI Bot Blokkade
Onderzoekers van internetinfrastructuuraanbieder Cloudflare beweren dat het AI-systeem Perplexity inhoud van websites schraapt zonder toestemming, zelfs wanneer uitgevers AI-bot blokkades hebben geïmplementeerd.
Haast? Hier zijn de snelle feiten:
- Cloudflare beweert dat Perplexity inhoud van websites heeft geschraapt zonder toestemming.
- Onderzoekers bevestigden het “stealth crawling” gedrag van Perplexity, zelfs wanneer uitgevers AI bot-blokkades implementeren.
- Een woordvoerder van Perplexity noemde het rapport van Cloudflare een “publiciteitsstunt”.
Volgens het rapport gedeeld door Cloudflare op maandag, crawlt Perplexity websites met zijn standaard gebruikersagent en verandert zijn identiteit om deze blokkeringen te omzeilen. Dit “stealth crawling” gedrag werd bevestigd door de experts van Cloudflare.
“We zien voortdurend bewijs dat Perplexity herhaaldelijk hun user agent aanpast en hun bron-ASNs verandert om hun crawl-activiteit te verbergen, en ook robots.txt-bestanden negeert, of soms zelfs niet ophaalt,” schreven de onderzoekers.
Van crawlers wordt verwacht dat ze transparant zijn, hun doel duidelijk verklaren en de voorkeuren van websites respecteren, maar volgens onderzoekers houdt Perplexity zich niet aan deze vertrouwensprincipes. Deze conclusie werd getrokken na een onderzoek dat werd ingegeven door klachten van klanten.
“We hebben klachten ontvangen van klanten die zowel de crawl-activiteit van Perplexity hadden geweigerd in hun robots.txt-bestanden als WAF-regels hadden gecreëerd om specifiek beide door Perplexity verklaarde crawlers te blokkeren: PerplexityBot en Perplexity-User,” schreven de onderzoekers. “Deze klanten vertelden ons dat Perplexity nog steeds in staat was om toegang te krijgen tot hun inhoud, zelfs wanneer ze zagen dat zijn bots succesvol geblokkeerd waren.”
Onderzoekers van Cloudflare zeiden dat ze deze claims hadden geverifieerd door de blokkeringen te repliceren en meerdere tests uit te voeren om het gedrag van de crawler te observeren. In één test creëerden ze nieuwe domeinen die nog niet geïndexeerd waren en voegden robots.txt-bestanden toe om “respectvolle bots” te blokkeren. Later vroegen ze Perplexity om specifieke informatie over de beperkte domeinen en ontdekten dat de AI-gestuurde antwoordmachine nog steeds details en nauwkeurige informatie over de website gaf.
“Deze reactie was onverwacht, aangezien we alle nodige voorzorgsmaatregelen hadden genomen om te voorkomen dat deze data te achterhalen zou zijn door hun crawlers,” voegden de onderzoekers toe.
Een woordvoerder van Perplexity, Jesse Dwyer, noemde het onderzoek een “publiciteitsstunt” in een verklaring voor The Verge. Dwyer voegde eraan toe dat er “misverstanden” zijn in het rapport van Cloudflare.
Cloudflare is bezig met de ontwikkeling van meerdere tools om uitgevers te helpen ongeautoriseerde AI-webcrawlers te voorkomen. In maart heeft Cloudflare “AI Labyrinth” gelanceerd, een tool die ongeautoriseerde crawlers omleidt naar door AI gegenereerde inhoudsdoolhoven. Vorige maand lanceerde het “Pay Per Crawl,” een systeem om AI-bots te laten betalen voor het toegang krijgen tot de content van uitgevers.