Perplexity, le moteur de recherche alimenté par IA, contourne les blocages de différents sites web pour récupérer leurs contenus, selon une étude de Cloudflare.

Non, c’est non. Une phrase simple, que Perplexity semble avoir du mal à intégrer. Selon une récente étude menée par Cloudfare, le moteur IA a été observé en train d’ignorer les blocages mis en place par des sites web pour empêcher l’accès à leurs données, rapporte TechCrunch. Un exemple de scraping plus commun qu’il n’y paraît dans le monde l’intelligence artificielle.

Un vol sous couverture

Pour empêcher le vol de données, les sites web mettent en place des restrictions en utilisant un fichier Robots.txt, indiquant aux moteurs de recherches et aux moteurs IA les pages à indexer ou non. Quand le robot de Perplexity se fait bloquer, l’entreprise contourne les protections du site web en modifiant un agent robotique pour qu’il imite un navigateur web classique tout en masquant son adresse IP. Une activité qui « a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour », précise Cloudfare dans son étude.

Une pratique répandue

Cette pratique loin d’être réservée à Perplexity, a déjà été dénoncée à plusieurs reprises. En 2024, c’est iFixit qui s’était plaint d’une pratique similaire de la part de la startup Anthropic avec son IA Claude. Peu de temps après, c’est Steve Huffman, PDG de Reddit, qui était monté au créneau contre Microsoft, l’accusant également de scraping.

Face à ces accusations, Perplexity a qualifié l’étude de Cloudfare de « baratin commercial », dans un courrier adressé à TechCrunch. Un commentaire acide, assorti d’une capture d’écran, indiquant que le robot mentionné dans le blog de Cloudfare ne serait pas le leur. De son côté, Cloudfare précise dans son étude avoir retiré les robots de Perplexity de sa liste de robots vérifiés tout en mettant en place de nouvelles techniques pour le bloquer.

Une controverse dont se serait passée Perplexity qui opère actuellement une mutation, se rêvant comme le remplaçant de Google Chrome.

