AI bots can be blocked by adding their user-agent name to the disallow directive in the robots.txt file.

What Happens If I Don’t Have a Robots.txt?

Search engine web crawlers will index every page on your site. This can result in irrelevant content being indexed which can negatively impact your page rankings.

What is the Difference Between Robots.txt and Meta Tags?

Robots.txt controls access to your site at a directory level. Meta tags manage crawling and indexing behavior for individual pages.

La crise identitaire des agents IA : 80% des agents ne s’identifient pas correctement, 80% des sites ne vérifient pas

Agent trust IA agentique

Les agents d’IA ont beau transformer la manière dont on découvre les produits et le commerce, il y a un problème fondamental avec l’identité des agents IA : la plupart des agents ne prouvent pas qui ils sont, et la plupart des sites web ne prennent pas la peine de vérifier. 38 % des consommateurs utilisent désormais des outils comme ChatGPT pour la recherche de produits, et 21 % ont utilisé des agents qui prennent des décisions ou effectuent des achats automatiquement. Cette augmentation du trafic des agents révèle un modèle de confiance défaillant des deux côtés de l’équation : comment les agents s’identifient et comment les sites web vérifient ces identités.

L’équipe de recherche sur les menaces Galileo de DataDome a analysé les deux problèmes. Les résultats, inclus dans le Future of Search and Discovery Report en collaboration avec AWS, Botify et Retail Economics, révèlent pourquoi les fraudeurs trouvent l’usurpation d’identité des agents IA si efficace : le système est conçu pour être usurpé.

80% des agents IA ne s’identifient pas correctement

Lorsqu’un agent IA visite un site web, il devrait se déclarer par des signaux qui ne peuvent pas être facilement falsifiés. Parmi les méthodes d’identification appropriées, des listes de plages IP publiées, des recherches DNS inversées ou des protocoles d’authentification comme Web Bot Auth. Ceux-ci fournissent une preuve cryptographique d’identité.

Mais 80% des agents IA n’utilisent pas ces méthodes. Au lieu de cela, ils se fient aux chaînes user-agent : des en-têtes HTTP qui déclarent “Je suis ChatGPT” ou “Je suis Perplexity”, et que n’importe qui peut usurper en copiant une seule ligne de code. Certains agents publient des listes d’IP, mais les laissent incomplètes ou non maintenues, ce qui crée des lacunes que les attaquants exploitent.

Pourquoi les agents légitimes font-ils cela ? Parfois, ils fonctionnent côté client et héritent de l’adresse IP de l’utilisateur. Parfois, ils utilisent une infrastructure partagée qui rend la vérification difficile. La raison n’a pas d’importance pour les équipes de sécurité confrontées à la réalité pratique : vous ne pouvez pas distinguer un agent IA aidant un client d’un scraper volant votre catalogue.

Cela crée deux problèmes immédiats. Premièrement, les fraudeurs peuvent cloner des agents IA mal déclarés et hériter de la confiance ou des privilèges d’accès que les sites web leur accordent. Deuxièmement, les propriétaires de sites web ne peuvent pas prendre de décisions éclairées sur leur trafic car ils ne peuvent pas dire quels « référencements IA » sont légitimes et lesquels sont fabriquées.

Table depicting the advantages and disadvantages of AI agent site access

80% des sites web ne sont pas protégés contre l’usurpation d’agents IA

Pour comprendre comment les sites web gèrent le trafic des agents non vérifiables, DataDome a testé 698 214 sites accessibles en utilisant un user-agent usurpé de type ChatGPT—“Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot“, et a mesuré si les sites le bloquaient, le défiaient ou le laissaient passer. Notamment, ChatGPT-User est l’un des agents IA qui fournit des plages IP documentées publiquement, cela rend donc son trafic vérifiable. Les sites avaient les outils pour détecter cette usurpation, ils ne les ont tout simplement pas utilisés.

79,7 % des sites web ont laissé passer la requête sans la bloquer ou la défier. Seulement 17,8 % ont arrêté l’agent usurpé. La conclusion : près de 80 % des sites web ne peuvent pas distinguer un agent IA légitime d’un attaquant prétendant en être un.

Data visualization featuring the results of DataDome's spoofed agent analysis

La plupart des sites web traitent les chaînes user-agent comme si elles étaient des identifiants vérifiés. Elles ne le sont pas. Ce sont des déclarations auto-reportées sans couche d’authentification, soit l’équivalent numérique d’accepter la parole de quelqu’un qui affirme qu’il travaille pour une entreprise de confiance sans vérifier son identité.

Ce manque de vérification est important car les attaquants comprennent comment fonctionnent les défenses. De nombreux systèmes de sécurité appliquent des règles différentes en fonction de la source du trafic. Le trafic « bonne IA » reçoit souvent un examen plus léger, des limites de débit plus permissives et des exemptions de contrôles qui arrêteraient les comportements suspects.

Usurper un agent IA réputé fonctionne comme un laissez-passer. Cela aide l’automatisation non autorisée à passer à travers les défenses conçues pour l’attraper. Les scrapers agressifs volent les catalogues de produits et les données de prix. Les tentatives de prise de contrôle de compte sondent les points de terminaison d’authentification. Les opérations de fraude testent les informations de paiement volées. Tout en prétendant être ChatGPT ou Claude.

Ce n’est pas théorique. L’équipe de recherche sur les menaces Galileo de DataDome a observé des attaquants abusant systématiquement de l’infrastructure des agents IA pour contourner les contrôles de sécurité traditionnels. Dans des cas documentés, l’infrastructure de ChatGPT a été utilisée pour effectuer une attaque par injection SQL, Perplexity pour un XSS réfléchi, et le crawler de Meta comme scanner de vulnérabilités. Lorsque les sites web ne peuvent pas vérifier l’identité des agents, les attaquants héritent de la confiance que ces agents reçoivent et l’utilisent pour sonder les faiblesses.

Pourquoi cela crée des problèmes de sécurité et de mesure

Cette même faiblesse qui permet la fraude pollue également les analyses. Si les attaquants peuvent fabriquer du « trafic de référence IA » en usurpant des chaînes user-agent, vos données vous mentent. L’attribution du trafic se décompose. Vous ne pouvez pas mesurer l’impact réel de l’IA sur les conversions, donc vous ne pouvez pas optimiser pour le changement vers le commerce agentique qui remodèle déjà la découverte de produits.

L’équipe Galileo de DataDome a récemment documenté ce scénario exact : une augmentation du “trafic de référence ChatGPT” qui s’est avérée être due à des scrapers agressifs. Ce qui ressemblait à des centaines de milliers d’utilisateurs légitimes de ChatGPT était en réalité des bots effectuant 22 requêtes par seconde, se routant à travers des proxys résidentiels pour paraître authentiques. Une session de bot a atteint 109 pages de produits en cinq secondes. L’usurpation nécessitait une seule ligne de code.

Les décisions concernant où investir dans l’optimisation IA, quels produits mettre en avant et comment structurer les données pour la consommation des agents dépendent toutes de savoir quel trafic d’agent est légitime. Sans vérification, vous optimisez pour le bruit pendant que les fraudeurs opèrent dans le signal.

Comment réparer le modèle de confiance défaillant

Alors que les agents IA deviennent le canal principal pour la découverte de produits, la vérification est fondamentale. Les protocoles d’authentification établissent une preuve cryptographique d’identité en utilisant des signatures que seul le fournisseur légitime peut générer. Les protocoles comme Web Bot Auth, Visa TAP et Mastercard Agent Pay rendent l’usurpation mathématiquement difficile au lieu de banalement facile.

Mais l’authentification seule ne suffit pas. Les agents compromis avec des identifiants valides passeront tous les contrôles d’identité. C’est là que l’analyse comportementale est importante. La détection d’intention en temps réel détecte quand un agent vérifié commence à agir de manière malveillante : des modèles de requêtes inhabituels, une extraction de données suspecte, ou des signes qu’il travaille dans le cadre d’une attaque coordonnée.

DataDome opère à ces deux niveaux. Nous vérifions les identités des agents à la périphérie grâce à des protocoles d’authentification et une infrastructure publiée, puis analysons le comportement en temps réel pour détecter quand les agents vérifiés deviennent hostiles. C’est ainsi que vous capturez l’opportunité de revenu du commerce agentique sans l’exposition à la sécurité et à la fraude qui accompagne le trafic non vérifiable.

Le passage à la découverte pilotée par l’IA se produit que votre entreprise soit prête ou non. La question n’est pas de savoir s’il faut autoriser les agents IA, c’est de savoir si vous pouvez vérifier lesquels sont légitimes avant qu’ils n’accèdent à vos systèmes.

Prêt à tester vos défenses ? Exécutez le scan de vulnérabilité de DataDome pour voir si un agent IA usurpé peut accéder à votre site web, ou téléchargez le rapport complet Future of Search and Discovery pour des informations plus précises sur le commerce agentique.

Jerome Segura

VP of Threat Research

Jérôme Segura est un chercheur en sécurité reconnu, qui s'intéresse particulièrement à l'analyse des malwares et à l'évolution constante des menaces, notamment grâce à sa connaissance approfondie du malvertising. Fort de nombreuses années d'expérience dans le domaine de la cybersécurité, il a fait ses preuves dans l'identification des vecteurs d'attaque émergents. Son expertise consiste à mettre au jour les mécanismes qui sous-tendent les attaques en ligne et à traduire des conclusions complexes en connaissances pratiques, fournissant ainsi des renseignements exploitables pour aider à protéger les particuliers et les organisations contre les acteurs malveillants. Son travail consiste souvent à disséquer des cyberattaques complexes et à partager ses conclusions afin de contribuer à un paysage numérique plus sûr.

La crise identitaire des agents IA : 80% des agents ne s’identifient pas correctement, 80% des sites ne vérifient pas

80% des agents IA ne s’identifient pas correctement

80% des sites web ne sont pas protégés contre l’usurpation d’agents IA

Pourquoi cela crée des problèmes de sécurité et de mesure

Comment réparer le modèle de confiance défaillant

Articles liés

Libération utilise DataDome + Arc XP pour neutraliser le scraping IA malveillant en moins de 2 millisecondes

DataDome désigné comme leader dans The Forrester Wave™ : Bot And Agent Trust Management Software, Q2 2026

La page d'accueil de DataDome : votre centre de commande pour la confiance & le contrôle

Comment les éditeurs de navigateurs rendent discrètement l'automatisation plus difficile à détecter

Vous explorez encore ?