AI bots can be blocked by adding their user-agent name to the disallow directive in the robots.txt file.

What Happens If I Don’t Have a Robots.txt?

Search engine web crawlers will index every page on your site. This can result in irrelevant content being indexed which can negatively impact your page rankings.

What is the Difference Between Robots.txt and Meta Tags?

Robots.txt controls access to your site at a directory level. Meta tags manage crawling and indexing behavior for individual pages.

De plus en plus de referral traffic généré par IA est en fait constitué de bots malveillants

Bot management IA agentique Retail & e-commerce

Rester compétitif en ligne implique aujourd’hui de devenir une source de référence pour l’IA générative. C’est le nouveau Graal du SEO. Si ChatGPT cite votre contenu, cela signifie que vous faites autorité et promet une vague de visiteurs à fort potentiel cherchant à vérifier des sources ou à acheter des produits. Alors, lorsqu’un tableau de bord d’analyse web montre une soudaine augmentation du trafic attribué à chatgpt.com, c’est généralement une raison de se réjouir.

Mais ce moment de triomphe peut rapidement tourner au vinaigre.

Ce qui ressemble à un afflux d’utilisateurs enthousiastes de ChatGPT validant votre autorité n’est parfois rien de plus que des bots déguisés. La visualisation des données n’est fiable que si la source qui l’alimente l’est, et les acteurs malveillants savent exactement comment manipuler les en-têtes de référence pour se faire passer pour du trafic IA légitime.

Par exemple, l’équipe Galileo Threat Research de DataDome a récemment observé une augmentation du trafic de référence qui semblait être un flot d’utilisateurs enthousiastes de ChatGPT mais qui n’était rien de tel. Cela ressemblait à des centaines de milliers de visites humaines, mais en réalité c’étaient des bots conçus pour contourner les filtres de sécurité. Dans cet article, nous expliquons ce qu’est le referral traffic et analysons en détail les attaques que nous avons observées usurpant l’identité de ChatGPT.

Referral traffic

Dans le monde de l’analyse web, le referral traffic est le segment de visiteurs qui arrive sur votre site par des liens directs présents sur d’autres domaines, plutôt que depuis un moteur de recherche ou une publicité payante. Pendant des années, ce secteur était dominé par les blogs, les médias d’information et les plateformes de médias sociaux. Mais récemment, un nouvel acteur majeur est entré en scène : l’IA générative.

Lorsqu’un utilisateur pose une question à ChatGPT sur un produit ou un service, l’IA inclut souvent des citations ou des liens directs vers des sites externes. Lorsqu’un utilisateur clique sur l’un de ces liens pour vérifier une source ou effectuer un achat, cela est enregistré comme du trafic de référence.

Pour aider les webmasters à suivre ce public précieux, ces visites sont généralement identifiées de deux manières :

l’en-tête “referer”: un en-tête HTTP standard qui indique à votre serveur que le visiteur est venu de https://chatgpt.com/ ;
les paramètres UTM: les liens générés par l’IA incluent souvent des balises de suivi, telles que &utm_source=chatgpt.com, permettant aux plateformes d’analyse comme Google Analytics (GA4) de catégoriser automatiquement la visite comme un trafic “AI Referral”.

ChatGPT search for shoe purchase

Il est important de préciser que le referral traffic légitime représente des utilisateurs humains cliquant sur des liens dans l’interface de ChatGPT, et non l’agent IA lui-même explorant vos pages.

Les robots d’indexation IA s’identifient généralement de manière transparente. ChatGPT, par exemple, valide son identité en utilisant des plages d’IP documentées publiquement et Web Bot Auth (en-têtes signés cryptographiquement), en plus de ses chaînes User-Agent spécifiques.

Un trafic qui fait tâche

Considérons le modèle de trafic dans le graphique ci-dessous relatif aux visites de référencement ChatGPT chez les clients DataDome. Nous observons un pic significatif autour du 14 janvier, suivi d’un autre pic beaucoup plus petit le 20.

Chart of referral traffic for ChatGPT

Autour du 14 janvier, l’activité a fortement augmenté, atteignant près de 600 000 requêtes. La source principale de ce trafic était https://chatgpt.com/. En surface, cela implique que les utilisateurs interagissaient avec ChatGPT et cliquaient sur des liens dans l’interface de l’assistant IA.

Bien que le trafic de référence de ChatGPT ait augmenté au fil du temps, un pic soudain de cette ampleur suscite un certain scepticisme. L’analyse du trafic des bots a montré que les “utilisateurs” derrière ce pic n’étaient pas réellement humains mais des bots. L’image ci-dessous isole les requêtes de trafic de référence malveillantes de la tendance générale que nous avons montrée plus tôt.

Malicious referral traffic requests

La preuve la plus accablante peut être illustrée par une seule session où nous avons observé 109 requêtes de pages produits individuelles en l’espace de seulement 5 secondes. Cela représente environ 22 requêtes par seconde, une vitesse qu’aucun navigateur humain ne pourrait atteindre, indiquant un scraper très agressif plutôt qu’un acheteur intéressé.

Individual requests from the same session for product pages in a 5 sec timespan

Le trafic a évité les centres de données faciles à bloquer. Au lieu de cela, il a été acheminé via des fournisseurs de services Internet (ISP) résidentiels comme Comcast Cable (27%), Verizon Fios (17%) et AT&T (14%). Cela suggère l’utilisation de proxys résidentiels pour apparaître comme des utilisateurs domestiques légitimes.

Malgré l’utilisation de connexions résidentielles, 50% du trafic a été identifié comme GNU/Linux. Bien que Linux soit courant pour les serveurs et les scripts de bots, il est extrêmement rare pour le trafic de consommation moyen sur des ISP comme Comcast ou Verizon.

Traffic breakdown

L’en-tête “Referer”

L’en-tête HTTP Referer (historiquement mal orthographié dans la norme officielle RFC) est une simple chaîne de texte envoyée par le client (le navigateur ou le script) au serveur. Point crucial : le client a un contrôle absolu sur cette chaîne.

Les développeurs de bots savent que de nombreux pare-feux de sécurité (WAF) et outils anti-scraping traitent le trafic provenant de domaines réputés comme Google, Facebook ou ChatGPT avec plus de clémence. Par conséquent, l’usurpation de la source est une tactique courante pour contourner les filtres de sécurité.

Pour un scraper, provenir de ChatGPT est aussi simple que d’ajouter une seule ligne de code. En Python, cela ressemble à ceci:

headers = {

    'Referer': 'https://chatgpt.com/',

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...'

}

requests.get('https://target-website.com/product-page', headers=headers)

En définissant manuellement l’en-tête, un bot malveillant passe d’un scraper suspect à un trafic IA de grande valeur aux yeux de la plupart des plateformes d’analyse.

L’angle mort du SEO : comment le trafic indésirable déforme la réalité

Ce type d’usurpation déforme vos analyses de site web. Il expose également une faille fondamentale dans la façon dont les outils d’analyse standard traitent les données. Les plateformes qui ingèrent généralement l’en-tête “Referer” sans question afficheront des informations biaisées.

C’est là que DataDome se distingue des analyses standard ou des WAF basiques. Alors que les bots savent que les pare-feux traitent souvent le trafic provenant de domaines réputés comme ChatGPT avec tolérance, DataDome ne se fie pas à l’en-tête “Referer” comme preuve de légitimité.

Au lieu de cela, DataDome analyse le comportement et l’intention derrière la requête. En détectant des incohérences techniques, telles qu’un appareil Linux sur une IP résidentielle Comcast exécutant plus de 100 requêtes en quelques secondes, nous filtrons le bruit avant qu’il ne déforme vos données et ne conduise à des conclusions incorrectes sur l’origine de votre trafic.

L’ère de l’IA exige une meilleure détection

À l’ère des agents automatisés, l’en-tête “Referer” est souvent juste un masque. Les équipes de sécurité et d’analyse ne peuvent plus se permettre de prendre ces signaux pour argent comptant. Lorsqu’un pic soudain et inexpliqué apparaît depuis une plateforme majeure, la vérification manuelle est souvent trop lente et complexe pour être efficace.

C’est pourquoi l’approche de DataDome est cruciale. En regardant derrière le masque pour voir qui frappe réellement à la porte, DataDome valide la légitimité du trafic en temps réel grâce à une détection multi-couches basée sur l’intention, afin que vous puissiez protéger à la fois votre infrastructure et l’intégrité de votre informatique décisionnelle.

DataDome est conçu pour les entreprises qui veulent garder une longueur d’avance à l’ère de l’IA agentique, en saisissant de nouvelles opportunités tout en minimisant les risques de fraude. Alors que les agents IA deviennent plus sophistiqués et répandus, il n’a jamais été aussi important de protéger votre infrastructure numérique.

Voulez-vous voir si un agent IA usurpé peut accéder à votre site web dès maintenant ? Utilisez le Scan de Vulnérabilité de DataDome pour le découvrir.

Jerome Segura

VP of Threat Research

Jérôme Segura est un chercheur en sécurité reconnu, qui s'intéresse particulièrement à l'analyse des malwares et à l'évolution constante des menaces, notamment grâce à sa connaissance approfondie du malvertising. Fort de nombreuses années d'expérience dans le domaine de la cybersécurité, il a fait ses preuves dans l'identification des vecteurs d'attaque émergents. Son expertise consiste à mettre au jour les mécanismes qui sous-tendent les attaques en ligne et à traduire des conclusions complexes en connaissances pratiques, fournissant ainsi des renseignements exploitables pour aider à protéger les particuliers et les organisations contre les acteurs malveillants. Son travail consiste souvent à disséquer des cyberattaques complexes et à partager ses conclusions afin de contribuer à un paysage numérique plus sûr.

De plus en plus de referral traffic généré par IA est en fait constitué de bots malveillants

Referral traffic

Un trafic qui fait tâche

L’en-tête “Referer”

L’angle mort du SEO : comment le trafic indésirable déforme la réalité

L’ère de l’IA exige une meilleure détection

Articles liés

Les attaques contre les plateformes de paris sportifs s'intensifient à l'approche de la Coupe du monde de la FIFA 2026

Libération utilise DataDome + Arc XP pour neutraliser le scraping IA malveillant en moins de 2 millisecondes

Présentation de Proof of Browser: comment DataDome a bloqué 14 millions de tentatives de contournement

DataDome désigné comme leader dans The Forrester Wave™ : Bot And Agent Trust Management Software, Q2 2026

Vous explorez encore ?