Les agents IA sont à nos portes : comprendre et se protéger contre les crawlers des LLM
L’explosion des grands modèles de langage (LLM) a provoqué un changement de paradigme dans le trafic web et la sécurité des applications. Les crawlers d’IA – qu’ils collectent des données pour l’entraînement, récupèrent du contexte pour l’inférence en direct ou simulent le comportement humain dans le cadre d’agents autonomes, ne sont plus des cas marginaux. Ils façonnent le flux de données sur le web moderne.
Chez DataDome, nous avons observé cette tendance de près. Au cours des 30 derniers jours, notre plateforme a détecté 976 millions de requêtes provenant de crawlers identifiés comme appartenant à OpenAI, dont 92 % liés à ChatGPT. Les crawlers à base de LLM représentent désormais 4,5 % de l’ensemble du trafic légitime de bots observé sur l’ensemble de notre clientèle. Un record absolu et un signal clair d’accélération.
Cette étude examine l’anatomie de l’activité des crawlers LLM, la manière dont nous catégorisons et identifions ces bots, ainsi que les raisons pour lesquelles une stratégie de défense nuancée, basée sur l’intention, est essentielle pour toute organisation exposée à l’automatisation par l’IA.
Qu’est-ce qu’un crawler de LLM ?
Les crawlers de LLM, ou bots d’IA, sont des clients automatisés qui interagissent avec des sites web au nom de grands modèles de langage. Bien qu’il existe un certain chevauchement avec les scrapers et robots d’indexation traditionnels, ces bots sont généralement plus spécialisés, fonctionnent à plus grande échelle et disposent de capacités d’analyse plus avancées.
À un niveau élevé, nous distinguons trois types fonctionnels :
- les scrapers d’entraînement, qui ingèrent de grands volumes de contenus publics pour améliorer les performances des modèles. Ils sont généralement utilisés pour construire ou affiner des modèles fondamentaux et peuvent ne pas respecter les fichiers robots.txt ou les limites de fréquence ;
- les “prompt-time fetchers”, qui récupèrent des données en temps réel pour enrichir les réponses produites par les LLM. Il s’agit des copilotes IA ou assistants de recherche qui interrogent des pages web à la volée pour répondre à une requête utilisateur ;
- les crawlers agentiques, qui se comportent davantage comme des utilisateurs humains. Ces bots peuvent cliquer, faire défiler, soumettre des formulaires et naviguer dans des interfaces complexes, souvent dans le cadre d’un pipeline RAG (retrieval-augmented generation) ou d’un environnement de test.
La présence des crawlers LLM redéfinit ce qu’on considère comme un « comportement normal » pour un bot. Leur impact est déjà visible dans les environnements de production.
Catégorisation des crawlers de LLM : couches de base et couches d’application
L’une des premières distinctions que nous établissons chez DataDome est celle entre les crawlers utilisés pour entraîner des modèles fondamentaux et ceux utilisés dans des applications en aval. Cela nous permet d’évaluer à la fois la portée et l’intention du trafic.
Les crawlers issus de fournisseurs de modèles de base – OpenAI (GPT-*), Anthropic (Claude), Meta (LLaMA), Google (Gemini), Amazon (Titan), et d’autres – sont généralement liés à des efforts d’entraînement à grande échelle. Leur comportement est souvent plus systématique, et dans certains cas, traçable via des plages d’adresses IP ou des user-agent documentés.
En revanche, les crawlers provenant de fournisseurs d’applications d’IA – ceux qui développent des assistants, agents ou modèles spécialisés à partir de LLM fondamentaux – sont plus fragmentés. Bon nombre de ces entreprises ne disposent pas de documentation publique, font tourner leur infrastructure de manière dynamique ou s’appuient sur des courtiers en données tiers. Leurs requêtes peuvent sembler opportunistes et sont souvent plus difficiles à identifier ou à attribuer.
Cet écosystème croît rapidement. Et comme les éditeurs d’applications monétisent généralement via la consultation ou la diffusion de contenus, et non via l’entraînement, ils ont tout intérêt à crawler de manière agressive et fréquente.
Comment nous identifions les crawlers des LLM chez DataDome
Nous ne nous appuyons pas sur un seul indicateur pour détecter les bots des LLM. Selon le niveau de transparence du fournisseur, nous utilisons différentes stratégies d’identification :
Si un crawler publie sa plage d’adresses IP, nous créons un modèle de bot vérifié qui est bloqué par défaut, sauf si le client décide de l’autoriser. GPTBot d’OpenAI et Google-Extended entrent dans cette catégorie.
Si le fournisseur utilise un DNS inversé distinct, nous pouvons créer un modèle vérifié similaire basé sur la résolution du nom d’hôte.
Dans les cas où seule une chaîne User-Agent est disponible, sans information IP ou DNS fiable, nous privilégions la prudence. Ces bots sont signalés manuellement et bloqués strictement par défaut. Étant donné que l’origine des requêtes ne peut pas être vérifiée de manière fiable, aucun modèle de détection n’est créé pour eux. Il s’agit d’une mesure de sécurité stricte qui vise à prévenir les abus via des identifiants usurpés et à garantir une protection cohérente.
Pour les activités véritablement opaques, nous appliquons une règle générale à toutes les chaînes User-Agent de type bot qui ne sont pas associées à des modèles vérifiés. Cette approche nous permet d’adapter notre réponse à mesure que de nouveaux robots d’indexation apparaissent, sans laisser passer des acteurs inconnus.
Modèles de réponse par défaut : pas de solution universelle
Nous n’imposons pas de politique universelle sur la manière dont les clients doivent gérer le trafic des LLM. La valeur ou le risque d’un bot d’IA dépend fortement du contexte.
Certains de nos clients voient un intérêt stratégique à être indexés ou référencés par des LLM de premier plan. Par exemple, les plateformes de e-commerce peuvent tirer profit de leur inclusion dans les recommandations de chatbots ou les résultats de recherche de produits. Dans ces cas, il peut avoir du sens d’autoriser l’accès à une application LLM.
D’autres s’inquiètent davantage de l’exploitation de leur propriété intellectuelle ou de l’extraction de données. Si un bot d’IA entraîne un modèle à partir de contenus propriétaires ou monétisés sans autorisation, le blocage s’impose, en particulier en l’absence d’attribution ou de bénéfice aval.
C’est pourquoi chaque modèle de bot LLM dans notre plateforme propose des réponses configurables : autoriser, bloquer, limiter le débit ou soumettre à un challenge. Ces décisions peuvent être adaptées à chaque client et évoluer dans le temps selon les modèles ou cas d’usage.
Exemples concrets
Pour illustrer concrètement la mise en pratique, voici comment nous classons et traitons actuellement certains des crawlers LLM les plus visibles :
| Nom du bot | Classification | Méthode d’identification | Réponse par défaut |
| Google-Extended | Application LLM | IP, User-Agent | Autoriser |
| ClaudeBot (Anthropic) | Modèle de base | Uniquement User-Agent | Aucune décision globale. Bloqué/autorisée selon le client |
| Applebot-Extended | Base + Application | IP, rDNS, User-Agent | Autoriser (par défaut). Certains clients bloquent |
| Meta-ExternalAgent | Base + Application | ASN + User-Agent | Aucune décision globale. Bloqué/autorisée selon le client |
| ChatGPT, GPTBot (OpenAI) | Bast + Application | IP + User-Agent | Blocage strict par défaut. Le client peut outrepasser la décision |
Note : certains bots publient leur documentation ou leurs adresses IP, d’autres non, ce qui complique la vérification de leur classification. Anthropic, par exemple, publie les IP utilisées pour le trafic sortant de l’API — et pas celles des crawlers — ce qui empêche toute vérification par IP. De même, l’ASN partagé par Meta est trop large pour permettre une attribution fiable.
Arguments commerciaux en faveur de la protection contre les bots, même lorsque les agents IA sont autorisés
Le concept de « bon bot vs. mauvais bot » ne s’applique plus aussi simplement au trafic généré par l’IA. De nombreux crawlers IA peuvent adopter un comportement à la fois légitime et abusif, selon leur configuration ou leur détournement.
Prenons les crawlers agentiques, par exemple. Dans certains cas, ils facilitent les recherches de produits, récupèrent des contenus à jour ou soutiennent les parcours utilisateurs. Mais ces mêmes capacités permettent aussi des formes plus insidieuses de fraude : account takeover, abus de promotions, scraping derrière la connexion, ou relecture d’API transactionnelles.
En janvier 2025, DataDome a enregistré 178,3 millions de requêtes provenant de crawlers OpenAI en un seul mois, avec une hausse mensuelle de 14,5 %. Lors du lancement de l’agent Operator d’OpenAI, le volume de requêtes a bondi de 48 % en seulement 48 heures.
À l’échelle de notre plateforme, les crawlers des LLM représentaient 4,5 % du trafic légitime des bots le mois dernier. Plus largement, 36,7 % de l’ensemble du trafic observé sur l’année écoulée provenait de sources non-navigateur : clients API, SDK mobiles et agents autonomes.
Dans ce contexte, autoriser les bots IA ne signifie pas baisser la garde. La protection contre les bots reste cruciale, notamment pour s’assurer que le trafic fait bien ce qu’il prétend faire, et rien de plus.
Sécurisez ce qui compte à l’ère des crawlers IA
Les crawlers des LLM ne sont plus un phénomène marginal. Leur volume et leur sophistication s’accélèrent, transformant les modes d’accès, d’exploitation et de monétisation des contenus en ligne. Certaines interactions, comme les assistants de recherche IA qui affichent des pages produits, peuvent générer de la valeur légitime, tandis que d’autres engendrent du scraping massif, un entraînement non autorisé des modèles ou des abus de logique applicative.
Cette complexité requiert plus qu’un simple filtrage de base. DataDome offre aux équipes sécurité les outils nécessaires pour analyser, évaluer et répondre en temps réel à cette vague de trafic piloté par l’IA. Notre plateforme utilise l’IA pour lutter contre l’IA, grâce à des modèles d’apprentissage automatique entraînés sur des milliards de requêtes quotidiennes pour détecter les nouveaux comportements de crawlers, différencier automatisation utile et nuisible, et agir en fonction de l’intention comportementale.

Nous ne classons pas le trafic des LLM selon des hypothèses, mais selon son comportement. Qu’un crawler soit déclaré, non déclaré ou qu’il se fasse passer pour un humain, notre moteur évalue continuellement le risque et s’adapte en quelques millisecondes en bloquant les menaces, en autorisant les bots de confiance, et en offrant aux clients un contrôle total sur leur exposition.
Alors que les LLM redéfinissent les expériences numériques, DataDome garantit que vos applications, API et contenus restent protégés, performants et en phase avec vos objectifs métier.
Aujourd’hui, plus d’un tiers du trafic internet est généré par des bots, et une part croissante est imputable aux LLM, c’est pourquoi les règles figées ou le filtrage par user-agent ne suffisent plus. Les organisations ont besoin de défenses adaptatives, pilotées par l’IA, capables de comprendre le comportement et pas seulement les étiquettes.
En plus de la détection et de la protection, nous proposons désormais de nouvelles façons de transformer le trafic IA en opportunité. Grâce à notre nouvel écosystème de partenaires, les clients DataDome peuvent contrôler la manière dont les agents d’IA accèdent à leur contenu, et monétiser ces interactions selon leurs propres conditions.
Si vos propriétés numériques sont exposées à l’automatisation par l’IA, il est temps d’aller au-delà de la logique binaire autoriser/bloquer, et de sécuriser l’accès selon l’intention.
C’est là que DataDome excelle. Vous voulez en savoir plus ? Réservez une démo dès aujourd’hui.