Méthodes de détection des bots : comment détecter et bloquer efficacement le trafic généré par les bots
80 % des agents IA ne s’identifient pas lorsqu’ils visitent votre site web. C’est ce que révèle l’équipe Galileo Threat Research de DataDome, et cela met en lumière un problème plus profond : la plupart des entreprises ne disposent d’aucun moyen fiable pour distinguer les visiteurs légitimes des bots automatisés.
Au sein du réseau mondial de clients de DataDome, le trafic généré par l’IA a quadruplé au cours des huit premiers mois de 2025. Et selon le Rapport mondial sur la sécurité contre les bots 2025, seuls 2,8 % des sites web sont entièrement protégés contre les attaques simples de bots. L’ancienne approche consistant à bloquer les adresses IP et à déployer des CAPTCHA ne suffit plus face aux bots qui passent par des millions de proxys résidentiels et imitent le comportement humain en temps réel. Ce guide détaille ce à quoi ressemble aujourd’hui une détection efficace des bots.
Points clés à retenir
- Une détection des bots efficace identifie le trafic automatisé en temps réel et le classe selon son intention, et pas seulement selon son caractère humain ou non.
- La détection des bots nécessite des méthodes multicouches. L’empreinte digitale, l’analyse comportementale, la réputation des adresses IP et l’apprentissage automatique comblent chacun les lacunes des autres.
- Les bots alimentés par l’IA et les crawlers LLM ont modifié le paysage des menaces. La plupart ne s’identifient pas, et ils imitent suffisamment bien le comportement humain pour contourner les défenses traditionnelles.
Qu’est-ce que la détection des bots ?
La détection des bots est le processus qui consiste à identifier le trafic automatisé qui atteint votre site web, vos applications mobiles ou vos API, et à déterminer si ce trafic est humain, un bot légitime ou un bot malveillant. Les logiciels et outils de détection des bots utilisent des algorithmes spécialisés pour identifier et bloquer l’activité non humaine, y compris les menaces provenant d’outils d’automatisation et de scripts automatisés, contribuant ainsi à prévenir le piratage et la fraude.
Cette distinction est importante, car tous les bots ne sont pas malveillants. Les robots d’indexation (crawlers) des moteurs de recherche comme Googlebot indexent vos pages pour que les utilisateurs puissent vous trouver. Les outils de monitoring vérifient que votre site fonctionne correctement. Les API partenaires échangent des données que vous avez autorisées. Ce sont des bots légitimes, et les bloquer nuit à votre activité.
Les bots que vous devez détecter sont ceux qui provoquent des data breaches, volent des credentials, scrapent vos prix, monopolisent votre inventaire, créent de faux comptes ou saturent vos serveurs avec des attaques DDoS. Ils extraient de la valeur de votre plateforme sans autorisation.
Il existe également un nouveau défi, plus complexe : les agents IA déclarés vs ceux qui ne le sont pas. 80 % des agents IA ne s’identifient pas correctement lorsqu’ils visitent des sites web. Et vous ne pouvez pas vous fier uniquement aux chaînes d’agent utilisateur pour distinguer un robot LLM bienveillant d’un robot malveillant, car ces chaînes sont facilement falsifiables.
La détection du trafic bot n’est pas un firewall, un WAF ou un CAPTCHA. Ce sont des mécanismes de réponse. La détection est la couche d’intelligence qui détermine ce qu’est le trafic. La réponse intervient ensuite.
Pourquoi la détection des bots est-elle importante ?
La perte de revenus est directe. Les bots réalisent du credential stuffing, de la fraude au paiement et du scalping de stocks. Une seule attaque de scalping de billets en janvier 2026 a généré 16 millions de requêtes malveillantes provenant de 3,9 millions d’adresses IP uniques sur six jours pour une organisation sportive mondiale (Global Bot Security Report).
Vos analytics deviennent peu fiables. Lorsqu’une part importante de votre trafic provient de bots, votre trafic web, vos taux de conversion, vos taux de rebond et l’attribution de vos campagnes deviennent du bruit. Les équipes marketing prennent alors des décisions basées sur des données qui ne reflètent pas de vrais clients.
Les crawlers IA représentent une catégorie de risque entièrement nouvelle. DataDome a détecté près de 1,7 milliard de requêtes provenant de crawlers OpenAI pour le seul mois d’août 2025. Et 88,9 % des fichiers robots.txt interdisent explicitement GPTBot, mais ces directives sont régulièrement ignorées.
Vous pouvez penser disposer déjà d’une forme de détection des bots via un web application firewall (WAF). Mais un WAF fonctionne sur des signatures et des règles statiques. Les techniques de détection des bots reposent sur des signaux comportementaux et l’apprentissage automatique. Elles répondent à des problématiques différentes, et l’une ne remplace pas l’autre.
Comment fonctionne la détection des bots ?
Une détection des bots efficace combine plusieurs couches de signaux et prend des décisions en quelques millisecondes, avant qu’une requête malveillante ne puisse causer des dommages. Ces signaux sont collectés via deux approches complémentaires.
La détection côté serveur analyse les données disponibles au niveau de l’infrastructure : adresses IP, en-têtes HTTP, taux de requêtes, empreintes TLS et origine géographique. Elle s’exécute sur votre serveur ou en périphérie (via un CDN ou un reverse proxy) et ne dépend pas de l’exécution de code dans le navigateur du visiteur. Cela la rend rapide et difficile à contourner, mais limitée dans ce qu’elle peut observer du comportement réel du visiteur.
La détection côté client exécute du JavaScript dans le navigateur du visiteur afin de collecter des signaux plus riches : mouvements de souris, schémas de défilement, timing des frappes, caractéristiques de l’appareil et comportement de rendu. Ces signaux sont beaucoup plus difficiles à imiter de manière convaincante pour les bots. En contrepartie, la détection côté client dépend de l’exécution du script par le navigateur, ce que les navigateurs headless ou les bots au niveau API peuvent complètement éviter.
Les systèmes les plus performants combinent les deux types de détection. Les signaux côté serveur filtrent les menaces évidentes avant qu’elles n’atteignent votre infrastructure. Les signaux côté client détectent les bots sophistiqués qui passent les contrôles réseau mais ne parviennent pas à imiter de manière crédible les interactions humaines.
Le pipeline de décision
Une fois les signaux collectés à partir des deux couches, le moteur de détection attribue un score à chaque requête à l’aide d’une combinaison de règles et de modèles d’apprentissage automatique. Ce score détermine la réponse : autoriser, surveiller, challenger ou bloquer.
Il ne s’agit pas d’une simple vérification binaire. Les systèmes de détection modernes exécutent des centaines de contrôles par requête, couvrant les données réseau, les attributs des appareils, les comportements et l’intelligence historique. Le résultat est un score de confiance, et non un indicateur oui/non. Une requête légèrement suspecte peut être surveillée ou soumise à un challenge. Une requête qui déclenche plusieurs couches de détection est bloquée immédiatement.
La vitesse comme exigence
L’ensemble du pipeline, de la collecte des signaux à la décision, doit s’exécuter en quelques millisecondes. Une détection qui ajoute une latence perceptible au chargement des pages sera désactivée. Le seuil de référence est inférieur à 2 millisecondes par requête. Ce n’est pas seulement une question de performance, mais aussi de sécurité : si la détection est trop lente, les équipes d’ingénierie la désactiveront, et votre site ne sera plus protégé.
Classification des bots légitimes
Tout le trafic automatisé n’est pas malveillant. Les crawlers des moteurs de recherche, les bots de prévisualisation des réseaux sociaux, les outils de monitoring et les robots d’indexation IA légitimes remplissent des fonctions utiles pour l’activité. Les systèmes de détection maintiennent des allow-lists vérifiées à l’aide de plages d’IP publiées, de reverse DNS lookups et de correspondances de patterns User-Agent.
Par exemple, Googlebot publie ses plages d’IP, ce qui permet de vérifier qu’une requête se présentant comme Googlebot provient réellement de l’infrastructure de Google. Le même principe s’applique aux crawlers IA : vérifier l’identité revendiquée par rapport à l’infrastructure publiée par l’opérateur avant d’accorder l’accès. À mesure que l’écosystème des crawlers IA se développe, la maintenance de cette liste devient une tâche opérationnelle continue.
Comment identifier le trafic de bots sur votre site
Avant de déployer une solution dédiée, vous pouvez surveiller certains signaux d’alerte dans vos outils d’analytics existants et vos logs serveur.
Des pics de trafic anormaux. Une hausse soudaine du nombre de pages vues sur les pages de connexion, les pages de tarification ou les tunnels de paiement qui ne correspond pas à une campagne ou à un lancement mérite une investigation.
Des schémas géographiques inhabituels. Si votre activité est concentrée aux États-Unis et en France, mais que vous observez un afflux de requêtes provenant d’un pays que vous ne ciblez pas, ce trafic est probablement automatisé.
Des conversions incohérentes et des échecs de connexion. Des soumissions de formulaires absurdes, des paniers remplis mais jamais finalisés, ou des inscriptions à une newsletter qui rebondissent immédiatement indiquent une création de faux comptes ou des tests automatisés par des bots. Une augmentation des tentatives de connexion échouées sur de nombreux comptes dans une courte période est un signe typique de credential stuffing.
Des anomalies de session. Des sessions sans mouvement de souris, sans défilement, ou avec des vitesses d’interaction physiquement impossibles pour un humain sont des indicateurs forts. Les réseaux de bots suivent des schémas mathématiquement précis et des parcours de navigation scriptés, contrairement aux humains qui interagissent de manière organique.
Ces signaux sont utiles, mais restent réactifs. Au moment où vous les détectez, les dommages peuvent déjà être faits. Une solution de détection des bots dédiée permet d’identifier les menaces en temps réel.
Méthodes et techniques de détection des bots
Aucune technique ne permet à elle seule de détecter tous les bots. Une détection moderne repose sur une approche multicouche, où chaque méthode complète les autres.
Empreinte digitale des appareils
L’empreinte digitale des appareils et des navigateurs collecte des dizaines d’attributs afin de construire une identité unique pour chaque visiteur : résolution d’écran, polices installées, comportement de rendu WebGL, signatures audio context, empreintes TLS/JA3 et schémas d’exécution JavaScript.
L’objectif est de vérifier si un client est bien ce qu’il prétend être. Une requête qui se présente comme Safari sur macOS mais dont les caractéristiques WebGL correspondent à un navigateur headless Linux est presque certainement automatisée.
Le fingerprinting est efficace, mais pas infaillible. Les opérateurs de bots utilisant des navigateurs anti-detect avancés peuvent falsifier de nombreux attributs. C’est pourquoi il est plus performant lorsqu’il est combiné avec des signaux comportementaux. Il est relativement simple de simuler l’identité d’un navigateur, mais beaucoup plus difficile de reproduire un comportement humain à l’intérieur de celui-ci.
Analyse comportementale
La biométrie comportementale mesure la manière dont un utilisateur interagit avec une page : trajectoires de la souris, vitesse de défilement, pression des clics, cadence de frappe et temps entre les interactions.
C’est la technique la plus efficace pour détecter les bots sophistiqués ayant déjà passé les contrôles d’empreinte digitale et de réseau. Imiter le comportement humain à un niveau fin nécessite une puissance de calcul qui ralentit les bots et réduit leur avantage économique. Même avec des délais aléatoires et des mouvements de souris simulés, des schémas statistiques émergent et peuvent être détectés par des modèles d’apprentissage automatique.
Analyse IP et réputation
Chaque requête provient d’une adresse IP avec un historique. Le scoring de réputation s’appuie sur des bases de données d’IP malveillantes connues, de plages de data centers, de réseaux de proxys et de fournisseurs de VPN.
Cela fonctionne bien comme filtre initial. Mais la réputation IP seule présente des limites importantes. L’attaque de scalping de janvier 2026 mentionnée précédemment a réparti 16 millions de requêtes sur 3,9 millions d’adresses IP uniques, ce qui a rendu le blocage par IP inefficace. Les bots modernes utilisent des réseaux de proxys résidentiels qui font apparaître leurs IP comme des connexions internet domestiques. L’analyse IP doit alimenter un score de confiance, et non une décision binaire.
Honeypots
Un honeypot est un piège invisible : un champ de formulaire, un lien ou un élément de page présent dans le HTML mais non visible pour les utilisateurs humains. Une personne réelle n’interagit jamais avec celui-ci. Un bot qui analyse la page de manière programmatique remplit le champ caché ou suit le lien dissimulé.
Les honeypots sont simples, peu coûteux et n’ajoutent aucune friction pour les utilisateurs réels. Ils permettent de détecter les scrapers peu sophistiqués et les bots de spam de formulaires. Leur limite : tout bot capable de rendre correctement une page (par exemple via un navigateur headless) ignorera les éléments cachés comme le ferait un humain.
Apprentissage automatique et IA
Les modèles d’apprentissage automatique (ML) constituent le cœur d’un système de détection moderne. Ils ingèrent des signaux provenant de toutes les autres couches et produisent un score de confiance pour chaque requête.
Les systèmes les plus performants utilisent des modèles spécialisés selon les types de signaux. Deux éléments distinguent une bonne détection ML d’une mauvaise : les données d’entraînement et la fréquence de réentraînement. Les modèles entraînés sur du trafic bot synthétique sont moins performants que ceux entraînés sur des données d’attaques réelles. Et un modèle entraîné il y a seulement un an est déjà moins efficace face aux bots actuels. Un réentraînement continu sur des données en conditions réelles est indispensable.
CAPTCHA et mécanismes de vérification
Les CAPTCHA demandent aux utilisateurs de réaliser une tâche simple pour un humain mais difficile pour un bot. Il s’agit d’un signal de détection, pas d’une solution en soi. Les déployer à chaque chargement de page crée une friction qui fait fuir les utilisateurs légitimes. Les fermes à CAPTCHA et les solveurs basés sur l’IA ont encore réduit leur efficacité.
L’approche moderne consiste à utiliser des challenges uniquement pour les sessions déjà identifiées comme suspectes par les autres couches de détection. Cela permet de préserver l’expérience utilisateur pour les visiteurs légitimes tout en ajoutant une vérification lorsque le niveau de confiance est faible.
Comment atténuer le trafic de bots après détection
Détecter un bot ne représente que la moitié du travail. Vous devez également mettre en place une stratégie de réponse adaptée au niveau de confiance de chaque détection.
Bloquer ou rediriger. Les détections à forte confiance doivent être bloquées immédiatement, soit via une réponse 403 stricte, soit en servant un contenu alternatif. Certaines entreprises diffusent des données légèrement modifiées aux scrapers confirmés, faussant ainsi l’intelligence de leurs concurrents tout en laissant le bot dans l’ignorance.
Limiter le débit. Pour un trafic suspect mais non confirmé, réduisez la fréquence des requêtes par session ou par IP. Cette approche est également utile pour gérer le trafic des bots légitimes en période de forte activité, par exemple en ralentissant Googlebot lors d’une vente flash afin que les serveurs priorisent les clients réels.
Challenger avec une preuve de travail. Les défis cryptographiques obligent le client à effectuer des calculs intensifs en CPU. Un navigateur légitime les résout en quelques millisecondes. Une ferme de bots exécutant des milliers de sessions simultanées voit ses coûts fortement augmenter, ce qui rend cette méthode particulièrement efficace contre le credential stuffing à grande échelle et les attaques DDoS.
Ajoutez les bons bots connus à la liste blanche. Les robots d’indexation des moteurs de recherche, les outils de monitoring et les crawlers IA légitimes doivent être ajoutés à une liste blanche, mais uniquement après vérification. Utilisez les plages d’IP publiées, les recherches DNS inversées et les correspondances de modèles d’User-Agent pour confirmer qu’un bot est bien celui qu’il prétend être. La maintenance de cette liste est un travail continu à mesure que l’écosystème des crawlers IA évolue.
Quels sont les défis de la détection des bots ?
Le plus difficile dans la détection des bots n’est pas de repérer les bots évidents. C’est de repérer les bots sophistiqués sans bloquer les utilisateurs légitimes.
Les faux positifs détruisent la confiance
Un système de détection trop agressif qui bloque des utilisateurs réels est pire qu’un système qui laisse passer certains bots. Un faux positif lors du paiement entraîne une perte de vente, génère un ticket support et dégrade la confiance des clients. Le standard du secteur est un taux de faux positifs de 0,01 %, soit moins de 1 utilisateur légitime bloqué à tort sur 10 000.
Lors d’un proof of concept, SmartRecruiters a réduit son taux de faux positifs de 0,39 % à 0,053 % tout en bloquant 6,8 millions de bots malveillants par mois avec Datadome.
Les techniques d’évasion ne cessent de s’affiner
Les opérateurs de bots changent d’adresses IP, alternent les user-agents, utilisent des proxys résidentiels et exploitent désormais l’IA pour s’adapter en temps réel. Le rapport mondial 2025 sur la sécurité des bots a révélé que les bots anti-empreinte avancés n’étaient bloqués que par environ 7 % des sites web testés. La grande majorité des sites sont vulnérables au détournement de compte, au carding et au scraping avancé.
Les agents IA brouillent les pistes
Lorsque 80 % des agents IA ne se déclarent pas, distinguer un crawler LLM légitime d’un bot malveillant utilisant la même infrastructure devient un véritable défi technique. L’ancienne distinction binaire « bot vs humain » ne s’applique plus. Vous êtes désormais confronté à un spectre : humains, bons bots, mauvais bots, agents IA déclarés, agents IA non déclarés et attaques hybrides combinant automatisation et interaction humaine.
Les attaques distribuées submergent les défenses simples
Une attaque coordonnée peut distribuer 27,9 millions de requêtes en moins de deux minutes. La classique limitation de débit, qui limite les requêtes par IP, est structurellement inefficace face à ce type de scénario. La détection doit s’appuyer sur des signaux comportementaux et au niveau des sessions.
Quelle est l’approche de DataDome en matière de détection des bots ?
Le moteur de détection des bots de DataDome repose sur plus de 85 000 modèles d’apprentissage automatique, 300 000 règles de précision et 5 000 milliards de signaux traités chaque jour. Mais au-delà de l’échelle, ce qui compte, c’est l’impact pour votre équipe sécurité et vos clients :
Détecter les bots que les autres outils manquent. DataDome utilise des modèles de ML spécialisés selon les types de signaux. Chaque modèle est entraîné sur des données d’attaques réelles issues de l’ensemble de la base clients, et non sur des données synthétiques ou le trafic d’un seul site.
Arrêter les menaces sans bloquer les vrais utilisateurs. Une détection agressive n’est utile que si elle ne génère pas de faux positifs. Sanoma, un grand groupe média finlandais, faisait face à des attaques fréquentes de credential stuffing nécessitant des vérifications manuelles après chaque incident. Son équipe support était piégée dans un cycle de remédiation réactive, chaque attaque mobilisant des ressources internes importantes. Après le déploiement de DataDome, les attaques de credential stuffing ont chuté de 99 %. Point essentiel : cette protection fonctionne sans ajouter de friction aux services orientés clients de Sanoma.
Aucune latence supplémentaire. Chaque requête est analysée en périphérie, au plus près de l’utilisateur, avec une décision de détection en moins de 2 millisecondes. Les performances de votre site restent inchangées. Votre équipe sécurité ne fait pas face à des objections de la part des équipes d’ingénierie liées à la vitesse des pages.
Garder une longueur d’avance sur les attaques en constante évolution. Les modèles sont réentraînés en continu à mesure que de nouveaux schémas d’attaque émergent. Les informations sur les menaces sont partagées entre tous les clients, de sorte qu’une technique d’évasion détectée sur un site renforce la protection de tous les autres. L’équipe Galileo Threat Research de DataDome, composée de plus de 30 experts en sécurité, identifie activement de nouvelles techniques d’évasion et publie des recherches en continu.
Reprendre le contrôle du trafic des agents IA. Le framework Agent Trust de DataDome classe le trafic provenant des agents IA, des crawlers LLM et des systèmes automatisés. Via le dashboard, les équipes peuvent définir des politiques par agent : bloquer, limiter le débit, autoriser ou monétiser. Plutôt que de bloquer tout le trafic IA de manière globale, vous décidez quels agents ont accès et selon quelles conditions.
Vous voulez savoir quelle part de votre trafic provient de bots et d’agents IA malveillants ? Demandez une démo gratuite de DataDome et obtenez une réponse en moins de 30 minutes.
FAQ
Une détection multicouche combinant l’empreinte digitale, l’analyse comportementale, la réputation IP, l’apprentissage automatique et la vérification des appareils. Aucune méthode ne permet à elle seule de détecter tous les bots. Chaque technique comble les lacunes des autres.
La détection des bots identifie le trafic automatisé. L’atténuation des bots est la réponse : bloquer, limiter le débit, interroger ou rediriger ce trafic. Vous avez besoin des deux. La détection sans atténuation signifie que vous pouvez voir le problème, mais que vous ne pouvez pas l’arrêter. L’atténuation sans détection signifie que vous avancez à tâtons.
Le trafic de bots n’est pas illégal en soi. Les robots d’indexation et les services de surveillance sont légaux. Mais l’utilisation de bots pour le credential stuffing, les attaques DDoS, le scraping de contenu protégé par des droits d’auteur ou la collecte non autorisée de données enfreint les lois dans la plupart des juridictions, notamment le Computer Fraud and Abuse Act (CFAA) aux États-Unis et le RGPD dans l’UE.
Non. De nombreux bots sont essentiels au fonctionnement du web. L’objectif n’est pas l’élimination. Il s’agit d’identifier, de classer et de réagir de manière appropriée à chaque type : bloquer les mauvais, gérer les bons et s’adapter en permanence à mesure que de nouveaux types apparaissent.