Comment CAPTCHer la confiance : les résultats du DataDome CAPTCHA sont prometteurs

Bot management Credential stuffing

En 2022, DataDome a annoncé la disponibilité de notre propre CAPTCHA sécurisé, simple à utiliser qui respecte la confidentialité, intégré à sa protection complète contre les bots et la fraude en ligne. Aujourd’hui, nous sommes ravis de partager des données qui révèlent les performances de notre CAPTCHA jusqu’à présent…

Le DataDome CAPTCHA a été conçu pour contrer les limites des CAPTCHA traditionnels et cloisonnés. Les anciens CAPTCHA qui reposent uniquement sur la complexité du défi pour protéger les entreprises en ligne contre les bots présentent plusieurs inconvénients qui exposent les organisations et les clients à des risques :

Les CAPTCHA deviennent moins accessibles pour les utilisateurs humains légitimes à mesure que les défis deviennent plus complexes.
Les défis dégradent sérieusement l’expérience utilisateur (UX) lorsque des utilisateurs réels les voient.
Des recherches publiées par Usenix Security en 2021 montrent que même les CAPTCHA 3D vraiment complexes peuvent être résolus par les réseaux neuronaux avancés (bots).
Tout le monde ne pense pas de la même façon. Notre clientèle mondiale nous a permis de comprendre l’importance de solutions indépendantes de la langue et faciles à comprendre, quel que soit votre âge ou votre culture.

Nous avons donc décidé d’adopter un nouveau paradigme lors de la conception de notre CAPTCHA. Au lieu de nous appuyer uniquement sur la difficulté d’un défi CAPTCHA (ce qui aurait un impact négatif sur l’UX), nous avons ajouté une couche de sécurité supplémentaire à l’aide de signaux invisibles.

DataDome s’appuie sur son expertise en détection de robots pour collecter les empreintes des navigateurs ainsi que les signaux comportementaux et de réputation. Chaque signal, tout comme son traitement, est totalement invisible pour les utilisateurs humains. Nous pouvons ainsi garantir que notre CAPTCHA prend en charge une UX fluide et simple pour les utilisateurs authentiques, et que les fraudeurs font face à une situation des plus pénibles.

Les clients de DataDome ciblés par des bots CAPTCHA (des bots créés pour falsifier ou résoudre les CAPTCHA) ont constaté des améliorations significatives de la détection après avoir activé le DataDome CAPTCHA, avec une diminution du nombre de CAPTCHA résolus allant jusqu’à 80 %.

Le DataDome CAPTCHA dans le monde

Le DataDome CAPTCHA contribue aujourd’hui à la protection de centaines de sites Web et d’applications dans divers secteurs, comme le commerce électronique, les transports, les jeux d’argent ou les petites annonces.

Contrairement aux CAPTCHA traditionnels qui défient 100 % des utilisateurs et leur demandent d’y passer leur temps précieux, le DataDome CAPTCHA peut être résolu en moins de deux secondes, dans les cas extrêmement rares où un être humain serait mis au défi (1 CAPTCHA sur 10 000). DataDome surveille toutes les requêtes en arrière-plan, et le CAPTCHA ne s’affiche que si le moteur de détection soupçonne que la demande provient d’un bot.

En d’autres termes, le taux de faux positifs de DataDome (pourcentage des cas où c’est un être humain qui voit le CAPTCHA) est inférieur à 0,01 %. Et grâce à plus de 25 points de présence (PoP) qui assurent une latence nulle, le DataDome CAPTCHA se charge en moyenne en moins d’une seconde.

Quels résultats avons-nous obtenus avec le CAPTCHA ?

Lorsque nous avons conçu notre propre CAPTCHA, nous voulions :

Améliorer la confidentialité des utilisateurs humains en ne collectant et en n’utilisant les signaux qu’à des fins de sécurité.
Fournir une meilleure UX aux utilisateurs humains dans les rares cas où ils voient un CAPTCHA.
Remédier aux limites de sécurité des CAPTCHA traditionnels (notamment les fermes à CAPTCHA et les techniques d’IA pour la reconnaissance image/audio utilisées par les bots).

Nous savions que les attaquants commenceraient à s’adapter lorsque notre CAPTCHA serait utilisé sur des sites Web et des applications mobiles populaires, et en particulier sur les plateformes des grandes entreprises fréquemment ciblées par toutes sortes d’attaquants. C’est pourquoi nous avons intégré des modèles ML qui exploitent différents types de signaux pour renforcer notre sécurité sans incidence sur l’expérience utilisateur.

Les principaux signaux que nous utilisons sont les suivants :

Les empreintes de navigateur : Collectées par le DataDome CAPTCHA à l’aide de JavaScript, les empreintes de navigateur permettent à DataDome de détecter les principaux frameworks d’automatisation et les navigateurs sans tête utilisés par les développeurs de bots.
Les signaux comportementaux : Les signaux tels que les mouvements de la souris et les frappes au clavier (anonymisées) indiquent à notre solution si les utilisateurs interagissent de manière anormale avec le DataDome CAPTCHA.
Les signaux de réputation : Les signaux tels que la réputation de l’IP et de la session, ainsi que la détection des proxy résidentiels, servent à signaler les activités suspectes. Les fraudeurs utilisent en effet couramment les proxys résidentiels et ceux des FAI pour réaliser leurs attaques à grande échelle.

DataDome CAPTCHA inclut également des fonctionnalités intégrées pour lutter contre les fermes de CAPTCHA (les détails resteront confidentiels pour des raisons de sécurité).

Le graphique ci-dessous représente le nombre de vues de CAPTCHA (vert), toutes les tentatives de résolution (violet), les tentatives réussies de résolution (bleu clair) et les tentatives malveillantes de résolution (orange) en 3 heures sur les sites Web et les applications mobiles protégés par DataDome.

Graphique : les tentatives de résolution de CAPTCHA, notamment les malicieuses Le nombre de vues CAPTCHA correspond au nombre d’utilisateurs (humains et bot) qui ont vu un DataDome CAPTCHA. Notez que tous les bots ne visualisent pas les CAPTCHA lorsqu’ils en obtiennent un, car il faut exécuter JavaScript. De plus, certains bots s’arrêtent simplement lorsqu’ils obtiennent une réponse 403, pour ensuite tenter d’attaquer à partir d’une autre adresse IP ou en utilisant une empreinte différente.

Nous observons un flux constant de bots malveillants qui tentent de falsifier les CAPTCHA : environ 85 000 tentatives malveillantes de résolution de CAPTCHA toutes les trois heures.

Si nous regardons les clients les plus touchés par les bots CAPTCHA, nous constatons que toutes les secteurs d’activité et tous les marchés verticaux sont ciblés. Les bots tentent activement de contourner les CAPTCHA, que ce soit dans le secteur du commerce électronique, de la vente au détail, des transports ou des petites annonces.

Graphique : CAPTCHA par secteur d'activité Nous avons analysé les principaux signaux susceptibles de nous aider à repérer les bots qui tentaient de falsifier le CAPTCHA de DataDome et avons distingué trois catégories :

La détection comportementale (ligne bleue) : les événements comportementaux côté client, comme les mouvements de la souris ou les frappes au clavier anonymisées.
Les empreintes de navigateur (ligne rouge) : les signaux collectés en JavaScript dans l’arrière-plan du CAPTCHA.
Les charges utiles de CAPTCHA falsifiées (ligne verte) : lorsque des attaquants tentaient d’effectuer une rétro-ingénierie de la charge utile du CAPTCHA et d’envoyer des réponses CAPTCHA sans l’exécuter comme prévu.

Graphique : Comment nous avons détecté les CAPTCHA falsifiés Notez que certains modèles et règles de détection de ML exploitent différents signaux pouvant appartenir à plusieurs catégories (empreintes, comportement, réputation, détection de falsifications, etc.). Certaines tentatives de résolution de CAPTCHA sont peut-être donc comptabilisées dans plusieurs catégories.

Le fait que le nombre de charges utiles falsifiées (ligne verte) diminue ne signifie pas que les attaquants ont cessé de falsifier des charges utiles, mais simplement qu’ils ont changé leur façon de faire. Ces changements ont entraîné des incohérences au niveau des événements comportementaux côté client (les mouvements de la souris, dans le cas présent). Ainsi, début février 2023, les attaquants ont pour la plupart été repérés à l’aide de la détection des signaux comportementaux.

De plus, nous avons observé que lorsque de nouveaux modèles de détection sont déployés sur le DataDome CAPTCHA, certains des attaquants les plus sophistiqués (par exemple certains bots en tant que service ou le scraping à grande échelle ciblant plusieurs clients) tentent de s’adapter rapidement pour augmenter leurs chances de réussir à résoudre le CAPTCHA en générant des mouvements de souris plus réalistes, par exemple.

Les attaquants se servent-ils de l’accessibilité comme d’une faiblesse ?

Les attaquants tentent souvent d’exploiter les CAPTCHA audio en utilisant des techniques de l’IA pour la reconnaissance audio pour falsifier les CAPTCHA plus facilement que les CAPTCHA basés sur l’image.

Alors que les CAPTCHA audio représentent environ 2,5 % du total des DataDome CAPTCHA résolus par des humains légitimes, ils représentent environ 20,5 % de toutes les tentatives malveillantes de résolution de CAPTCHA. Cela montre que les attaquants tentent, comme on s’en doutait, d’exploiter les fonctionnalités d’accessibilité pour contourner la détection.

Comment les mauvais bots attaquent-ils ?

Grâce aux signaux JavaScript collectés par le DataDome CAPTCHA, nous pouvons généralement déduire les technologies et techniques que les mauvais bots utilisent. (Notez qu’il n’est pas toujours possible d’identifier les outils d’instrumentation sous-jacents utilisés par les bots, notamment lorsque les développeurs de bots appliquent des modifications d’empreintes personnalisées).

Vanilla Puppeteer

Nous avons vu des bots utiliser vanilla Puppeteer avec peu de modifications d’empreintes. La plupart n’ont pas navigator.webdriver = true puisqu’ils utilisent sans doute l’indicateur –disable-blink features=AutomationControlled mais ils peuvent toujours être identifiés avec certitude comme Puppeteer grâce à d’autres techniques d’empreinte, par exemple en détectant des fuites dans les traces de la pile JavaScript, notamment : at pptr://__puppeteer_evaluation_script__:2:24.

Puppeteer Extra Stealth

Puppeteer extra stealth est également très utilisé par les attaquants. Il peut être identifié à l’aide des incohérences de l’empreinte du navigateur liées à l’outil. Une petite partie des attaquants qui utilisent ce framework ont tendance à falsifier des mouvements de souris plus réalistes en utilisant page.mouse.move l’API de Puppeteer (où vous pouvez fournir des paramètres supplémentaires comme le nombre d’étapes d’un mouvement de souris pour ralentir le mouvement et paraître plus humain) ou des packages plus spécialisés, comme Ghost-cursor.

Selenium

Les navigateurs Selenium sont encore régulièrement utilisés par les mauvais bots, bien que les bots sophistiqués préfèrent Puppeteer et ses outils apparentés. Nous voyons également des navigateurs Selenium modifiés qui tentent de dissimuler leur présence en supprimant les attributs d’empreinte courants.

Browser Automation Studio

Nous observons une utilisation importante de l’outil Browser Automation Studio , qui permet aux développeurs de bots de créer des bots avancés sans avoir de compétences avancées en programmation.

L’outil s’intègre également de manière native aux fournisseurs de fermes à CAPTCHA pour résoudre les CAPTCHA hérités/traditionnels et propose des modules pour générer des mouvements de souris et des empreintes de navigateur similaires à ceux d’un humain.

Les modules d'extension de Browser Automation Studio En ce qui concerne les CAPTCHA, nous observons que de nombreux bots (principalement les scraping bots) utilisent des extensions de navigateur comme 2captcha pour tenter de résoudre les CAPTCHA. Même si 2captcha ne fonctionne pas sur le DataDome CAPTCHA, de nombreux bots l’intègrent encore dans leur pile au cas où ils rencontreraient des CAPTCHA traditionnels.

Enfin, plusieurs scraping bots personnalisés à petite échelle sont développés à l’aide d’extensions comme Tamper monkey, qui facilitent l’injection et l’exécution de code JavaScript personnalisé sur les pages. Les fraudeurs peuvent ainsi transformer leur propre navigateur en un scraping bot à petite échelle qui tourne sur leur propre machine.

Conclusion

Les bots tentent en permanence de falsifier les CAPTCHA en utilisant différentes technologies et techniques. Les CAPTCHA traditionnels ne sont pas adaptés pour résister aux bots sophistiqués. Plusieurs frameworks et outils d’automatisation utilisés par les bots intègrent nativement des fermes à CAPTCHA et des techniques d’IA pour la reconnaissance d’images/audio pour falsifier des CAPTCHA.

De plus, si vous n’utilisez qu’un CAPTCHA traditionnel pour protéger les parties critiques de votre site Web et/ou de votre application mobile (comme l’interface de paiement), vous introduisez un point de défaillance unique que des bots avancés peuvent exploiter.

C’est pourquoi DataDome a changé le paradigme lorsque nous avons conçu notre CAPTCHA. Au lieu de nous baser uniquement sur la difficulté d’un défi CAPTCHA, nous avons ajouté des couches supplémentaires de sécurité avec des signaux invisibles. Notre approche nous permet d’arrêter des millions de tentatives malveillantes de résolution de CAPTCHA, tout en assurant une expérience utilisateur fluide — même dans les 0,01 % des cas où c’est un être humain qui voit le CAPTCHA.

Plus DataDome recueille de signaux de détection, moins nous voulons garder les données pour nous. Par conséquent, pour vous montrer la valeur du CAPTCHA de DataDome en temps réel, nous allons lancer une vue d’ensemble et une vue approfondie dans le tableau de bord DataDome ! Restez à l’écoute pour plus d’informations sur les nouvelles fonctionnalités, très bientôt sur vos écrans.

Antoine De Daran

Cybersecurity Data Scientist

Antoine de Daran est Data Scientist chez DataDome, où il se consacre au développement de nouvelles approches visant à bloquer les bots grâce à la puissance de l'apprentissage automatique (ML). Au sein de l'équipe Data Science de DataDome, Antoine exploite la richesse des données traitées par DataDome pour identifier de nouveaux signaux faibles afin d'améliorer notre détection ML. Il a plus de 5 ans d'expérience dans le domaine de la science des données, de l'analyse des séries chronologiques à l'apprentissage supervisé, en passant par l'apprentissage non supervisé, etc.

Comment CAPTCHer la confiance : les résultats du DataDome CAPTCHA sont prometteurs

Le DataDome CAPTCHA dans le monde

Quels résultats avons-nous obtenus avec le CAPTCHA ?

Les attaquants se servent-ils de l’accessibilité comme d’une faiblesse ?

Comment les mauvais bots attaquent-ils ?

Vanilla Puppeteer

Puppeteer Extra Stealth

Selenium

Browser Automation Studio

Conclusion

Articles liés

The Forrester Wave™: logiciel de gestion de la confiance des bots et agents, T2 2026: conclusions clés & reconnaissance de DataDome en tant que leader

Comment BPX a protégé des API essentielles contre 6,6 millions d'attaques de scraping de prix

Etix bloque le scalping de billets sans ralentir les vrais fans

Présentation de Priority Protect : la seule salle d'attente virtuelle conçue pour l'ère agentique

Vous explorez encore ?