L’évolution des bots qui falsifient les CAPTCHA : un rapport exclusif

Il y a quelques semaines, nous avons annoncé le lancement de notre propre CAPTCHA DataDome , une alternative sécurisée et respectueuse de la vie privée aux CAPTCHA traditionnels. Le DataDome CAPTCHA est l’une des réponses possibles déclenchées lorsque notre moteur de détection en temps réel identifie l’activité d’un bot malveillant.

Dans cet article, nous allons explorer pourquoi et comment notre CAPTCHA est plus privé, plus facile à utiliser et plus sûr que les CAPTCHA traditionnels. Vous apprendrez comment nous avons conçu le DataDome CAPTCHA pour équilibrer au mieux la sécurité et la confidentialité en termes de types de signaux collectés et de la manière dont ils sont traités. Enfin, nous partagerons les nouvelles découvertes issues du déploiement de notre CAPTCHA sur des dizaines de sites e-commerce et d’applications mobiles.

Pourquoi le CAPTCHA de DataDome est-il plus respectueux de la vie privée ?

Tout d’abord, DataDome n’est PAS une entreprise de publicité ou de marketing. Notre modèle économique repose sur la sécurisation des sites web, des applications mobiles et des API contre la fraude en ligne et les menaces automatisées, pas sur la collecte ou la monétisation des données des utilisateurs.

Ainsi, nous ne collectons aucune donnée personnelle. Notre solution utilise uniquement les données minimales nécessaires pour protéger les entreprises en ligne et leurs utilisateurs finaux contre les attaques malveillantes. Les données traitées par notre solution sont exclusivement utilisées à des fins de sécurité et de lutte contre la fraude.

De plus, les données collectées sont stockées selon les normes de sécurité les plus strictes. La période de conservation des données par défaut est de 30 jours, mais elle est ajustable via notre tableau de bord client afin de respecter les réglementations locales.

Pourquoi le DataDome CAPTCHA offre-t-il une meilleure expérience utilisateur (UX) ?

Chez DataDome, il est essentiel de ne montrer les CAPTCHA qu’aux bots. Ainsi, plus de 99,99 % des utilisateurs humains ne verront jamais de CAPTCHA. Et même si seulement 0,01 % des utilisateurs légitimes sont confrontés à un CAPTCHA, nous souhaitons minimiser l’impact sur leur expérience utilisateur.

Pour résoudre le DataDome CAPTCHA, l’utilisateur doit simplement faire glisser un bouton vers la droite pour placer une pièce de puzzle à la bonne position sur une image. C’est simple : aucune barrière linguistique ni défi complexe.

Capture d'écran du CAPTCHA de DataDome

Chez DataDome, nous prenons l’accessibilité au sérieux. C’est pourquoi nous proposons un CAPTCHA audio accessible, où l’objectif est de taper une liste de chiffres entendus à haute voix. Ce CAPTCHA est disponible en 13 langues (plus que la plupart des autres CAPTCHA), et nous continuons à en ajouter à mesure que nous nous développons à l’international.

Vous vous demandez peut-être comment un défi aussi simple peut être sécurisé. Nous l’expliquons plus en détail ci-dessous, mais voici un résumé simple de notre méthodologie :

Nous avons conçu notre CAPTCHA en partant du principe que sa sécurité ne doit pas reposer uniquement sur la difficulté du défi proposé.

Pourquoi le DataDome CAPTCHA est-il plus sécurisé ?

En ligne, il existe souvent un compromis entre la facilité d’utilisation (UX) et la sécurité : renforcer la sécurité rend souvent l’expérience utilisateur moins fluide et moins accessible.

Nous aurions pu concevoir notre nouveau CAPTCHA en optimisant uniquement la sécurité, par exemple en rendant le défi plus complexe et en nous appuyant uniquement sur cette complexité. Nous aurions pu utiliser des formes 3D pour créer des problèmes de reconnaissance d’image compliqués ou générer dynamiquement des défis cognitifs difficiles.

Cependant, cette approche présente plusieurs inconvénients :

Elle rendrait le CAPTCHA moins accessible.
Elle impacterait fortement l’UX en cas de faux positifs, même rares.
Des recherches récentes menées par les universités de Xidian et de Linköping, publiées à Usenix Security 2021, montrent que même les CAPTCHA 3D très complexes peuvent être résolus par des réseaux neuronaux avancés.
Nos clients sont répartis dans le monde entier, et nous savons que les approches diffèrent selon les cultures. Il nous fallait une solution indépendante de la langue et compréhensible quel que soit l’âge ou le contexte culturel.

C’est pourquoi nous avons adopté un nouveau paradigme lors de la conception de notre CAPTCHA :

Plutôt que de compter uniquement sur la difficulté du défi CAPTCHA (ce qui nuirait à l’UX), nous avons ajouté une couche supplémentaire de sécurité grâce à des signaux invisibles.

Nous tirons parti de notre expertise en détection de bots pour collecter des empreintes numériques du navigateur, des signaux comportementaux et de réputation, entièrement invisibles pour les utilisateurs humains. Cela nous permet de garantir une expérience CAPTCHA fluide pour les utilisateurs tout en posant un véritable cauchemar pour les développeurs de bots.

Nous ne pouvons pas dévoiler les signaux exacts utilisés dans notre CAPTCHA (les attaquants en profiteraient). Cependant, nous pouvons passer en revue les types de signaux que nous collectons et expliquer comment ils nous aident à détecter les bots qui tentent de contourner le CAPTCHA.

Signaux d’empreinte digitale (fingerprinting) :

Empreintes du navigateur : collectées via JavaScript, les empreintes du navigateur nous permettent de détecter rapidement et efficacement les frameworks d’automatisation et navigateurs headless populaires utilisés pour créer des bots, tels que Headless Chrome, Puppeteer, et Selenium (ainsi que leurs versions modifiées).
Empreintes côté serveur : nous recueillons plusieurs signaux côté serveur, tels que les en-têtes HTTP et les empreintes TLS.

Signaux comportementaux :

Grâce à JavaScript, nous collectons différents signaux comportementaux liés à l’interaction des utilisateurs avec la page, afin de détecter les bots qui tentent d’imiter un comportement humain. Cela inclut les mouvements de souris, les événements tactiles, les défilements, etc.
Nous intégrons des mécanismes anti-replay pour empêcher les développeurs de bots de reproduire simplement des interactions humaines réelles.

Signaux de réputation :

Nous utilisons plusieurs types de signaux de réputation calculés par notre moteur de détection de bots en temps réel, tels que la réputation des IP et des sessions.
Nous exploitons nos modèles d’apprentissage automatique pour détecter les proxys résidentiels avancés.

Lutte contre les fermes à CAPTCHA :

Les fermes à CAPTCHA sont un élément clé qui a été pris en compte dans la conception de nos CAPTCHA depuis le début. Étant donné que nous protégeons également les plateformes contre les bots, nous pouvons corréler les informations obtenues sur n’importe quel point de terminaison protégé avec les informations obtenues lors de l’affichage de notre CAPTCHA et lors de la réception de la réponse au CAPTCHA.
Notre CAPTCHA a été conçu de manière à rendre extrêmement difficile l’externalisation de sa résolution à un service tiers.

Le DataDome CAPTCHA contre les bots sauvages

En août 2022, le DataDome CAPTCHA a été utilisé en production avec environ 30 clients, principalement des sites de e-commerce et des applications mobiles. Examinons ce que nous avons observé dans les semaines suivant le déploiement de notre CAPTCHA sur des sites et applications fortement ciblés.

Moins de tentatives de bots pour passer le CAPTCHA

Chaque fois que nous avons activé notre CAPTCHA chez un client, nous avons constaté une réduction significative des tentatives de passage de CAPTCHA par des bots. Cela s’explique facilement : les développeurs de bots doivent mettre à jour leurs bots (par exemple, les sélecteurs CSS, etc.) pour interagir correctement avec notre nouveau CAPTCHA. Ce qui est intéressant, c’est que la baisse reste stable même après un mois.

Tentatives de falsification de CAPTCHA au fil du temps

Tentatives malveillantes de falsification de CAPTCHA au fil du temps : nous observons une baisse significative après l’activation du CAPTCHA de DataDome.

D’après nos données, notre hypothèse est que la majorité des développeurs de bots s’appuient sur des projets open source populaires ou des outils prêts à l’emploi (fermes à CAPTCHA) pour contourner les CAPTCHA. Tant que ces outils n’offriront pas d’options pour résoudre le DataDome CAPTCHA, nous nous attendons à ce que le nombre de tentatives malveillantes reste inférieur à ce qu’il était auparavant.

À quelle vitesse les développeurs de bots ont-ils tenté de falsifier les CAPTCHA ?

Cela a pris entre 6 heures et environ 2 semaines, selon le site web ou l’application mobile.

La tentative de falsification la plus rapide (6h après la mise en place) a eu lieu sur une plateforme de e-commerce populaire, très ciblée par des scrapers distribués. Six heures après le passage au nouveau CAPTCHA, nous avons détecté des bots tentant de soumettre des défis CAPTCHA, bien qu’ils aient été bloqués pour plusieurs raisons (comme des empreintes de navigateur incohérentes liées à des frameworks d’instrumentation et d’autres comportements suspects). Cela montre à quelle vitesse les attaquants adaptent leurs bots pour tenter de récupérer des données.

La bonne nouvelle, c’est que l’objectif principal de DataDome est de protéger les sites web et les applications mobiles contre le trafic frauduleux. Nous avons l’habitude de détecter en permanence de nouveaux signaux de bots et d’améliorer nos modèles d’apprentissage automatique pour garder une longueur d’avance. Nous procédons ainsi depuis des années pour améliorer notre moteur de détection en temps réel, et nous allons maintenant continuer à renforcer notre CAPTCHA.

Comment les bots tentent-ils de falsifier les DataDome CAPTCHA ?

API Audio : nous avons tout d’abord observé un problème bien connu : accessibilité vs. sécurité. Les CAPTCHA audio sont souvent plus exploités que leurs équivalents basés sur des images, et cela s’est également manifesté avec notre CAPTCHA. Cependant, grâce aux signaux comportementaux et d’empreintes digitales, nous pouvons tout de même invalider un CAPTCHA falsifié, même lorsque la réponse au défi est correcte.

Puppeteer non modifié : Puppeteer est un framework d’automatisation populaire utilisé pour instrumenter Chrome (headless). Il n’est donc pas surprenant que nous le rencontrions fréquemment parmi les bots essayant de contourner notre CAPTCHA. Les bots utilisent les API standard de Puppeteer pour simuler de faux mouvements de souris et clics. Toutefois, leur comportement diffère de celui des utilisateurs légitimes, et en combinaison avec les signaux d’empreintes digitales, cela nous permet d’invalider les CAPTCHA passés par Puppeteer.

Puppeteer Extra Stealth : Puppeteer Extra Stealth est un framework d’automatisation populaire qui ajoute une couche de fonctionnalités supplémentaires à Puppeteer. Son API est compatible avec celle de Puppeteer, mais elle inclut des fonctionnalités qui permettent de falsifier les empreintes digitales et d’intégrer facilement des API de fermes à CAPTCHA, comme 2Captcha. Ce plugin stealth est très utilisé par les développeurs de bots et les services de bots as a service (BaaS).

Comme pour Puppeteer, notre CAPTCHA collecte des signaux comportementaux et d’empreintes digitales, ce qui nous permet d’invalider les CAPTCHA soumis par les bots utilisant Puppeteer extra stealth, même si la réponse au CAPTCHA est techniquement correcte.

Utilisateurs avec l’extension 2Captcha : notre code JavaScript côté client a également détecté des navigateurs instrumentés utilisant l’extension de navigateur auto-solver de 2Captcha. Cependant, cela ne profite pas aux bots car 2Captcha ne prend pas en charge l’intégration avec notre CAPTCHA. Cela nous permet même d’invalider plus facilement les CAPTCHA falsifiés.

Jusqu’à présent, nous n’observons pas de volume significatif de bots basés sur Selenium tentant de contourner le DataDome CAPTCHA.

Évolution des tentatives de contournement de CAPTCHA par les bots au fil du temps

Le graphique ci-dessous montre l’évolution des tentatives de contournement du DataDome CAPTCHA par les bots. On constate que les bots essaient de s’adapter de plus en plus avec le temps, à mesure que nous protégeons davantage de sites web et d’applications mobiles avec le DataDome CAPTCHA.

Évolution des tentatives de contournement de CAPTCHA

Au total, le graphique montre que plus de 1,37 million de tentatives malveillantes de contournement de CAPTCHA ont été stoppées avant que les bots ne puissent aller plus loin.

Quelles sont les prochaines étapes ?

Nous ne sommes qu’au début de l’aventure avec le DataDome CAPTCHA, et nous constatons déjà des améliorations significatives pour nos clients qui l’utilisent ; en particulier ceux qui sont fortement ciblés par des bots CAPTCHA avancés. Les clients qui utilisent le DataDome CAPTCHA proviennent de divers secteurs, allant de l’e-commerce et du transport aux petits annonces et aux institutions financières.

Le lancement du DataDome CAPTCHA nous a permis d’améliorer nos capacités de détection contre les bots CAPTCHA distribués, tout en préservant l’expérience utilisateur. Car, comme nous le constatons régulièrement, les développeurs de bots ne prennent jamais de vacances. Ils adaptent constamment leurs bots pour les rendre plus furtifs et plus difficiles à détecter.

Chez DataDome, notre équipe est experte dans cette lutte continue contre les développeurs de bots malveillants. Nous travaillons sans relâche à l’ajout de nouveaux signaux d’empreinte digitale et comportementaux, ainsi qu’au développement de nouveaux modèles d’apprentissage automatique pour les analyser. C’est pourquoi notre CAPTCHA et notre protection contre les bots et la fraude en ligne resteront les solutions les plus performantes et complètes disponibles.

Restez connecté pour découvrir de nouveaux aperçus sur notre combat incessant contre les bots malveillants.

Antoine Vastel

VP of Research

Antoine Vastel est vice-président de la recherche chez DataDome, où il supervise le SOC et l'équipe de recherche sur les menaces. À ce titre, il se concentre sur l'amélioration du moteur de détection des bots en temps réel de DataDome à travers différentes approches, notamment la détection comportementale, l'empreinte digitale HTTP/navigateur, la détection des proxys/IP infectés et la détection des fermes à CAPTCHA. Antoine est titulaire d'un doctorat en informatique avec une spécialisation dans l'empreinte digitale des navigateurs.