L’état des bots en 2024 : quels changements dans l’écosystème des bots ?
L’écosystème des bots en 2024 est bien plus avancé que l’année dernière, avec des mises à jour de Headless Chrome rendant les navigateurs automatisés plus difficiles à détecter, une utilisation massive de proxys avec des IP réputées, et des avancées en IA qui rendent les CAPTCHA traditionnels faciles à résoudre automatiquement.
Puppeteer Extra Stealth est mort ; vive les frameworks anti-CDP bot
En matière de développement de bots, il est difficile de ne pas mentionner Puppeteer Extra Stealth, l’un des frameworks anti-détection de bots les plus populaires. Il offre aux développeurs de bots plusieurs fonctionnalités pour masquer l’empreinte digitale d’un bot et est même intégré dans des fermes à CAPTCHA. En juin 2024, il comptait 6 200 étoiles sur Github.

Récemment, la popularité de Puppeteer Extra Stealth a commencé à décliner. Aucun changement ou mise à jour significative du code n’a été apporté au cours de l’année écoulée, et le principal responsable du code a lancé son propre produit de bots payant. Mais ce n’est pas la seule raison de cette baisse de popularité. En effet, la dernière mise à jour de Headless Chrome rend les navigateurs automatisés plus difficiles à détecter par défaut.
Avec seulement quelques modifications, telles que page.setUserAgent() pour changer le user-agent, et l’utilisation de l’argument --disable-blink-features=AutomationControlled pour se débarrasser de navigator.webdriver, il reste très peu d’incohérences dans l’empreinte digitale de Headless Chrome.
Le manque de maintenance de Puppeteer Extra Stealth, combiné avec cette mise à jour majeure de Headless Chrome et les nouvelles techniques de détection CDP, a conduit la communauté des développeurs de bots à créer de nouveaux frameworks anti-détection de bots. Ces nouveaux frameworks incluent nodriver (annoncé comme le successeur de undetected chromedriver), et Selenium driverless. Pour éviter d’être détectés, ces frameworks ont décidé de ne pas s’appuyer sur Chromedriver et Selenium. À la place, ils mettent en œuvre toutes les fonctions habituelles d’automatisation des bots en utilisant des commandes CDP de bas niveau qui n’utilisent pas la fonction Runtime.enable.
Bien que ces frameworks soient relativement récents, ils sont déjà populaires. Par exemple, en juin 2024, nodriver comptait déjà 590 étoiles.

Mais il n’y a pas que les navigateurs (Headless) automatisés
Il est devenu plus facile de falsifier toutes sortes de signaux, y compris les signaux de bas niveau qui étaient autrefois difficiles à falsifier de manière cohérente.
Par exemple, la bibliothèque Noble TLS permet aux développeurs de bots de remplacer leur client HTTP Python habituel par un client HTTP avec une empreinte TLS cohérente.
Les développeurs n’ont qu’à fournir un user-agent, par exemple Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 pour Chrome 125 sur MacOS, et la bibliothèque se charge de mettre à jour l’empreinte TLS en conséquence. Cela est particulièrement utile pour les attaquants afin de contourner les mécanismes de détection uniquement côté serveur et les signatures ou règles statiques mises en œuvre dans les WAF.

Outre la falsification des signaux d’empreinte, plusieurs bibliothèques – telles que Ghost Cursor – aident les bots à générer des mouvements de souris plus réalistes et semblables à ceux des humains.

Au lieu de déplacer la souris en ligne droite, elle aide les utilisateurs à générer des mouvements de souris avec une trajectoire moins suspecte en utilisant des courbes de Bézier.

Ghost Cursor est également compatible avec Puppeteer, l’un des frameworks d’automatisation de bots les plus populaires. Ainsi, les développeurs de bots n’ont pas besoin de modifier tout leur code pour bénéficier de cette bibliothèque.

Les attaquants ont accès à des millions d’IP (résidentielles)
Grâce à des services de proxy résidentiels tels que Brightdata, Smartproxy et Oxylabs, les développeurs de bots ont accès à des millions d’adresses IP résidentielles situées partout dans le monde :

Cela permet aux développeurs de bots de :
- Distribuer leurs attaques sur des milliers d’IP, ce qui les aide à contourner les techniques de limitation de taux basées sur les IP.
- Avoir accès à des IP appartenant à des FAI bien connus tels que Comcast et AT&T, ce qui leur permet de contourner toutes les formes de détection visant à bloquer les IP des data centers.
- Avoir accès à des milliers d’IP situées dans le même pays que le site web ou l’application mobile cible. Ainsi, ils peuvent contourner toutes les techniques de blocage géographique.
Bots en tant que service : Les réseaux proxy facilitent la vie des développeurs de bots
Récemment, la plupart des réseaux de proxy populaires ont commencé à fournir des bots de scraping en tant que service. Les fournisseurs de Bots as a Service (BaaS) permettent aux utilisateurs de faire fonctionner des bots à grande échelle sans nécessiter de connaissances en matière de développement de bots ou de rétro-ingénierie.
Un BaaS est simplement une API REST où l’utilisateur fournit l’URL qu’il souhaite scraper. Le modèle économique est simple : les utilisateurs ne paient que lorsque leur requête réussit. Ainsi, tant que la requête est bloquée, l’utilisateur ne paie rien. Il n’a pas à s’inquiéter de la bande passante du proxy, qui peut s’avérer coûteuse lorsque l’on utilise des proxys résidentiels.
Si la requête est bloquée, le BaaS effectuera plusieurs requêtes en parallèle pour tenter de contourner la protection. Par exemple, il peut :
- changer de user-agent ;
- usurper de nouveaux en-têtes HTTP ;
- changer l’adresse IP en utilisant de nouveaux proxys ;
- falsifier un CAPTCHA.
Si à un moment donné, le BaaS parvient à obtenir le contenu sans être bloqué, il le renverra à l’utilisateur. Celui-ci ne paie que pour un seul appel API, même si le BaaS a dû effectuer des dizaines de requêtes pour obtenir le contenu de la page.



Les CAPTCHA traditionnels sont définitivement dépassés
Des chercheurs en sécurité ont démontré que les CAPTCHAs traditionnels, qui reposent principalement sur la difficulté du défi, sont devenus faciles à résoudre grâce aux techniques de reconnaissance audio et d’image.


L’IA a fait évoluer les services des fermes de CAPTCHA
Dans le passé, les services de fermes à CAPTCHA comme 2captcha s’appuyaient sur des travailleurs humains des pays en développement qui résolvaient les CAPTCHA à la place des bots. Avec les progrès récents des techniques de reconnaissance audio et d’image, de nouveaux services comme CapSolver ont pu réduire à la fois le coût et le prix de résolution des CAPTCHA.
En 2018, cela coûtait environ 3 $ de résoudre 1 000 défis reCAPTCHA v2, et environ 45 secondes par reCAPTCHA. Aujourd’hui, les services de résolution de CAPTCHA peuvent résoudre 1 000 défis reCAPTCHA v2 pour 0,80 $ et avec cinq fois moins de temps passé par défi.

Comment se protéger contre les bots sophistiqués en 2024 ?
Pour résumer l’état du développement des bots cette année :
- Les bots ont accès à des outils leur permettant d’avoir une empreinte presque parfaite. Ils peuvent facilement falsifier des signaux de bas niveau, tels que les empreintes TLS.
- Les bots ont accès à des millions d’IP de proxys résidentiels situés partout dans le monde. Ces proxys résidentiels leur permettent de contourner les mécanismes de détection traditionnels tels que la limitation de taux basée sur les IP et le géoblocage.
- Les CAPTCHA traditionnels, dont la sécurité repose uniquement sur la difficulté du défi, sont devenus inefficaces contre les bots.
- Les derniers progrès de l’IA en techniques de reconnaissance audio et image réduisent significativement le temps et le coût monétaire pour les bots pour résoudre les CAPTCHA.
Quelles contre-mesures puis-je utiliser pour me protéger contre les bots sophistiqués ?
Selon le type d’attaques menées par les bots, vous pouvez mettre en œuvre certaines contre-mesures par vous-même. Par exemple, vous pourriez inciter vos utilisateurs à activer l’authentification multifactorielle en cas d’attaques de type credential stuffing. Bien que cela ne soit pas une solution miracle, cela élève certainement la barre pour les attaquants.
En ce qui concerne la création de faux comptes, vous pouvez essayer de détecter les emails jetables ou d’imposer une vérification par numéro de téléphone. Cependant, faites attention à la vérification par numéro de téléphone, qui peut entraîner des frais SMS significatifs si les attaquants effectuent un grand nombre d’inscriptions.
En général, il est crucial d’adopter une approche multicouche contre les menaces sophistiquées. En effet, puisqu’il n’a jamais été aussi facile pour un attaquant de mentir et de falsifier son empreinte, son comportement et ses IP, votre détection de bots doit être capable de tirer parti de :
- tous les signaux et techniques de détection disponibles, allant des défis avancés de fingerprinting de navigateur et de l’analyse comportementale basée sur l’apprentissage automatique à la détection sophistiquée des proxies résidentiels ;
- analyser tous ces signaux en temps réel pour s’assurer que les requêtes des bots sont bloquées aussi rapidement que possible, avant qu’elles ne puissent causer des dommages à votre infrastructure.
En outre, vous devrez également prendre en compte l’efficacité de la détection des bots contre les attaques distribuées. Puisque les attaquants ont accès à des millions d’adresses IP, il est important d’avoir des approches qui peuvent bloquer les bots dès la première requête, même lorsqu’ils utilisent des centaines de milliers d’IP pour distribuer leur attaque. Chez DataDome, nous avons développé plusieurs modèles d’apprentissage automatique spécialisés pour ce cas d’utilisation, y compris une nouvelle approche que nous avons présentée à Black Hat Asia.
Enfin, l’un des points les plus importants en matière de sécurité est l’expérience utilisateur (UX). Votre détection de bots doit protéger votre UX : la sécurité ne doit pas se faire au détriment de celle-ci. Vous ne voulez pas déranger tous vos utilisateurs humains avec un CAPTCHA chaque fois qu’ils vont dépenser leur argent. C’est pourquoi DataDome analyse des milliers de signaux en arrière-plan, pour chaque requête, et ne défie que les requêtes qui ont été signalées comme malveillantes par notre moteur de détection.
Pour découvrir comment la plateforme DataDome peut protéger votre entreprise contre les bots malveillants et la fraude en ligne, essayez-la gratuitement ou réservez une démonstration dès aujourd’hui.