Comment DataDome a protégé un site web américain de mode de luxe contre les scrapers agressifs
Dans cet article, nous présentons les détails d’une attaque de scraping agressive qui a ciblé un site web américain de mode de luxe. À la fin de l’attaque, qui n’a duré qu’une heure, plus de 3,5 millions de requêtes malveillantes provenant de scrapers avaient été stoppées par la protection de DataDome.
Principaux indicateurs
Pendant une heure, du 11 avril de 6h10 à 7h10 CEST, les pages produits d’un site web de mode de luxe ont été ciblées par une attaque de scraping.
Vue d’ensemble de l’attaque de scraping
Le graphique ci-dessous (Image 1) représente le trafic des bots détecté pendant l’attaque d’une heure par notre moteur de détection. L’attaque a commencé de manière très intense, puis a progressivement perdu de son ampleur au cours de l’heure, à mesure que les tentatives étaient repoussées. Au début de l’attaque, entre 85 000 et 95 000 requêtes étaient effectuées par minute ; à la fin, ce nombre était plus proche de 50 000.

Image 1 : nombre de tentatives de scraping gérées par le moteur de détection des bots de DataDome au cours de l’attaque
Répartition de l’attaque
Au cours de l’attaque, l’attaquant a utilisé de nombreux user-agents différents pour tenter d’éviter la détection. L’image 2 représente le nombre de tentatives de scraping effectuées par les user-agents utilisés par l’attaquant, chaque minute.

Image 2 : nombre de user-agents utilisés pour effectuer des tentatives de scraping au fil du temps pendant l’attaque
Indicateurs de compromission (IoC) de l’attaque
L’attaque a été distribuée avec 125 000 adresses IP différentes, et l’attaquant a utilisé de nombreux paramètres pour échapper à la détection :
- l’attaquant a utilisé plusieurs user-agents – environ 2 800 distincts – basés sur différentes versions de Chrome, Firefox et Safari ;
- les bots ont utilisé différentes valeurs dans les en-têtes (comme pour accept-language, accept-encoding, etc.).
- L’attaquant a effectué plusieurs requêtes par adresse IP, toutes sur des pages produits.
Cependant, l’attaquant n’a inclus le cookie DataDome dans aucune requête, ce qui signifie que le JavaScript n’a pas été exécuté.
Comment l’attaque a-t-elle été bloquée ?
Grâce à notre approche de détection multi-couches, l’attaque a été bloquée en utilisant différentes catégories indépendantes de signaux. Ainsi, si l’attaquant avait modifié une partie de son bot (par exemple, l’empreinte digitale ou le comportement), il aurait probablement été détecté en utilisant d’autres signaux et approches.
Cette attaque était distribuée et agressive, mais l’activité a été bloquée grâce aux comportements anormaux observés pour chaque adresse IP :
- Nombre de user-agents : le bot a effectué des requêtes avec plusieurs user-agents par adresse IP, ce qui n’est pas le comportement probable d’un utilisateur humain.
- Absence de cookie DataDome : l’attaquant a effectué plusieurs requêtes sans le cookie DataDome sur les pages produits. Les utilisateurs humains auraient eu ce cookie.
Conclusion
Les attaques de scraping – en particulier celles de ce type, où des millions de requêtes affluent vers votre site web en un court laps de temps – provoquent des drains massifs sur les ressources de votre serveur et comportent le risque de vol de contenu ou de données pouvant avoir des impacts négatifs sur votre entreprise. Ces attaques deviennent de plus en plus sophistiquées à mesure que les développeurs de bots disposent de plus d’outils, et les techniques de base ne suffisent plus à les arrêter.
Le puissant moteur de détection multi-couches de DataDome, basé sur l’apprentissage automatique, analyse autant de signaux que possible, des empreintes digitales à la réputation, pour détecter même les bots les plus sophistiqués. Nos défis supplémentaires, DataDome CAPTCHA et Device Check, ajoutent une couche de sécurité supplémentaire tout en préservant l’expérience client. Suivre l’évolution des empreintes digitales des bots, telles que l’utilisation de proxys, est essentiel pour combattre les principales menaces actuelles – et DataDome peut s’en charger.
Pour mieux comprendre comment DataDome peut stopper les attaques de scraping, réservez une démonstration dès aujourd’hui.