DataDome

Comment DataDome a bloqué une attaque de scraping de 80M de requêtes visant une plateforme d’avis de premier plan

Table des matières
Dernière mise à jour : 31 Mar, 2026
|
min

Entre le 3 et le 16 mars 2026, une plateforme d’avis professionnels de premier plan a été la cible d’une opération de scraping automatisée sophistiquée. Les attaquants ont déployé 855 000 adresses IP uniques pour générer 80 millions de requêtes malveillantes sur 13 jours, tentant de récolter des données commerciales propriétaires à grande échelle. 

Le moteur de détection IA multi-couches de DataDome a rapidement détecté l’attaque, bloquant la campagne tout au long de l’assaut de près de deux semaines, sans friction pour les millions d’utilisateurs quotidiens légitimes de la plateforme.

Indicateurs clés de l’attaque de scraping

8 2 2 4 1
8
0 6 9 5 5
0
6 3 7 1
m 1 7 5 2
m
i 7 2 4 8
i
l 9 9 3 4
l
l 3 5 1 8
l
i 4 0 8 4
i
o 1 7 2 3
o
n 8 6 8 9
n
s 9 2 3 9
s
de requêtes malveillantes
8 6 0 7 8
8
5 1 1 7 5
5
5 6 4 6 7
5
5 4 3 7
0 2 6 2 9
0
0 8 4 7 1
0
0 2 5 0 7
0
IP uniques impliquées
1 4 9 2 5
1
, 1 0 9 0
,
3 7 4 9 0
3
5 2 3 2 0
5
5 7 2 1
m 9 8 0 9
m
i 8 5 3 1
i
l 5 3 1 0
l
l 6 0 9 7
l
i 6 5 2 8
i
o 7 7 8 9
o
n 2 3 0 2
n
de requêtes bloquées par période de 2 heures au pic
1 5 3 9 3
1
3 2 4 9 1
3
3 7 8 7
j 3 8 9 8
j
o 2 0 2 5
o
u 4 1 4 6
u
r 7 8 0 7
r
s 4 7 8 4
s
durée de l'attaque

Aperçu de l’attaque

Cette attaque de scraping présentait un schéma distinct en trois phases, comme on le voit sur le graphique ci-dessous (image 1). Elle a commencé le 3 mars avec un pic initial le 5 mars, s’est transformée en une attaque soutenue à haut volume du 5 au 9 mars, culminant à 1,35 million de requêtes bloquées toutes les deux heures, puis a progressivement diminué du 9 au 15 mars avant de s’arrêter brusquement. 

 

Graph of the number of malicious requests blocked per 2-hour window

image 1: nombre de requêtes malveillantes bloquées par tranche de 2 heures

Ce schéma suggère que les attaquants ont testé les seuils de détection tôt, ont atteint la capacité maximale au milieu de la campagne, puis ont maintenu cette pression de manière constante pendant plusieurs jours.

À cette échelle, même un succès partiel aurait permis d’extraire des millions d’annonces commerciales, d’avis d’utilisateurs et de données de notation valant des sommes substantielles sur les marchés secondaires, ces données représentant une valeur commerciale significative pour les concurrents de la plateforme d’avis.

Infrastructure et distribution de l’attaque

L’attaque a exploité une infrastructure de proxy géographiquement diversifiée couvrant l’hébergement commercial et les réseaux à large bande résidentiels.

Cinq systèmes autonomes représentaient la totalité du trafic malveillant :

  • AS13213: THG Hosting Limited (54.25%), un fournisseur d’hébergement basé au Royaume-Uni ;
  • AS262287: Latitude.sh LTDA (17.18%), un fournisseur brésilien d’hébergement et de centre de données, également connu sous le nom de Maxihost ;
  • AS20001: Charter Communications Inc. (13.54%), un important fournisseur américain de câble/broadband ISP (Spectrum) ;
  • AS396356: Latitude.sh (10.34%), opérations américaines de Latitude.sh ;
  • AS11404: Wave Broadband (4.69%), un fournisseur américain de services de câble et d’internet.

Bien que les deux principaux ASN soient enregistrés au Royaume-Uni et au Brésil, la grande majorité de leur infrastructure réseau active et de leurs allocations IP sont physiquement situées aux États-Unis.

Ce mélange d’infrastructures est délibéré. Les fournisseurs d’hébergement offrent vitesse et échelle, tandis que les FAI résidentiels fournissent des adresses IP qui semblent légitimes et sont plus difficiles à bloquer sans risquer des faux positifs contre de vrais utilisateurs.

Comment l’attaque a-t-elle été détectée et bloquée ?

Le moteur de détection basé sur l’intention de DataDome a bloqué les 80 millions de requêtes malveillantes tout au long de la campagne de 13 jours en identifiant plusieurs marqueurs de menace indiquant une activité de scraping automatisée malveillante plutôt qu’un trafic utilisateur légitime. 

Principaux marqueurs de menace

Trois signaux de détection principaux ont fourni les preuves les plus solides d’une activité automatisée malveillante: 

  • Profil de navigateur incohérent : marqueur de menace prédominant de l’attaque, les attaquants ont tenté d’usurper l’identité de navigateurs légitimes mais n’ont pas réussi à maintenir des empreintes de navigateur cohérentes entre les sessions.
  • Empreintes côté serveur : une partie substantielle du trafic bloqué présentait des caractéristiques côté serveur incompatibles avec les environnements clients revendiqués, ce qui suggère l’utilisation de navigateurs sans tête ou de frameworks d’automatisation.
  • Anomalies de l’appareil et de la session : des attributs d’appareil incohérents et des séquences de session improbables indiquent que l’attaque a exploité une infrastructure distribuée avec une gestion de session médiocre.

Marqueurs de menace secondaires

Plusieurs indicateurs secondaires ont renforcé la nature automatisée de la campagne :

  • Usurpation d’identité : les incohérences d’agent utilisateur et de géolocalisation suggèrent que les attaquants ont tenté d’échapper à la détection par manipulation d’en-têtes et distribution géographique.
  • Infrastructure de proxy : une utilisation significative de proxys d’anonymat indique des tentatives pour masquer les origines de l’attaque.
  • Mesures anti-détection : en-têtes et cookies falsifiés ont démontré les efforts actifs des attaquants pour contourner les contrôles de sécurité.
  • Capacités de résolution de défis : la présence de résolution de défis automatisée a indiqué une opération modérément sophistiquée prête à investir dans des capacités d’évasion.

Dans l’ensemble, l’attaque a démontré des caractéristiques intermédiaires à avancées, y compris une infrastructure distribuée, de multiples techniques d’évasion et des capacités de résolution de défis. 

Cependant, la prévalence des échecs de cohérence à travers les attributs de navigateur, d’appareil et de session laisse penser que les attaquants ont privilégié le volume à la discrétion, s’appuyant probablement sur des outils d’automatisation à l’apparence légitime mais mal implémentés.

Protégez votre site web contre les attaques de scraping avec DataDome

Cette attaque démontre à quoi ressemblent les opérations de scraping modernes: 855 000 IP à travers des réseaux d’hébergement et résidentiels, techniques d’évasion intermédiaires, et 13 jours de pression soutenue. Les défenses traditionnelles comme le blocage d’IP et la limitation de débit ne peuvent pas suivre.

Par exemple, avant DataDome, Coop, une grande marque suisse de commerce électronique, a fait face à une charge lourde sur ses serveurs en raison de bots de scraping qui ralentissaient considérablement les temps de chargement des pages : 

« Nos équipes informatiques étaient accablées par la tâche manuelle d’analyser le trafic pour identifier et bloquer les mauvaises adresses IP, ce qui était chronophage et inefficace, car le blocage d’une IP ne fournissait qu’un soulagement temporaire avant que les bots ne réapparaissent avec de nouvelles adresses », a déclaré Tobias Schläpfer, Développeur d’applications Web & Responsable de la protection contre les bots chez Coop. 

Après avoir ajouté DataDome à sa pile technologique, Coop a constaté des améliorations immédiates : 25% du trafic, dû à l’activité des bots malveillants, a disparu, permettant aux pages web de se charger plus rapidement et améliorant les performances SEO du site.

Le moteur de détection de DataDome analyse 5 000 milliards de signaux quotidiens à travers des milliers de modèles d’IA, arrêtant le trafic malveillant de bots et d’agents IA à la périphérie pour empêcher les attaquants de causer des dommages à votre entreprise. 

Si votre plateforme fait face à des menaces de scraping similaires, réservez une démo pour voir comment DataDome peut protéger vos sites web, applications et API sans ajouter de friction pour les utilisateurs légitimes.