DataDome

Scraping : comment protéger votre site Web contre les robots scrapers et crawlers

Table des matières

Le scraping est une menace automatisée qui permet aux cybercriminels de collecter, à l’aide de robots, des données de votre site Web à des fins malveillantes, telles que la revente de votre contenu, la sous-cotation de vos prix, etc.

Dans cet article, nous examinerons comment les attaques de scraping sont utilisées pour contre les sites e-commerce, et qui se cache derrière ces attaques de Web scraping. Nous verrons étudierons les motivations des attaques, le déroulement les attaques de scraping, les tactiques de défense contre le scraping, et la façon dont DataDome vous protège contre le scraping et toutes les autres menaces automatisés OWASP.

Dans cet article :

Qu’est-ce que les attaques de scraping web ?

Le scraping (OAT-011) est une menace automatisée qui utilise des bots, des outils de scraping web et/ou des web crawlers pour extraire des données ou des résultats d’une application web, évaluer des chemins navigables, lire des valeurs de paramètres, effectuer de la rétro-ingénierie, obtenir des informations sur les opérations d’une application, et plus encore. Avec le scraping web, vos concurrents peuvent répliquer l’intégralité de votre site Web, y compris le code HTML et le stockage de la base de données, et le sauvegarder localement pour analyser vos données. Pour prévenir ce type d’attaque et les conséquences négatives qui en découlent, il convient d’utiliser une solution de prévention du scraping web.

Petite histoire du scraping web

Le premier bot de scraping web non malveillant a été lancé en 1993. Baptisé World Wide Web Wanderer, il mesurait la taille du World Wide Web nouvellement formé.

L’un des premiers bots de scraping web potentiellement malveillants pour le commerce électronique, appelé Bidder’s Edge, a été dévoilé au début des années 2000 pour agréger les prix des concurrents parmi les sites de vente aux enchères.

Dans un cas juridique particulier, eBay vs. Bidder’s Edge, le tribunal a jugé l’acte de scraping web approprié, mais la surcharge sur les serveurs d’eBay, causée par les bots de scraping extrayant tant de données, a été identifiée comme une cause de perte de revenus.

Aujourd’hui, le scraping web est toujours une zone juridique grise. Au lieu d’attendre une solution légale au problème, les entreprises en ligne devraient mettre en œuvre des mesures techniques efficaces de protection contre les bots et de détection des bots de scraping.

Le scraping web en chiffres

On estime que les entreprises de commerce électronique perdent 2 % de leurs revenus en ligne à cause du scraping web. Avec des ventes mondiales de e-commerce de 2021 s’élevant à environ 5,2 trillions de dollars, cela représente plus de 100 milliards de dollars.

 

Qui utilise le scraping et pourquoi ?

Votre contenu vaut de l’or, et c’est la raison pour laquelle les visiteurs viennent sur votre site Web. Les attaquants veulent votre or, et ils utilisent les attaques de bots scrapers pour recueillir et exploiter votre contenu Web, pour republier du contenu sans effort de production, ou pour faire baisser vos prix automatiquement, par exemple.

Les commerçants en ligne emploient souvent des Web scrapers professionnels ou utilisent une technologie de Web scraping pour recueillir des données de veille concurrentielle afin d’élaborer leurs futures stratégies de prix de vente au détail et leurs catalogues de produits.

Les auteurs de la menace font de leur mieux pour déguiser leurs bots scrapers illégaux en robots légitimes, comme les omniprésents Googlebots. DataDome identifie plus d’un million de visites par jour à partir de faux Googlebots sur tous les sites Web des clients.

En savoir plus : TheFork (TripAdvisor) bloque le scraping sur ses applications

Stratégies de défense contre le scraping.

Les attaques de scraping comportent trois phases principales :

  1. Le ciblage de l’adresse URL et des valeurs des paramètres. Les Web scrapers identifient leurs cibles et réduisent la détection des attaques en créant de faux comptes utilisateur, en dissimulant leurs robots scrapers malveillants pour qu’ils ressemblent à des bots légitimes, ou encore en masquant leurs adresses IP sources.
  2. L’exécution des processus de scraping. L’armée de robots scrapers s’exécute sur le site Web, l’application mobile ou l’API ciblée. Le niveau de trafic des robots, souvent intense, surchargera généralement les serveurs et entraînera des performances médiocres du site Web, voire des périodes d’indisponibilité.
  3. L’extraction du contenu et des données. Les scrapers extraient le contenu exclusif et les enregistrements des bases de données de la cible pour les stocker dans leur base de données, les analyser ultérieurement et en faire une utilisation abusive.
web scraping protection
Figure 1: OAT-011 indicative diagram. Source: OWASP.

Comment prévenir le scraping web

Les stratégies de protection anti-crawler comprennent :

  • La surveillance des nouveaux comptes utilisateurs ou de ceux existants avec des niveaux élevés d’activité et sans achats.
  • La détection des volumes anormalement élevés de vues de produits comme signe d’activité non humaine.
  • Le suivi de l’activité des concurrents pour détecter des signes de correspondance des prix et des catalogues de produits.
  • Le fait de faire respecter les termes et conditions du site qui empêchent le scraping web malveillant.
  • L’utilisation d’un logiciel de prévention des bots (comme DataDome) avec une analyse comportementale approfondie pour identifier les mauvais bots et prévenir le scraping web.

Les propriétaires de sites utilisent couramment les fichiers “robots.txt” pour communiquer leurs intentions en matière de scraping. Les fichiers robots.txt permettent aux bots de scraping de parcourir certaines pages ; cependant, les bots malveillants ne se préoccupent pas des fichiers robots.txt (qui servent de panneau “interdiction de passer”).

Un accord clair et contraignant sur les conditions d’utilisation, qui dicte les activités autorisées et non autorisées, peut potentiellement aider en cas de litige. Consultez notre modèle de termes et conditions pour une formulation anti-scraping précise et exécutoire.

Les scrapeurs feront tout leur possible pour déguiser les bots de scraping en utilisateurs authentiques. La capacité de scraper des contenus disponibles publiquement, d’enregistrer de faux comptes utilisateurs pour des bots malveillants, et d’envoyer des requêtes HTTP valides depuis des identifiants de dispositifs et des adresses IP générés aléatoirement, rendent les mesures de sécurité traditionnelles basées sur des règles, telles que les WAFs, inefficaces contre les attaques de scraping sophistiquées.

Comment DataDome protège contre le scraping de site Web et de contenu

Une bonne solution de détection de bots ou de protection anti-crawler sera capable d’identifier en temps réel le comportement des visiteurs qui montre des signes de scraping web, et de bloquer automatiquement les bots malveillants avant que les attaques de scraping ne se déroulent, tout en maintenant une expérience fluide pour les véritables utilisateurs humains. Pour identifier correctement le trafic frauduleux et bloquer les outils de scraping web, une solution de protection contre les bots doit être capable d’analyser à la fois les données techniques et comportementales.

Des bots attaquaient notre site Web par le biais du scraping afin de voler notre contenu et de le revendre à des tiers. Depuis que nous avons activé la protection anti-bot de DataDome, les bots scrapers sont bloqués et ne peuvent pas accéder au site. Nos données sont sécurisées et les robots ne peuvent plus les extraire. Nous sommes également en mesure de surveiller les journaux techniques afin de détecter les comportements anormaux tels que les adresses IP agressives ou les requêtes inhabituelles.
Directeur du département technique, Entreprise (1001-5000 employés)

DataDome utilise un moteur de détection de bots à deux niveaux pour aider les CTO et les RSSI à protéger leurs sites Web, applications mobiles et API contre les bots de scraping malveillants et bloquer les outils de scraping web. Il compare chaque visite de site avec une vaste base de données de modèles en mémoire et utilise un mélange d’IA et d’apprentissage automatique pour décider en moins de 2 millisecondes s’il doit accorder l’accès à vos pages ou non.

DataDome est la seule solution de protection contre les bots et de protection anti-crawler qui est fournie en tant que service. Elle se déploie en quelques minutes sur n’importe quelle architecture web, est inégalée en vitesse et en précision de détection des attaques par force brute, et fonctionne en pilote automatique. Vous recevrez des notifications en temps réel chaque fois que votre site subit une attaque de scraping, mais aucune intervention n’est requise. Une fois que vous avez configuré une liste d’autorisation de bots partenaires de confiance, DataDome prendra en charge tout le trafic indésirable et arrêtera les bots malveillants de parcourir votre site afin de prévenir le crawling et le scraping du site Web.

Voulez-vous savoir si des bots de scraping sont sur votre site ? Vous pouvez tester votre site aujourd’hui. (C’est facile et gratuit.)