Les évolutions les plus effrayantes dans le paysage de la protection contre les bots en 2023

Scraping

L’année dernière, nous avons parlé des cinq cyberattaques les plus effrayantes réduites par la protection contre les bots et la fraude en ligne DataDome. Cette année, en plus de contrer les cyberattaques, nous avons gardé un œil attentif sur les changements dans le domaine de la cybersécurité, qui pourraient rendre les attaques encore plus faciles à perpétrer. Voici les trois évolutions les plus inquiétantes dans le paysage des bots en 2023 :

Les scrapers sophistiqués : même les bots de scraping les plus simples utilisent des techniques sophistiquées telles que des proxys résidentiels distribués et des empreintes de bot aléatoires. Cela les rend plus difficiles à suivre et à arrêter, à moins que les mesures d’atténuation ne soient elles aussi sophistiquées.
Les bots/plugins ChatGPT super sournois : les plugins tiers pour des modèles de langage comme ChatGPT n’utilisent pas l’user-agent de ChatGPT. Cela signifie qu’ils peuvent contourner les règles de blocage des sites web qui ne veulent pas que leur contenu soit scrappé par ChatGPT, et collecter vos données malgré tout.
Les CAPTCHA traditionnels faciles à tromper : les CAPTCHA traditionnels sont totalement inefficaces pour arrêter les bots sophistiqués d’aujourd’hui, car les bots sont devenus experts dans la falsification des réponses. Pour arrêter le trafic des bots malveillants sans impacter l’expérience utilisateur, nous avons besoin de solutions bien meilleures.

1. Les scrapers sophistiqués

Anatomie d’une attaque de scraping distribuée

Les scrapers sophistiqués sont la nouvelle norme. Les bots de scraping utilisent des techniques avancées pour contourner les mesures traditionnelles de protection contre les bots.

Les entreprises de toutes tailles sont confrontées à des bots de scraping en masse. Dans un exemple récent, X (anciennement connu sous le nom de Twitter) ne permet plus aux utilisateurs non enregistrés de parcourir les tweets dans le but de limiter les effets du scraping de données. Le propriétaire de X, Elon Musk, a affirmé que les données de X étaient « pillées » par des scrapers au point de dégrader le service pour tout le monde. Les mesures anti-scraping simples habituellement employées par les entreprises – comme la limitation de taux, le géoblocage et le blocage basé sur les signatures – n’étaient clairement pas suffisantes pour endiguer le flot de bots scrapant depuis X, ce qui a conduit à cette décision.

Nous avons vu de nos propres yeux des attaques de scraping sophistiquées. Sur une semaine, cet attaquant a fait 1,1 M de requêtes de recherche dans l’espoir de scraper les données d’un de nos clients – et il a distribué ces requêtes sur plus de 45 000 adresses IP différentes. Chaque jour, chaque adresse IP faisait moins de 10 requêtes, ce qui passerait sous le radar de la plupart des logiciels de détection de bots standards. L’attaquant a également délibérément utilisé des URL malformées pour essayer d’éviter la détection tout en recueillant le contenu qu’il voulait.

Graphique d'Attaque de Scraping Distribué

Comme l’attaque visait un site web immobilier français, les pirates ont utilisé des adresses IP situées en France. Le français a été systématiquement choisi comme langue d’acceptation, des empreintes de bot aléatoires et des en-têtes HTTP correspondant aux ressources demandées.

En raison de la sophistication de l’attaque, de nombreuses techniques traditionnelles en interne ou des WAF n’auraient pas détecté l’attaquant :

Le blocage basé sur les signatures a été rendu inutile par l’évolution des empreintes côté serveur.
Le géoblocage n’aurait pas aidé car les bots utilisaient des IP françaises.
Le blocage des IP de data centers n’aurait pas arrêté les attaques car ils utilisaient des proxys résidentiels.
La limitation de taux basée sur l’IP n’aurait pas été déclenchée car chaque IP faisait moins de 10 requêtes par jour.
Le blocage avec une langue utilisateur non correspondante n’aurait pas aidé car l’attaquant adaptait la langue utilisateur à la localisation attaquée.

Vous pourriez penser que ce type d’attaquants intelligents ne ciblent pas votre site web, mais les techniques sophistiquées deviennent plus courantes chaque jour. Les packages open-source et les bots de scraping en tant que service tendent à fournir ces fonctionnalités à faible coût, pour rendre l’assaut des bots encore plus redoutable.

2.Les bots/plugins ChatGPT super sournois :

Comment fonctionnent les plugins ChatGPT & que signifient-ils pour votre entreprise ?

Les plugins tiers ChatGPT contournent les règles de blocage destinées à arrêter le scraping associé à ChatGPT.

La plupart des gens qui utilisent Internet ont entendu parler ou utilisé ChatGPT ou un autre grand modèle de langage (LLM) comme Bard pour accéder à des informations recueillies au fil du temps en ligne. Ces personnes savent également que la capacité de ChatGPT à fournir des informations en temps réel est limitée, d’où l’intérêt des plugins tiers. Les plugins connectent les LLM à des outils et sites web externes, leur permettant d’accéder à des données sur le web (publiques ou privées), de récupérer des informations en temps réel, et même d’aider les utilisateurs à accomplir des actions telles que commander des courses. WebPilot et LinkReader travaillent déjà avec ChatGPT pour rassembler des informations à jour d’Internet en réponse à des requêtes.

Alors, quel est le problème ? Il est double :

De nombreuses entreprises ne peuvent pas se soustraire facilement à la collecte de données. Elles doivent bloquer l’user-agent du plugin listé dans la documentation de ChatGPT, ce qui mène au deuxième problème.
Certains plugins ChatGPT mentent sur leur user-agent afin de contourner les règles de blocage pour l’user-agent standard de ChatGPT.

Voici un diagramme des processus qui se déroulent en coulisse lorsqu’une personne utilise un « Live Sport Plugin » (actuellement fictif) avec ChatGPT pour obtenir les dernières nouvelles d’un événement sportif.

Chronologie des Plugins ChatGPT

Lorsque les requêtes sont faites directement depuis le serveur hébergeant l’API du plugin, il n’y a aucune contrainte sur l’user-agent. Nous avons testé cela en analysant WebPilot et LinkReader, leur demandant de résumer des informations d’une de nos pages web puis en examinant la requête faite par le plugin. La requête ne contenait pas l’user-agent du plugin ChatGPT listé dans la documentation d’OpenAI. Au lieu de cela, nous avons trouvé que :

La requête contenait cet indice client utilisateur : HeadlessChrome";v="113", "Chromium";v="113", "Not-A.Brand";v="24".
Il manquait l’en-tête accept-language normalement présent sur Chrome.
Le navigateur avait navigator.webdriver = true.
Il avait la résolution d’écran par défaut de Chrome en mode headless : 600×800 px.

En fin de compte, lorsque les utilisateurs interagissent avec votre site web via les plugins ChatGPT, ils ne verront aucune des publicités ou CTA sur votre site, et vous verrez probablement une baisse du trafic. Vous pourriez également constater que les utilisateurs ne vous paieront pas pour des fonctionnalités premium qui peuvent être reproduites avec des plugins ChatGPT.

De plus, il est beaucoup plus difficile de bloquer les demandes de plugins lorsque ceux-ci n’annoncent pas leur présence. Vous pouvez facilement bloquer les requêtes quand un user-agent contient la sous-chaîne ChatGPT-User, ce qui permet d’empêcher les web scrapers de ChatGPT de récupérer votre contenu. Cependant, de nombreux plugins tiers ChatGPT ne déclarent pas leur identité. Pour ceux-ci, vous aurez besoin d’utiliser des techniques de détection de bots avancées pour voir si une requête provient d’un bot.

3. Des CAPTCHA traditionnels faciles à tromper

Comment avoir confiance en CAPTCHA ? Les résultats du DataDome CAPTCHA s’avèrent prometteurs

Les CAPTCHA traditionnels ne sont plus efficaces pour arrêter le trafic des bots, et de nouvelles solutions intégrées à la mitigation des bots sont nécessaires.

Les CAPTCHA sont utilisés pour protéger contre les bots sur Internet depuis des décennies, mais les CAPTCHA traditionnels reposent uniquement sur la complexité du défi lui-même pour sécuriser une entreprise ou un utilisateur. Par conséquent, à mesure que les bots sont devenus plus sophistiqués, la complexité des défis CAPTCHA a dû augmenter considérablement. Maintenant, les CAPTCHA sont moins accessibles pour les utilisateurs humains et dégradent sévèrement l’expérience utilisateur – et les bots avancés peuvent encore les résoudre.

Lorsque DataDome a conçu son propre CAPTCHA sécurisé, conforme à la vie privée et simple à utiliser, nous voulions adopter un nouveau paradigme. Au lieu de nous appuyer uniquement sur la difficulté du défi, nous avons ajouté une couche de sécurité supplémentaire avec des signaux invisibles et l’avons intégrée à notre protection complète contre les bots et la fraude en ligne. Nos clients qui étaient ciblés par des CAPTCHA bots—des bots créés pour imiter ou résoudre des défis CAPTCHA—ont vu une diminution jusqu’à 80% des CAPTCHA passés après avoir activé le DataDome CAPTCHA.

Nous savions que les opérateurs de bots commenceraient rapidement à essayer de comprendre comment contourner le DataDome CAPTCHA, donc nous avons surveillé les tentatives de passage de CAPTCHA. Juste après la sortie, il y avait un flux régulier d’environ 85k tentatives de passage malveillantes toutes les trois heures. Depuis plus d’un an que notre CAPTCHA est disponible, le nombre de tentatives de passage malveillantes est bien plus élevé.

Trois catégories de signaux nous ont aidés à attraper les bots essayant de contrefaire le DataDome CAPTCHA :

la détection comportementale (bleu) : événements côté client tels que les mouvements de souris ou les frappes de touches anonymisées ;
les empreintes de navigateur (rouge) : signaux collectés en JavaScript en arrière-plan du CAPTCHA ;
lmes charges utiles de CAPTCHA falsifiées (vert) : les attaquants ont tenté d’inverser la charge utile du CAPTCHA, en envoyant des réponses CAPTCHA sans les exécuter comme prévu.

CAPTCHA Results Chart

Comme vu dans le graphique, la diminution du nombre de charges utiles falsifiées ne signifiait pas que les attaquants avaient cessé de copier des charges utiles—ils ont simplement changé la manière dont ils le faisaient. Cependant, ces changements ont entraîné des événements comportementaux incohérents côté client (dans ce cas, les mouvements de souris). Lorsque de nouveaux modèles de détection sont déployés sur le DataDome CAPTCHA, les attaquants les plus sophistiqués (bots en tant que service ou scrapers à grande échelle) essaient de s’adapter rapidement pour augmenter leurs chances de réussir le CAPTCHA—par exemple, en générant des mouvements de souris plus réalistes.

Nous savons également que les attaquants tentent souvent d’utiliser le CAPTCHA audio avec des techniques de reconnaissance audio basées sur l’IA pour falsifier plus facilement les CAPTCHA. Alors que les CAPTCHA audio représentaient environ 2,5 % du total des CAPTCHA de DataDome réussis par de vrais utilisateurs humains, ils représentaient ~20,5 % de toutes les tentatives malveillantes de passage de CAPTCHA. Cela prouve que les attaquants ont tendance à exploiter les caractéristiques d’accessibilité pour contourner la détection.

Graphique des Résultats CAPTCHA 2

Les bots contournent toujours des CAPTCHA en utilisant différentes technologies et techniques—et les CAPTCHA traditionnels ne sont plus une protection adéquate, particulièrement contre les bots sophistiqués. Si vous utilisez uniquement un CAPTCHA traditionnel pour protéger les parties critiques de votre site web et/ou application mobile, vous avez introduit un point de défaillance unique qui peut être contourné par des bots avancés. Plusieurs cadres de bots et outils d’automatisation incluent l’intégration de fermes à CAPTCHA ainsi que des techniques de reconnaissance d’image/audio basées sur l’IA pour falsifier des CAPTCHA.

C’est pourquoi le DataDome CAPTCHA fait partie d’une solution de lutte contre les bots et la fraude en ligne complète, incluant des signaux invisibles et des couches de sécurité supplémentaires. Notre CAPTCHA nous permet d’arrêter avec succès des millions de tentatives malveillantes de passage de CAPTCHA tout en assurant une expérience utilisateur fluide – même dans les 0,01% de chances qu’un humain voit le CAPTCHA.

Conclusion

Les attaques par bots – que ce soit le scraping, le credential stuffing, le scalping ou autre – évoluent et changent chaque jour. Les attaquants exploitent déjà une grande variété de techniques pour distribuer leurs attaques, et les bots en tant que service facilitent plus que jamais la mise à l’échelle d’attaques sophistiquées. Ces techniques deviennent la nouvelle norme, la nouvelle base même pour les attaques simples, rendant tout le trafic de bots malveillants plus difficile à réguler.

Ne laissez pas votre entreprise être la proie des types d’attaques de bots qui se produisent sur Internet. Notre outil BotTester peut vous donner un aperçu des bots basiques atteignant vos sites web, applications et/ou API. Vous pouvez aussi détecter des menaces plus sophistiquées dès aujourd’hui avec un essai gratuit de DataDome. Nous serions ravis d’éliminer les bots indésirables avant qu’ils ne vous atteignent, vous et votre entreprise.

Kira Lempereur

Sr. Technical Writer

Kira Lempereur est rédactrice technique senior chez DataDome et responsable du pôle LGBTQ+ de l'entreprise. Elle collabore avec les équipes chargées de la recherche sur les menaces, du marketing et des produits afin de créer du contenu visant à renforcer un leadership éclairé en matière de lutte contre les bots et la fraude en ligne. Kira possède plus de 6 ans d'expérience dans le secteur de la cybersécurité, allant des logiciels antivirus d'entreprise à la lutte contre les bots.

Les évolutions les plus effrayantes dans le paysage de la protection contre les bots en 2023

1. Les scrapers sophistiqués

Anatomie d’une attaque de scraping distribuée

2.Les bots/plugins ChatGPT super sournois :

Comment fonctionnent les plugins ChatGPT & que signifient-ils pour votre entreprise ?

3. Des CAPTCHA traditionnels faciles à tromper

Comment avoir confiance en CAPTCHA ? Les résultats du DataDome CAPTCHA s’avèrent prometteurs

Conclusion

Articles liés

Libération utilise DataDome + Arc XP pour neutraliser le scraping IA malveillant en moins de 2 millisecondes

Comment BPX a protégé des API essentielles contre 6,6 millions d'attaques de scraping de prix

Etix bloque le scalping de billets sans ralentir les vrais fans

Qu’est-ce qu’une solution anti-bot et comment fonctionne-t-elle ?

Vous explorez encore ?