DataDome

Gestion anti-bots durant l’épidémie de COVID-19 : défis liés à la détection des bots en situation extrême

Table des matières
7 Apr, 2020
|
min

La détection des bots est, même en temps normal, une activité à la fois vitale et d’une grande complexité. La capacité à maintenir une parfaite connaissance des technologies et stratégies d’attaque automatisées en perpétuelle évolution exige une connaissance approfondie et une recherche permanente sur les menaces, qui font désormais l’objet d’un métier à part entière.

Dès qu’un événement totalement imprévu tel que la pandémie actuelle de COVID-19 vient tout bouleverser, le défi devient tout simplement monumental. Les consommateurs, tout comme les cybercriminels, adoptent des comportements en ligne radicalement différents et ce, quasiment du jour au lendemain. Il en résulte de profondes répercussions sur la précision de détection du trafic automatisé et, par conséquent, sur la sécurité des entreprises d’e-commerce partout dans le monde.

Voyons d’un peu plus près l’impact de cette situation exceptionnelle sur les différents types de technologies de détection de bots, et quelles sont les capacités indispensables pour maintenir une protection anti-bots fiable durant cet épisode pandémique.

Limitations encore plus strictes des approches fondées sur des règles

Nous nous sommes déjà exprimés sur les limites que présentent les solutions de sécurité dont la détection des bots repose sur des règles. Un pare-feu de type WAF, par exemple, applique un ensemble de règles prédéfinies pour filtrer le trafic suspect dont les signatures d’attaque sont familières ; pourtant, de nombreux bots ne comportent aucune signature de ce type. Souvent, ces derniers sont au contraire conçus pour imiter aussi fidèlement que possible le comportement des utilisateurs humains.

De plus, les opérateurs de bots peuvent diffuser aisément ces derniers sur des centaines de milliers d’adresses IP différentes, y compris des adresses résidentielles jouissant d’une excellente réputation, ce qui rend les systèmes de détection par adresse IP totalement obsolètes.

Qui plus est, ces lacunes sont démultipliées en temps de crise. Lorsque plus rien ne fonctionne comme en temps normal, les règles statiques deviennent encore moins efficaces.

Si vous observez actuellement des tendances de trafic inhabituels sur un site Web dont vous avez la charge, vous pourriez être tenté d’essayer de résoudre au moins partiellement le problème en ajustant ces règles. Ne vous laissez cependant pas prendre à ce jeu : vous risqueriez en effet de générer des faux positifs et de causer un préjudice à vos clients légitimes, au moment où ceux-ci comptent probablement le plus sur vous. Car comme nous allons le voir, le COVID-19 remet en cause même les solutions de détection de bots les plus élaborées.

Les crises remettent également en question les modèles d’apprentissage automatique

Les solutions anti-bots les plus évoluées dépendent aujourd’hui dans une large mesure de l’apprentissage automatique pour distinguer avec précision les visiteurs humains des robots. Le principe consiste à employer des modèles d’apprentissage automatisés afin de prédire à quoi ressemble les attitudes et activités normales d’un humain, et déterminer en quoi le comportement des bots diffère, même lorsqu’ils tentent de singer des êtres humains.

Ces modèles d’apprentissage reposent sur un ensemble d’attributs et de mesures comportementales génériques tels que le nombre de requêtes, le temps moyen séparant plusieurs requêtes consécutives ou le mode de déplacement de la souris. Des indicateurs métriques orientés vers l’activité commerciale, par exemple le nombre d’articles que le visiteur a consultés ou ajoutés à son panier, sont également généralement pris en considération.

Dès qu’un nouvel internaute arrive sur le site, les modèles analysent ses indicateurs et, en cas d’écart trop significatif par rapport aux autres humains, le visiteur est répertorié comme étant un bot.

Le problème est que les modèles de détection de ce type ont été formés à partir d’ensembles de données relativement stables : l’apprentissage dont ils dépendent repose sur ce qui est ou n’est pas humain en période « normale », et non en situation de crise.

Certes, il arrive parfois que des événements commerciaux tels que le Black Friday modifient temporairement les tendances de trafic et les comportements individuels des utilisateurs, mais ces disruptions sont dans la plupart des cas prévisibles et le retour à la normale ne se fait jamais attendre très longtemps.

Dans le cas du COVID-19, le défi est en revanche d’une tout autre nature. Il s’agit d’une crise à l’échelle mondiale qui est probablement amenée à durer plusieurs mois, et qui ne nous permettra peut-être pas, une fois achevée, de revenir à la même « normalité » qu’avant sa survenue.

Parmi les mutations possibles qui découlent du coronavirus en termes de trafic et de modèle comportemental des utilisateurs, citons les cas suivants :

  • Agences de voyage : Immédiatement après une annonce de confinement, le trafic des voyageurs qui annulent leurs réservations enregistre une forte augmentation, suivie d’une très forte baisse.

  • Sites Web de comparatifs de voyages aériens : Le trafic d’origine humaine est en chute vertigineuse. La majorité de l’activité est aujourd’hui le fait de bots.

  • Détaillants de produits alimentaires : Le nombre de nouveaux clients en ligne qui tentent de réserver des livraisons est en plein essor. Les clients peuvent également commander davantage de produits que d’habitude, ce qui signifie qu’ils naviguent sur un plus grand nombre de pages. Cette tendance est appelée à perdurer tout au long de la crise. Elle engendre des pics d’activité avant et après certains événements importants, tels que les annonces concernant les nouvelles mesures de confinement.

COVID-related traffic changes on a food retailer website

Figure 1 : Une enseigne alimentaire française observe le premier changement soudain le 12 mars, lorsque le pays a appris que le Président allait faire une annonce. Depuis lors, l’activité normale a été multipliée par 4. Le pic le plus élevé sur le graphique est le matin du 16 mars, premier jour du confinement. La ligne rouge représente le niveau des pics de trafic d’avant la crise

  • Plateformes de négociation financière : De hausses de trafic font suite aux annonces majeures concernant les politiques publiques susceptibles d’influencer le marché.

  • Sites Web d’information : Du fait que les individus passent davantage de temps chez eux, leur consommation de contenus médias est en recrudescence.

COVID-related traffic changes on a news site

Figure 2 : Un site d’actualités observe un énorme pic de trafic la veille d’une annonce officielle, probablement le résultat d’une notification « push » concernant la déclaration à venir. Une fois que le confinement a pris effet, le site observe également une augmentation significative de son trafic quotidien.

Tous ces changements représentent un défi majeur pour les solutions de protection qui détectent les bots sophistiqués par l’intermédiaire de modèles d’apprentissage automatique.

Bot ou humain ? L’augmentation du risque de faux positifs

Dans l’univers de la gestion anti-bots, le principal risque lié à des modifications aussi subites que drastiques est que les modèles d’apprentissage automatique ne bloquent pas correctement les visiteurs humains, car ceux-ci ont modifié leur comportement et ressemblent plus à des bots qu’auparavant. C’est ce qu’on appelle les « faux positifs ».

Les faux positifs peuvent se produire au niveau de l’utilisateur. Le modèle d’apprentissage machine classifie à tort le comportement d’un utilisateur humain comme étant celui d’un bot. Mais d’autres types de faux positifs peuvent également se produire à un niveau plus élevé, et c’est là que les choses peuvent se gâter rapidement.

En plus d’analyser et de catégoriser chaque requête individuellement, certaines solutions de gestion anti-bots disposent de modèles heuristiques ou d’apprentissage qui détectent des formes d’attaques spécifiques, telles que les attaques DDoS de la couche 7. Ce type d’attaque consiste à exploiter un grand nombre de périphériques afin d’envoyer simultanément un nombre très élevé de requêtes, le but recherché étant de surcharger le site Web ciblé et de le rendre indisponible.

En général, les approches qui visent à détecter ces attaques au niveau applicatif repèrent les variations nettes d’un ensemble de mesures ou de combinaisons de mesures, telles que le nombre de requêtes par seconde. La réponse aux anomalies détectées s’appuie alors sur une stratégie prédéfinie : si le système détecte une attaque DDoS, il peut demander à chaque visiteur de résoudre un Captcha afin d’attester qu’il est bien un humain.

Dans le cas d’un faux positif, c’est-à-dire lorsque le pic de trafic inattendu est lié non pas à une attaque DDoS, mais seulement à un groupe d’humains fébriles qui consultent simultanément votre site, l’expérience de ces derniers risque d’être pour le moins amère.

Il est d’ailleurs à noter que ce phénomène n’a pas lieu uniquement en période de crise : d’autres types d’événements de grande envergure, tels qu’une campagne publicitaire télévisée à une heure de grande écoute, peuvent également attirer un large public à votre site.

La manière dont votre solution de détection anti-bots traite ce genre d’événements dépend de différents facteurs, tels que :

  • La fenêtre temporelle durant laquelle les modèles d’apprentissage automatique sont entraînés. Plus la période de formation d’un modèle est longue, plus la réaction de celui-ci face à un changement soudain sera lente.
  • La fréquence d’apprentissage du modèle de machine learning. Si un modèle est entraîné heure par heure, il sera capable de repérer plus rapidement un nouveau comportement humain qu’un modèle alimenté quotidiennement.
  • La disponibilité d’une boucle de retour intelligente.

Dans la plupart des cas, soit la solution de gestion anti-bots présente un Captcha aux utilisateurs dont le comportement est suspect afin de vérifier qu’ils sont humains, soit elle les bloque purement et simplement pendant une période donnée.

En cas de blocage « dur », les utilisateurs ne disposent d’aucun mécanisme de rétroaction (autre que celui de manifester leur colère sur Twitter ou Facebook) pour vous signaler que votre système de détection a commis une erreur. Le modèle d’apprentissage automatique, en réalité, n’apprend rien.

Si, en revanche, l’utilisateur peut résoudre un Captcha pour confirmer son humanité, l’erreur peut très bien être prise en compte pour nourrir l’algorithme. Néanmoins, tous les systèmes de détection de bots ne sont pas en mesure d’actualiser leurs modèles au même rythme.

Dangers liés aux faux négatifs

Dans les situations extrêmes, il existe également un risque accru de laisser trop de bots pénétrer sur votre site Web. Il s’agit alors de faux négatifs.

Cette situation peut présenter un réel danger, notamment si ces bots effectuent du “credential stuffing”, une forme d’attaque qui consiste à tenter d’accéder à des comptes d’utilisateur au moyen de données d’identification détournées.

L’une des raisons pour lesquelles les faux négatifs sont susceptibles d’augmenter en temps de crise est que votre solution anti-bots n’a pas nécessairement été conçue pour s’adapter rapidement aux changements de comportement soudains des utilisateurs. Dans ce cas, en tentant d’éviter les faux positifs, elle risque de prendre de mauvaises décisions.

En outre, l’absence de modèles d’apprentissage automatique efficaces peut conduire les analystes de données à inclure précipitamment de nouvelles règles et de nouveaux modèles à leurs listes autorisées, à modifier les seuils de détection ou à réentraîner leurs modèles d’apprentissage sans leur apporter les informations nécessaires. Là encore, le système peut être contraint d’autoriser des bots qui auraient normalement dû être interceptés.

Atténuation des effets liés aux changements soudains et spectaculaires

Bien que nous mettions ici l’accent sur la remise en question par le COVID-19 des modèles d’apprentissage automatique employés dans la protection anti-bots, les mêmes risques valent également pour les solutions de détection qui s’appuient sur une heuristique dont les seuils de détection codés en dur sont dérivés d’analyses statistiques.

Dès lors, comment surmonter ces défis pour garantir une détection précise et une protection efficace contre les bots, ainsi que des expériences humaines positives, même au cœur de ces circonstances exceptionnelles ?

Voici quelques-unes des stratégies adoptées par DataDome pour assurer que notre solution de protection en temps réel s’adapte en permanence à ces changements tumultueux :

  • Notre moteur de détection gère la rétroaction de manière intrinsèque au moyen d’une boucle exécutée en temps réel.
  • Nos modèles d’apprentissage automatique sont entraînés selon une méthode itérative, ce qui nous dispense de les alimenter intégralement par lots, tout en nous permettant de les réadapter dynamiquement aux nouveaux modèles contenus dans les données (apprentissage en ligne).
  • Nos modèles exploitent une large gamme de signaux (navigateur, version, système d’exploitation, utilisateur, pays, comportement…), d’où la possibilité d’inférer automatiquement les caractéristiques appropriées pour distinguer les bots des utilisateurs, même en cas de modification du comportement de ces derniers.
  • Nous effectuons une analyse des valeurs aberrantes afin d’identifier les anomalies et réajuster le modèle en conséquence.

À ce jour, nous demeurons confiants en notre capacité à faire face à notre cible mouvante. Au fur et à mesure de l’évolution de la pandémie, nous continuerons à surveiller de près nos boucles de rétroaction, à analyser les tendances et à détecter les anomalies dans nos ensembles de données provenant du monde entier, afin de garantir à nos clients la poursuite la plus normale possible de leurs activités durant cette période extraordinaire.