Brainly réduit de plus de 90 % le temps consacré à sa gestion des bots grâce à DataDome
Résumé
Le challenge :
Spam, usurpation de contenus, problèmes de protection des données personnelles
La solution :
Détection experte des bots dans un environnement à trafic élevé
Brainly est la première plateforme d’apprentissage en ligne au monde. Des collégiens et lycéens du monde entier, ainsi que leurs parents, se connectent à brainly.com et à son groupe de sites mondiaux afin de recevoir et proposer des solutions aux problèmes et aux questions en lien avec leurs devoirs scolaires. La communauté collaborative est actuellement présente dans 35 pays et accueille chaque mois plus de 200 millions d’utilisateurs.
Les défis : spam, usurpation de contenus et problèmes de protection des données personnelles
Bill Salak a pris ses fonctions de directeur technique de Brainly début 2019. Au fur et à mesure qu’il a pris ses marques au sein de la société, il lui est apparu de plus en plus évident que Brainly pâtissait d’un certain nombre de problèmes dus à des robots logiciels :
« Je travaille dans le secteur depuis longtemps, explique-t-il, et tout le monde sait qu’il y a des bots partout et que nous sommes attaqués en permanence. Brainly possède également une armée de modérateurs communautaires qui étaient constamment confrontés à des spams. Il était donc clair pour moi que nous avions affaire à un trafic de bots ; mais je n’avais vraiment aucune idée de son ampleur ».
Les dirigeants de l’entreprise ne semblaient pas non plus trop préoccupés par le problème, jusqu’au jour où…
« J’ai été invité à participer à une conversation concernant une attaque de spams sur l’un de nos marchés, se souvient Bill. Lorsque j’ai examiné la situation, j’ai découvert que nous avions modéré des contenus auxquels nos utilisateurs n’étaient certainement pas censés accéder. La plupart de nos utilisateurs sont des enfants, et ces contenus n’étaient manifestement appropriés ni pour Brainly, ni pour eux ».
En lui-même, ce spam n’était pas très gênant. Ce qui préoccupait Bill, c’était plutôt la manière dont la communauté de modérateurs bénévoles réagissait à l’événement. La réponse habituelle de Brainly, lors des attaques de spam, avait consisté jusque-là à supprimer purement et simplement les comptes des auteurs des contenus. Or, Brainly avait récemment commencé à monétiser son produit et les utilisateurs disposaient désormais de comptes payants. L’option de leur suppression était donc devenue inacceptable.
« C’est lors de cette attaque de spam particulière que le problème a éveillé mon attention, souligne Bill, mais mon principal souci était que nous n’y répondions pas efficacement. Lorsque j’ai commencé à creuser la question, je me suis rendu compte que nous n’avions aucune visibilité sur les attaques de bots visant le site. Nous ne soupçonnions même pas qu’elles avaient lieu, tant que nos modérateurs de contenu ne nous les avaient pas signalées. Ce n’était qu’une simple constatation des dommages. J’ai donc invité mon équipe à mettre en œuvre des instruments et des outils qui nous permettraient de recevoir des alertes et d’évaluer l’amplitude du problème ».
Comme c’est souvent le cas, l’équipe est allée de découverte en découverte au fur et à mesure de ses investigations. Durant plusieurs mois, elle a développé inlassablement des instruments et des outils supplémentaires qui n’ont fait que confirmer l’ampleur du problème, ainsi que le nombre d’attaques de bots laissées sans réponse.
« Il ne s’agissait pas uniquement de contenus indésirables, précise Bill. Il y avait aussi d’autres types d’attaques. Nous savions par exemple que nous avions un problème de scraping, mais dont nous ignorions totalement l’étendue. Nous pouvions constater que l’un de nos concurrents nous devançait dans un résultat de recherche particulier, puis découvrir qu’il le faisait en dérobant nos contenus. Nous allions donc émettre un avis de retrait, mais de façon uniquement réactive. En fait, nous n’avions aucune idée de la gravité de notre problème de scraping, jusqu’à ce que DataDome nous le montre et là, ce fut un choc ».
L’événement initial (« Cher nouveau CTO, pouvez-vous jeter un coup œil à ce contenu inapproprié ? ») s’était mué en une prise de conscience grandissante des millions de bots qui attaquaient quotidiennement les produits de Brainly sur l’ensemble de ses marchés. L’équipe avait révélé au grand jour un problème infiniment plus sérieux que quelques milliers de messages indésirables.
La solution : détection experte des bots dans un environnement à trafic élevé
Certes, les outils et instruments de l’équipe avaient déjà permis de générer des avertissements, mais les seules réponses disponibles face à ces premières alertes n’étaient encore que manuelles. Et en dépit d’essais répétés visant à automatiser l’approche, aucune tactique n’a pu prouver son efficacité.
« Les seules mesures viables que nous pouvions mettre en place étaient de faire en sorte qu’un être humain étudie le problème en temps réel et trouve une solution sur-mesure, en créant par exemple une règle de pare-feu pour bloquer l’attaque concernée juste au bon moment », explique Bill.
Il a alors réalisé que son équipe serait impuissante à résoudre les problèmes de bots avec des solutions de surveillance de trafic « bêtes». Ce qui était nécessaire, c’était un type de solution capable d’automatiser le processus d’analyse jusque-là accompli manuellement.
Dans un premier temps, l’équipe a conçu une solution interne dont les performances ont été relativement bonnes. Pour autant, les attaques, elles, n’ont cessé d’évoluer. Le programme avait du mal à suivre le rythme et nécessitait encore trop d’interventions manuelles.
« J’ai commencé à rechercher une classe de solutions qui seraient en quelque sorte adaptatives, c’est-à-dire des systèmes intelligents capables d’interpréter notre trafic, d’en tirer des leçons et d’évoluer. Il n’existe pas des masses d’acteurs sur ce marché, et quand bien même c’est le cas, il n’est pas toujours facile de les mettre en œuvre ou de travailler avec eux. Notre liste s’est donc réduite très rapidement », raconte Bill.
Quels ont été les principaux critères de sélection ?
« De nombreuses variables entrent en ligne de compte lorsque vous prenez une décision comme celle-ci, répond-il. Mais la première d’entre elle, c’est l’efficacité. Est-ce que ça marche ? Bien sûr, il faut aussi considérer des facteurs tels que le coût et la facilité de mise en œuvre, mais si une solution ne fonctionne pas bien, vous préférerez payer un peu plus cher ou faire un effort supplémentaire pour mettre en œuvre quelque chose qui marche ».
Au bout du compte, DataDome a également remporté la mise en termes de facilité de mise en œuvre :
« Nous utilisons CloudFlare en tant que cache périphérique et DataDome peut justement être fourni sous forme d’application CloudFlare. Cela ne nous a donc demandé quasiment aucun travail. En fait, j’ai pu activer moi-même DataDome dans les cinq minutes qui ont suivi mon choix, et sans endommager quoi que ce soit ! J’ai adressé un e-mail aux ingénieurs et aux responsables du produit pour leur dire ce que j’avais fait et pour qu’ils me signalent d’éventuels comportements inhabituels, mais je n’ai eu aucun écho. Tout a parfaitement fonctionné dès la mise en service ».
(Bill admet ne pas avoir suivi la recommandation de DataDome d’inscrire ses partenaires importants sur une liste autorisée avant d’activer la protection. Moins d’une heure après, il a réalisé que cela aurait probablement été une bonne idée).
Le résultat : sécurité, gain de temps et de productivité
Aujourd’hui, l’équipe de Brainly considère que ses mesures de protection sont supérieures aux normes du marché. Mais selon quels critères détermine-t-elle exactement la réussite de ce projet ?
« Je mesure cela à ma possibilité de faire autre chose, sourit Bill. Si les problèmes de bots avaient continué à consommer entre le tiers et la moitié de ma journée, comme c’était le cas au second semestre 2019, j’en aurais conclu que cet outil ne répondait pas à mes besoins. Mais le fait est que je n’y accorde plus beaucoup d’attention, hormis la consultation de l’e-mail que je reçois tous les matins ».
Dès les premiers jours, les rapports quotidiens par e-mail ont permis à Bill d’évaluer l’ampleur du problème lié aux bots et de vérifier que DataDome fonctionnait comme prévu. Aujourd’hui, même s’il fait entièrement confiance à la solution, il apprécie toujours de jeter un coup d’œil aux rapports :
« Désormais, je les trouve plus particulièrement intéressants lorsque leurs chiffres sont faibles, confie-t-il. DataDome bloque généralement plusieurs millions de requêtes par jour ; donc, lorsque les chiffres sont plus faibles, je veux savoir ce qui s’est produit la veille. Non pas ce que DataDome a fait, mais en quoi notre trafic a changé et pourquoi nous n’avons pas été attaqués autant que prévu. Néanmoins, dans l’ensemble, les problèmes de bots ont pour moi totalement disparu ».
Bill n’est pas le seul à pouvoir consacrer davantage de son temps à d’autres tâches ; c’est également le cas de tous les membres de son équipe :
« Avant DataDome, nous avions trois à quatre personnes qui passaient au moins la moitié de leur temps à résoudre des problèmes liés aux bots, estime-t-il. Aujourd’hui, nous y consacrons peut-être l’équivalent de deux heures-homme par semaine pour l’ensemble de l’entreprise ».
La solution DataDome est effectivement conçue pour fonctionner en mode de pilotage automatique, avec peu ou pas d’intervention requise de la part des utilisateurs.
« Sur ce plan-là, l’avantage est considérable, poursuit Bill. Comme la plupart des entreprises, nous payons toutes sortes d’outils de productivité. DataDome nous a permis de réaliser des gains de productivité considérables, même si l’objectif principal était ailleurs. Non seulement nous avons une meilleure sécurité, mais nous avons aussi récupéré une partie de notre temps et pour nous, c’est un gain énorme ».
Bill ajoute qu’un autre type d’indicateur de réussite du projet est inscrit dans le tableau de bord DataDome lui-même :
« Si nous observons par exemple les attaques de scraping qui ont été interceptées, les chiffres ont une signification bien réelle pour nous. En empêchant une attaque de scraping, nous protégeons nos contenus et donc, nous maintenons notre position sur le marché ».
Le même constat vaut par ailleurs pour la sécurité des utilisateurs de Brainly : chaque fois qu’une attaque d’usurpation d’informations d’identification est stoppée, cela se traduit par la protection de personnes réelles contre les préjudices potentiels. Grâce à la protection de DataDome, le formulaire de connexion de Brainly ne contribue jamais à compromettre fortuitement les combinaisons de nom d’utilisateur et de mot de passe.
Pour conclure, nous avons demandé à Bill s’il avait une autre recommandation utile à communiquer aux acheteurs potentiels de DataDome. Sa réponse :
« Brainly est un système dont le trafic est réparti sur une très grande échelle. Il n’existe pas beaucoup de produits qui traitent autant de trafic et d’utilisateurs que nous. D’après notre expérience, la solution de DataDome est suffisamment intelligente pour déterminer le moyen de nous protéger efficacement, même si le seul volume de notre trafic lui confère un aspect similaire à celui des bots. C’est d’ailleurs le défi que nous avions rencontré lors de l’examen des autres solutions : tout notre trafic ressemble à un trafic de bots à grande échelle. Donc, si DataDome fonctionne pour nous, il est très probable que cela sera également le cas pour tous ceux qui exploitent un produit similaire ».