Étude de cas : Pagesjaunes.fr s’appuie sur l’expertise de DataDome pour mieux protéger ses données
Les annuaires en ligne sont des cibles de premier ordre pour les web scrapers. Quelles meilleures sources, en effet, pour constituer rapidement et au moindre effort une base de données complète commercialement exploitable ?
SoLocal, composé de notamment les marques Pagesjaunes, Mappy et Ooreka, est le leader européen de la communication digitale de proximité et de la prise de rendez-vous sur Internet.
En termes d’audience, pagesjaunes.fr occupe une place parmi les 20 premiers sites français, et le groupe SoLocal est en huitième position dans le baromètre du JDNet de septembre 2017.
Le problème : la démonétisation des données copiées
Benjamin Letrou est responsable architecture, performance et sécurité du portail pagesjaunes.fr. Il savait depuis longtemps qu’une grande partie du trafic du site était générée par des robots : certains utiles, comme le robot d’indexation de Google ; d’autres nuisibles comme les pirates qui exploitaient les données récupérées via le site web ou l’API mobile.
Dans la plupart des cas, l’extraction de données avait pour but de constituer des fichiers de prospection, soit pour les exploiter directement, soit pour les vendre à des tiers.
Preuve de l’intérêt porté aux données des annuaires : il existe des logiciels spécialisés dans l’extraction des données des Pages Jaunes, quel que soit le pays. Moyennant une centaine d’euros, n’importe quel internaute un tant soit peu compétent en informatique peut extraire les données qu’il souhaite, à moins qu’elles ne soient protégées.
Différentes méthodes ont été utilisées pour mesurer et suivre les fuites de données. L’installation de leurres, par exemple, permettait de suivre les données jusqu’à la transmission ou la rediffusion.
L’équipe technique surveillait également de très près le trafic et les logs techniques, et constatait des comportements anormaux tels que la surreprésentation de certaines adresses IP ou des types de requêtes inhabituels.
L’ampleur de l’enjeu était donc clairement identifiée. Mais encore fallait-il trouver des contre-mesures à la hauteur de ces extractions massives de données.
“Nous avons toujours eu des protections contre les attaques massives au niveau de l’infrastructure. Elles étaient efficaces, mais basées uniquement sur les adresses IP et par conséquent pas très fines,” précise Benjamin Letrou. “Des techniques de type pot de miel assuraient une protection supplémentaire, mais elles étaient fastidieuses à mettre en place.”
Identifier et analyser la menace
Benjamin Letrou était donc depuis quelque temps à la recherche d’une solution plus efficace.
L’intégration s’est faite en peu de temps, la solution DataDome correspondant bien aux technologies déjà utilisées par pagesjaunes.fr. Le module DataDome, compatible avec de nombreuses configurations, y compris les multi-cloud, n’a nécessité que peu de modifications dans les infrastructures techniques.
Dans une première phase, M. Letrou et son équipe ont utilisé la solution DataDome uniquement pour observer le trafic, sans mettre en oeuvre le blocage. Avec les résultats et les éléments d’analyse ainsi obtenus, la solution a été adaptée à pagesjaunes.fr tout en restant dans le cadre d’un produit générique.
“L’intégration s’est très bien passée,” confirme M. Letrou. “L’équipe DataDome s’est montrée extrêmement réactive, que ce soit pour fournir des explications ou pour mettre en place des solutions répondant à nos demandes.”
Les analyses ont permis de valider et d’affiner le filtrage effectué depuis des années par les équipes de Data Analyse en charge de l’assainissement des données de trafic transmises aux annonceurs. Les informations fournies par DataDome sont venues alimenter, corroborer et parfois compléter les outils existants pour apporter à ces équipes une connaissance plus fine de l’audience et consolider la relation avec les annonceurs.
Les résultats : protéger les données pour mieux les valoriser
Après la phase d’analyse, la protection intelligente de DataDome a été activée. L’accès des robots scrapers au site web est bloqué. Leurs tentatives sont identifiées et cartographiées au sein d’un dashboard permettant aux équipes de pagesjaunes.fr de mesurer en temps réel l’activité des bots. DataDome assure désormais la protection des précieuses données de pagesjaunes.fr, avec plusieurs bénéfices à la clé.
“Le trafic des robots et l’extraction des données étaient des sujets qui nécessitait beaucoup de ressources et des processus parfois manuels,” observe Benjamin Letrou. “Maintenant, c’est géré. Les données sont sécurisées, et elles ne sont plus accessibles pour les robots.”
Mais, en plus de trouver une réponse simple et très légère à maintenir à sa problématique de cybersécurité, pagesjaunes.fr reçoit maintenant des leads d’entreprises qui souhaitent accéder à ses données, et qui sont prêtes à en payer le prix.
“L’intérêt de bloquer, pour nous, est principalement de pouvoir maîtriser l’usage de notre data,” explique Benjamin Letrou. De fait, la solution DataDome facilite la mise en relation des producteurs de données avec ceux qui souhaitent exploiter celles-ci, d’abord en identifiant le plus précisément possible les opérateurs des bots, ensuite en leur proposant un captcha amélioré spécifique visant à initier la mise en relation.
Dernier élément : DataDome s’intègre dans le processus de mise en conformité de pagesjaunes.fr avec le RGPD, nouvelle législation européenne qui entre en vigueur en mai 2018 en assurant, “entre autres, la protection des données personnelles hébergées en ligne”, confirme Benjamin Letrou.