Real Estate View met fin au vol de données et réduit ses coûts d’infrastructure grâce à DataDome
Real Estate View est l’un des plus importants portails immobiliers australiens. Inauguré en 2001, le site Web répertorie aujourd’hui plusieurs centaines de milliers de propriétés à travers le pays. De même que la plupart des portails riches en données, il était en proie à une activité intensive liée à des robots de scraping et au vol de contenus. Aujourd’hui, la solution de protection anti-bots DataDome bloque efficacement les robots de scraping, ce qui permet à Real Estate View de sécuriser la valeur de ses référencements sur le Web et de réduire les coûts de son infrastructure par la même occasion.
Le défi : le scraping intensif des annonces immobilières
Snehal Tiwari est responsable technique et architecte de solutions pour le site Real Estate View. La première indication d’activité malveillante qu’il a relevée était le fait que le nombre de requêtes contenu les journaux de son serveur Web ne correspondait pas aux données qu’il obtenait dans ses outils d’analyse. Ces deux sources d’information présentaient en effet un écart important.
« Lorsque nous avons enquêté sur cette anomalie, nous avons découvert une activité intensive de robot scrapers sur notre site, explique Snehal Tiwari. Nos listes contiennent beaucoup d’informations et certaines personnes essayaient de les collecter, puis de les héberger sur leurs propres sites Web ».
Contrairement à de nombreux autres sites ciblés par le scraping de données, Real Estate View a rarement été victime de performances médiocres ou d’interruptions de son fonctionnement.
« Nous prévoyons une capacité de réserve dans nos infrastructures afin de gérer les pics d’activité, précice Snehal. Le scraping se produisait essentiellement tard le soir, lorsque le nombre d’humains connectés est minimal. Il n’y avait généralement pas d’intention de nuire à notre site ; nous n’avions pas à déplorer d’attaques par déni de service, ni quoi que ce soit de ce genre. Néanmoins, si je devais faire une estimation, je dirais que les bots représentaient entre 20 et 40 % de notre trafic total ».
Comme tout portail qui met en relation des acheteurs et des vendeurs, Real Estate View compte principalement sur ses annonces pour se rémunérer.
« Nos données ont une valeur élevée, souligne Snehal Tiwari. Si quelqu’un nous dérobe une liste et la promeut comme étant la sienne, nous pouvons perdre l’attribution de la commercialisation de cette propriété. Le risque commercial est réel. De plus, lorsque nous avons conclu un accord avec un nouveau partenaire de gestion de données qui exigeait une protection contre le scraping en tant qu’exigence contractuelle, le moment était venu d’y mettre un terme pour de bon ».
La solution : une intégration facile, sans réacheminement du trafic
Lorsque Snehal Tiwari et son équipe se sont mis en quête d’une solution de protection anti-bots, la performance était leur priorité numéro un.
« Il est évident que la solution devait nous défendre efficacement contre les robots de scraping, observe Snehal. Une fois cette exigence satisfaite, le critère suivant sur notre liste était la facilité d’intégration. Autrement dit, quel effort nous devions, de notre côté, déployer sur l’infrastructure d’hébergement. Enfin, la fiabilité du service était essentielle à nos yeux. Compte tenu des exigences plus strictes de nos nouveaux partenaires de données et de nos accords contractuels, nous avons maintenant un seuil de tolérance très bas face aux robots scrapers. Nous ne pouvons tout simplement plus nous permettre de situations où le service est indisponible ».
Au terme de recherches approfondies sur le marché des logiciels de gestion des bots, Snehal Tiwari a réduit sa liste à deux solutions : DataDome, et celle d’un autre grand fournisseur de solutions de protection anti-bots.
« Nous avions besoin d’une solution rapidement opérationnelle et l’équipe d’intégration de DataDome nous a été extrêmement secourable, précise-t-il. Au total, la mise en ligne a pris moins d’une semaine, et encore, elle aurait probablement pu être réalisée en deux ou trois jours. Nous avons juste pris un peu plus de temps pour effectuer quelques tests supplémentaires ; par exemple, nous avons essayé de scraper notre site nous-mêmes. Mais il s’agit d’une solution très bien conçue et qui s’est rapidement intégrée à notre plateforme ».
Une autre caractéristique fort appréciable de la solution DataDome est qu’elle ne nécessite aucune redirection du trafic. Le module Apache de DataDome analyse chaque requête adressée aux serveurs de Real Estate View, en appelant le point de présence DataDome Edge le plus proche (il existe plus de 25 points de présence dans le monde), avant que l’exécution du processus Apache n’ait lieu. Si l’algorithme détermine que l’utilisateur est bien humain, il laisse Apache poursuivre le processus normal. Si c’est un bot, celui-ci est soit confronté à un défi Captcha, soit bloqué purement et simplement.
« Le trafic arrive d’abord sur nos serveurs, puis nous contrôlons le trafic que nous demandons à DataDome de filtrer, commente Snehal Tawari. L’autre solution que nous avions évaluée n’offrait pas cette caractéristique, et elle nécessitait un effort d’intégration plus important ».
Le résultat : un référencement protégé et une grande tranquillité d’esprit
Aujourd’hui, Snehal ne s’inquiète plus du vol des listes d’annonces de Real Estate View :« C’est mon critère de réussite numéro un : cela fonctionne, nos listes sont protégées et nous obtenons l’attribution qui nous est due ».
« De plus, c’est rapide, poursuit-il. Lorsqu’une requête parvient à nos serveurs, l’appel et la réponse du module DataDome ont lieu en temps réel et le processus est totalement transparent pour nos utilisateurs humains. Nos listes de référencement sont ainsi protégées, de même que l’expérience client ».
Et bien que ne faisant pas partie des objectifs en soi, la réduction des coûts d’infrastructure permise par l’élimination du trafic de bots indésirable s’est avérée un avantage supplémentaire intéressant.
« Ce n’est pas linéaire, bien sûr ; 40 % de trafic robotisé ne signifie pas 40 % de coûts supplémentaires. Mais je dirais que nous économisons environ 15 à 20 % sur nos coûts d’infrastructure », estime Snehal Tiwari.
Pour parfaire la protection, il a décidé de tirer parti de la fonction « Règles personnalisées » de la solution. “« Nous devons partager les données de certains terminaux spécifiques avec certains de nos clients et partenaires, explique-t-il. Il ne doit pas y avoir de trafic humain à cet endroit, et la fonction des règles personnalisées permet de rejeter très facilement ce trafic vers ces nœuds finaux ».
Pour autant, au quotidien, Snehal n’a plus du tout besoin de se soucier du trafic de bots. « Je consulte le tableau de bord de DataDome environ une fois par mois afin d’obtenir des statistiques pour notre partenaire, et très occasionnellement pour modifier une configuration, note-t-il. “De plus, j’ai une règle dans ma messagerie qui m’envoie les rapports quotidiens par e-mail si l’objet ou le contenu contient certains mots clés spécifiques. Autrement, DataDome fonctionne sans que j’aie à faire quoi que ce soit. Il s’agit vraiment d’une solution qu’on installe et qu’on oublie, un excellent produit accompagné d’une formidable assistance, et travailler avec l’équipe de DataDome est un réel plaisir ».