Comment empêcher les faux Googlebots de voler votre contenu
Si vous travaillez dans le secteur des médias, de la vente au détail ou des petites annonces, vous savez que le contenu est roi. C’est souvent le contenu qui attire les visiteurs et les lecteurs sur votre site web, et c’est ce qui les pousse à revenir. Pour réussir, votre contenu doit être utile, visible et accessible au plus grand nombre.
Mais sa duplication en réduit la valeur.
Malheureusement, certains bots, notamment les scrapers, volent votre contenu pour le revendre ou le republier rapidement et facilement, sans votre autorisation. Un faux Googlebot, qui se déguise en crawler compatible SEO pour ne pas être bloqué sur votre site web, votre application mobile ou votre API, est un type de scraper bot particulièrement dangereux.
Googlebot : le bon bot par excellence
La capacité du moteur de recherche à générer un énorme trafic sur les sites web lui a permis de sécuriser une position privilégiée en termes d’accès au contenu en ligne. Aucun site web de médias, de vente au détail ou de petites annonces ne peut prospérer sans être bien classé sur Google. La capacité du moteur de recherche à générer un énorme trafic sur les sites web lui a permis de sécuriser une position privilégiée en termes d’accès au contenu en ligne. Les éditeurs s’assurent généralement que Google bénéficie d’un traitement de faveur lorsqu’il doit indexer les informations contenues sur leurs pages.
Il est essentiel que la solution de protection contre les bots que vous mettez en place vous permette de distinguer les bons bots et les bots commerciaux des bots malveillants. Par exemple, le tableau de bord DataDome permet de filtrer facilement le trafic non humain sur votre site web entre les bons bots, les bots commerciaux (« bots vérifiés ») et les “mauvais” bots.
Googlebot est le roi des bons bots. Dans la majorité des cas, votre protection contre les bots ne devrait pas bloquer le vrai Googlebot.
Attention aux faux Googlebots
Le traitement spécial réservé à Googlebot offre une opportunité attrayante pour les scrapers et les fraudeurs qui veulent profiter de l’accès facile de Google à votre site web. Les développeurs de bots malveillants font tout pour que leurs bots ressemblent à des Googlebots afin d’obtenir un accès VIP à votre site web ou à votre application.
Comment repérer les faux Googlebots ?
DataDome repère plus d’un million de visites par jour provenant de faux Googlebots sur les sites web de nos clients.
1. L’agent utilisateur :
Les scrapers peuvent facilement se faire passer pour des Googlebots en s’identifiant avec le même agent utilisateur. Heureusement, les agents utilisateurs falsifiés comportent souvent des fautes de frappe, des erreurs et d’autres fonctionnalités distinctives qui permettent de les filtrer.
2. L’origine de l’IP :
Googlebot s’appuie sur les adresses IP gérées par les serveurs de Google. Chaque visite d’un « Googlebot » provenant de serveurs autres que ceux de Google peut donc être considérée comme du trafic frauduleux.
L’origine de l’adresse IP ne suffit toutefois pas à filtrer tous les faux Googlebots. Google propose un hébergement IP qui permet à un bot d’utiliser aisément une adresse IP similaire à celle d’un Googlebot. Pour être totalement protégée, chaque requête doit être soumise à une analyse plus approfondie. C’est là qu’intervient notre troisième couche…
3. Le propriétaire de l’IP :
Pour garantir une protection totale, DataDome utilise la méthode du DNS inversé pour rechercher le propriétaire d’une adresse IP, quel que soit le serveur sur lequel elle est hébergée. La difficulté est de le faire assez rapidement pour prendre en charge une expérience utilisateur (UX) sans faille pour les utilisateurs finaux.
À chaque connexion, DataDome recoupe le propriétaire de l’IP dans une base de données de plus de 4 milliards d’entrées, sans ajouter de latence ni ralentir le contenu pour éviter de dégrader l’UX ou le classement SEO du site web.
Conclusion
En fin de compte, les bots sont des raccourcis permettant d’accélérer et d’automatiser les tâches. Il n’est donc pas surprenant que les bots gravitent autour d’autres raccourcis. Les bots malveillants essaieront toujours de se faire passer pour des bots commerciaux comme Googlebot – qui bénéficient d’un accès à peine restreint à la plupart des sites web – pour commettre des actes frauduleux.
Chez DataDome, nous voyons d’innombrables bots malveillants se faire passer pour des Googlebots. Nos couches de détection en temps réel hautement performantes se combinent avec des algorithmes d’apprentissage automatique pour éliminer systématiquement les faux Googlebots, les empêchant ainsi d’atteindre vos sites web, vos applications mobiles et vos API. Le moteur de détection de DataDome prend chaque décision en moins de 2 millisecondes pour s’assurer que vos clients ne seront pas impactés par des temps de chargement plus longs, par des serveurs surchargés en raison d’un trafic de bots illimité ou par des processus de gestion des bots lents.
Découvrez par vous-même combien de faux Googlebots ciblent votre site web dans le tableau de bord DataDome grâce à un essai gratuit de 30 jours.