Comment Google Bard utilise (gratuitement) le contenu de votre entreprise

Scraping

Alors que tout le monde parle d’OpenAI et de ChatGPT, Google a également travaillé sur son propre grand modèle de langage (LLM) : Bard. Google Bard est basé sur le modèle de langage LaMDA, qui a été entraîné « sur un ensemble de données de 1,56 T de mots issus de données de dialogue public et d’autres documents Web publics ». Cependant, le document de recherche de LaMDA de Google ne donne pas de détails sur l’origine des données publiques – et comment elles ont été collectées.

Il est possible que les LLMs de Google soient ou seront formés en utilisant des données collectées par les scrapers Googlebot. Comme Googlebot indexe les sites Web pour les résultats de recherche Google, les bloquer dans la plupart des cas serait peu judicieux. Les propriétaires de sites Web comptent souvent fortement sur le moteur de recherche Google pour attirer du trafic vers leur site. Ainsi, bloquer Googlebot entraînerait une baisse sérieuse de visiteurs.

Vous vous demandez peut-être comment vous pouvez empêcher les LLMs de Google et les outils d’IA tels que Bard et Vertex AI d’utiliser les données de votre site Web. Peut-être voulez-vous savoir comment empêcher les utilisateurs d’obtenir des réponses qui ne peuvent être trouvées que sur votre site Web, car cela pourrait nuire à votre entreprise. Voici comment les entreprises peuvent choisir de ne pas autoriser l’utilisation de leurs données par les LLMs de Google et les produits d’IA générative.

Qu’est-ce que Google Bard ?

Bard est le concurrent de Google à ChatGPT. Vous pouvez interagir avec lui via une interface de chat et poser vos questions. Par exemple, sur la capture d’écran ci-dessous, nous avons demandé à Bard d’expliquer comment la solution de DataDome protège les entreprises contre les attaques malveillantes de bots et de fraude.

Dans sa réponse, Google Bard commence par résumer ce que sont les bots, puis explique comment DataDome détecte et bloque les bots en temps réel.

Comment puis-je me désinscrire du LLM de Google Bard ?

Lorsqu’il s’agit de grands modèles de langage (LLMs), se désinscrire peut signifier deux choses :

Vous ne voulez pas que vos données soient utilisées pour entraîner le LLM.
Vous ne voulez pas que les utilisateurs de Bard fassent des requêtes sur le contenu de votre site Web sans qu’ils visitent réellement votre site.

La différence entre les deux peut sembler subtile, mais elle est fondamentale. Les LLMs sont entraînés sur d’énormes volumes de données. Si vos données ne sont pas incluses dans le jeu de données d’entraînement du LLM, le LLM répondra moins précisément aux questions dont la réponse se trouvait uniquement sur votre site Web et difficile à expliquer à partir d’autres sources de jeux de données.

Cependant, rien n’empêche l’interface utilisateur du LLM – ici, l’interface de chat de Bard – de récupérer dynamiquement du contenu à partir d’URL/pages en réponse aux requêtes des utilisateurs, et d’alimenter dynamiquement le contenu qu’elle récupère dans le LLM. Ainsi, même si le contenu de votre site n’a pas été utilisé à l’origine pour entraîner le LLM, le LLM peut toujours être capable de l’utiliser pour améliorer la qualité de son interaction. Nous avons discuté de ce cas d’utilisation dans le contexte des plugins ChatGPT.

Se désinscrire de Google Bard & Google Vertex AI

Google fournit des informations sur leur site Web pour développeurs concernant les crawlers tels que Googlebot, ainsi que d’autres crawlers utilisés par Google pour collecter des informations sur le Web. Il peut être utile pour les sites Web d’identifier en toute sécurité de vrais Googlebots. En effet, comme nous l’avons expliqué dans un article précédent, environ 30% du trafic avec le user-agent Googlebot est un trafic de faux Googlebot.

En ce qui concerne Bard et d’autres produits d’IA générative tels que Vertex AI, Google a introduit un jeton de produit autonome nommé Google-Extended. Il peut être utilisé par les sites Web pour contrôler s’ils souhaitent ou non que leurs données soient utilisées dans les LLMs de Google et d’autres produits d’IA.

Bien que Google mentionne un jeton de user-agent dont la valeur est Google-Extended, le crawler n’a pas de user-agent de requête HTTP séparé. La valeur est utilisée dans une capacité de contrôle dans le fichier robots.txt.

Ainsi, si vous souhaitez vous désinscrire de Bard et de la formation de données Vertex AI, ne cherchez pas le user-agent Google-Extended. Au lieu de cela, vous devriez mettre à jour votre fichier robots.txt comme indiqué ci-dessous :

User-agent: Google-Extended
Disallow: /

Conclusion

Alors que l’IA générative et les LLM deviennent de plus en plus courants, les grands acteurs de l’IA et du Web commencent à fournir des mécanismes pour se désinscrire de leurs données d’entraînement. Cependant, il n’y a pas encore de normes établies, et vous devrez adapter votre approche pour des outils d’IA comme Google Bard et l’intégration de GPT de Bing.

De plus, alors que les grands acteurs peuvent accepter de divulguer leur présence lors du scraping de votre site Web, cela peut ne pas être le cas pour toutes les startups et entreprises d’IA qui collectent des données pour construire les prochains grands LLMs qui rivaliseront avec ChatGPT.

Dans ce cas, la seule solution pour bloquer les scrapers qui ne divulguent pas leur présence est d’utiliser un produit de détection de bots qui peut identifier et bloquer – en temps réel – les bots qui essaient d’éviter la détection. Des solutions avancées comme la protection contre les bots et la fraude en ligne de DataDome utilisent l’IA et le machine learning (ML) pour détecter et arrêter les bots inconnus dès la première requête, vous offrant ainsi une tranquillité d’esprit, et empêchant votre contenu d’être utilisé dans des jeux de données LLM sans votre autorisation.