Ce que vous devez savoir sur l’intégration du nouveau Bing GPT

Scraping

Au cours des dernières années, Microsoft a investi massivement dans OpenAI, établissant une relation avec la société à l’origine du célèbre modèle de langage génératif ChatGPT. Nous avions soupçonné dans notre premier article sur ChatGPT que des entreprises comme OpenAI pourraient être tentées d’utiliser des scraper bots de moteurs de recherche Bing ou Google pour collecter des données afin de former leurs grands modèles de langage (LLM) tels que ChatGPT. Cette intégration rendrait beaucoup plus difficile pour les entreprises de refuser la collecte de données sans avoir un impact négatif sur leur présence en ligne.

Plus tôt cette année, Microsoft a annoncé que l’IA serait intégrée à son moteur de recherche, Bing, de manière à permettre aux utilisateurs d’interagir directement depuis le moteur de recherche pour poser des questions. Cette fonctionnalité s’appelle le nouveau Bing, disponible pour les utilisateurs de Microsoft Edge, et utilise GPT-4, le même modèle que ChatGPT.

Vous vous demandez peut-être comment empêcher le nouveau Bing d’utiliser les données de votre site web pour l’entraînement, ou comment empêcher les utilisateurs d’obtenir des réponses qui ne se trouvent que sur votre site web, car cela pourrait avoir un impact négatif sur votre entreprise. Nous avons examiné le fonctionnement de l’intégration Bing-GPT et comment les entreprises peuvent refuser que leurs données soient utilisées par le nouveau Bing.

Comment accéder au nouveau Bing depuis le navigateur Edge ?

Si vous effectuez une recherche sur Bing, par exemple « qu’est-ce que DataDome », une section “Chat” à côté d’une icône bleue apparaîtra sous la barre de recherche.

A screenshot of the new Bing search UI which includes an AI chat tab.

Si vous cliquez dessus, cela ouvre une nouvelle page avec la nouvelle interface de Bing, qui est configurée comme une conversation.

A screenshot of the new Bing-GPT chat UI

Notre requête « qu’est-ce que DataDome » a été automatiquement traitée par GPT-4 et le nouveau Bing a fourni un résumé de ce que fait DataDome : protéger les entreprises contre la fraude en ligne et les bots malveillants !

En tant qu’utilisateur, vous pouvez poser directement des questions sur la nouvelle interface de chat Bing, et Bing utilisera GPT-4 pour répondre à vos questions, ce qui signifie que vous n’avez pas besoin de visiter directement les sites web pour obtenir votre réponse. Cependant, le nouveau Bing liste toujours ses sources dans la section « En savoir plus ».

Comment Bing collecte-t-il des données pour répondre aux requêtes ?

Dans la première version populaire de ChatGPT, basée sur GPT-3, OpenAI était assez transparente sur la source des données d’entrainement. Ils ne fournissent plus cette information pour les dernières versions de GPT, car le rapport technique de GPT-4 ne mentionne pas l’ensemble de données d’entraînement.

Comme nous l’avions prédit il y a quelques mois, il est très probable qu’OpenAI exploite sa relation avec Bing pour utiliser les données collectées par Bingbot, le scraper utilisé par Bing pour indexer le web, afin de recueillir des données d’entraînement à grande échelle pour ses LLM.

La raison pour laquelle nous pensons que cela est très probable vient de notre prochaine découverte : que se passe-t-il lorsque vous demandez au nouveau Bing de récupérer des informations à partir d’une URL spécifique ?

Pour mener notre test, nous avons demandé au nouveau Bing de résumer le contenu d’une page située sur le site web de DataDome. Nous lui avons demandé de s’assurer qu’il utilisait la dernière version pour essayer de le forcer à faire une requête vers notre site.

A screenshot of a query made to the new Bing AI chat, asking it to summarize an article on DataDome's website.

Même si nous avons demandé à Bing GPT de récupérer la dernière version de l’URL, nous ne voyons aucune requête effectuée vers l’URL, quelle que soit l’adresse IP ou le user-agent.

Cependant, en examinant les 24 heures précédentes de nos journaux, nous avons observé que Bingbot avait effectué plusieurs requêtes vers cette page (parmi d’autres sur notre site web). Cette activité semble être celle du scraper Bingbot standard qui analyse chaque page publique pour les afficher sur le moteur de recherche.

A screenshot of DataDome website logs, showing activity from the Bingbot scraper before the query was made.

Cela constitue une preuve solide que le nouveau Bing utilise probablement le contenu collecté par Bingbot. Cependant, il ne réalise pas de requêtes HTTP sur le moment pour recueillir des informations sur les URL fournies dans l’interface de chat de Bing.

Dans des tests futurs, nous pourrions aller plus loin en fournissant une page spéciale uniquement à Bingbot, puis voir si ce contenu est celui utilisé lorsque l’on pose des questions à son sujet dans l’interface de chat de Bing.

Comment puis-je désactiver la nouvelle fonctionnalité Bing GPT ?

En ce qui concerne les grands modèles de langage (LLM), le fait de se désengager peut signifier deux choses :

Vous ne souhaitez pas que vos données soient utilisées pour entraîner le LLM.
Vous ne voulez pas que les utilisateurs de Bing GPT effectuent des requêtes sur le contenu de votre site web sans réellement visiter votre site.

La différence entre les deux peut sembler subtile, mais elle est fondamentale pour le problème en question. Les LLM sont formés sur d’énormes volumes de données. Si vos données ne sont pas incluses dans l’ensemble de données de formation du LLM, celui-ci répondra avec moins de précision aux questions dont la réponse n’a été trouvée que sur votre site web et qu’il était difficile de généraliser à partir d’autres sources dans l’ensemble de données de formation.

Cependant, rien n’empêche l’interface utilisateur LLM – en l’occurrence l’interface de discussion Bing – de récupérer dynamiquement le contenu des URL/pages en réponse aux requêtes des utilisateurs et de transmettre le contenu au LLM. Ainsi, même si le contenu de votre site n’a pas été initialement utilisé pour former le LLM, ce dernier peut toujours l’utiliser pour améliorer la qualité de son raisonnement. Nous avons abordé ce cas d’utilisation dans le contexte des plugins ChatGPT.

Désactivation du nouveau Bing

En septembre 2023, Bing a proposé un mécanisme pour aider les webmasters à contrôler la façon dont leur contenu est utilisé par l’IA.

Ajouter la balise « nocache » signifie que seuls les URL/Snippet/Title peuvent être inclus dans la réponse de la discussion, et non le contenu lui-même. Notez que le contenu avec la balise « nocache » peut encore être utilisé à des fins de training de LLM.

Le contenu tagué avec la balise « noarchive » ne sera pas inclus dans les réponses de la discussion Bing. Il sera également exclu des ensembles de données d’entraînement des modèles d’IA générative de Microsoft.

Le tag peut être utilisé comme suit : <meta name="robots" content="noarchive, nocache">.

Si le site web souhaite spécifier le tag uniquement pour Bing, le tag peut être : <meta name="robots" content="noarchive"> <meta name="bingbot" content="nocache">.

Conclusion

Bien qu’il y ait des débats au sein de la communauté de l’IA sur la possibilité d’ajouter éventuellement un fichier ai.txt similaire à robots.txt, ce n’est pas encore une réalité. Actuellement, les entreprises doivent gérer la manière dont les robots et les scrapers web de chaque LLM peuvent accéder et utiliser leur contenu en ligne, en particulier les scrapers de moteurs de recherche tels que Googlebot et Bingbot.

Cependant, gardez à l’esprit que ce ne sont pas seulement les entreprises du groupe FAANG qui forment des LLM. D’autres entreprises qui n’ont pas accès aux scrapers de moteurs de recherche forment également leurs LLM, et rien ne les empêche d’indexer le contenu de votre site web et de le rendre disponible via un grand modèle de langage. Ni un fichier robots.txt ni un fichier ai.txt n’empêchent les entreprises de scraper votre site web pour collecter des données.

La seule solution fiable à long terme est de mettre en place des mécanismes de détection des bots appropriés, de sorte que les bots et les scrapers puissent être détectés et bloqués, même s’ils ne respectent pas le fichier robots.txt et essaient de rester invisibles en falsifiant leur user-agent ou en utilisant des adresses IP résidentielles propres. Des solutions avancées comme la protection contre les bots et la fraude en ligne DataDome exploitent l’IA et l’apprentissage automatique (machine learning, ML) pour détecter et stopper les bots inconnus dès la première requête, ce qui vous permet d’avoir l’esprit tranquille et d’éviter que votre contenu ne soit utilisé dans des ensembles de données LLM sans votre autorisation.