Comment ChatGPT et OpenAI pourraient utiliser votre contenu, maintenant et à l’avenir

Scraping

Tout le monde parle de ChatGPT et OpenAI. La dernière version de ChatGPT a un potentiel impressionnant et peut répondre à un large éventail de questions, puisque son entraînement s’est basé sur d’énormes volumes de données provenant d’Internet.

Mais les outils d’IA comme ChatGPT soulèvent des problèmes éthiques. ChatGPT, comme la plupart des outils d’IA similaires, obtiennent leurs données d’entraînement par le biais du scraping. Les données scrapées peuvent provenir de n’importe quel site Web non protégé, et les propriétaires de sites Web peuvent ne pas vouloir mettre leur contenu à disposition, en particulier à des fins de monétisation.

Comme les utilisateurs obtiennent des réponses directement depuis ChatGPT, ils sont moins susceptibles de naviguer vers la source originale (c’est-à-dire le site Web dont proviennent les données). Par conséquent, le fait que ChatGPT fournit à ses utilisateurs des informations extraites de votre site Web diminue le nombre de visiteurs qu’auraient pu générer vos pages si cela n’avait pas été le cas.

Il est compréhensible que certains sites Web souhaitent refuser que des outils d’IA comme ChatGPT entraînent des modèles à l’aide de leurs données. D’autres sites Web, comme StackOverflow, peuvent décider de monétiser leurs données pour essayer d’avoir sa part du gâteau de l’IA comme le dit si bien le proverbe.

Avec quelles données ChatGPT s’entraîne-t-il ?

Selon Language Models are Few-Shot Learners, un document de recherche publié par OpenAI, ChatGPT3 a été entraîné avec plusieurs ensembles de données :

Common Crawl
WebText2
Books1 and Books2
Wikipedia

Ensembles de données avec lesquels ChatGPT s'est entraîné

Tableau tiré de Language Models are Few-Shot Learners.

Comme l’indique le tableau ci-dessus, le plus grand nombre de données d’entraînement provient de Common Crawl, une organisation à but non lucratif qui fournit un accès à des informations Web en produisant et en maintenant un répertoire ouvert de données d’indexation. Leurs différents extractions sont disponibles sur AWS 3, et en mai 2023, ils fournissent un accès à des dizaines d’ensembles de données s’étendant de l’été 2013 à avril 2023.

Common Crawl Crawler, aka CCBot

Le crawler du projet Common Crawl s’appelle CCBot et s’appuie sur Apache Nutch, un framework qui permet aux développeurs de construire des scrapers à grande échelle.

La version la plus récente de CCBot s’identifie comme un agent utilisateur de CCBot/2.0. Cependant, si vous souhaitez autoriser CCBot, vous ne devriez pas vous fier uniquement à l’agent utilisateur pour l’identifier. Souvenez-vous, un grand nombre de mauvais bots détournent fréquemment leurs agents utilisateurs pour prétendre être de bons bots et éviter d’être bloqués.

Pour autoriser CCBot sur votre site Web, utilisez d’autres attributs comme les plages IP ou le DNS inversé. Les anciennes versions de CCBot utilisaient les IP 38.107.191.66 à 38.107.191.119, alors que la version actuelle provient d’Amazon AWS.

Selon Common Crawl, “Le crawler CCBot a un certain nombre d’algorithmes conçus pour empêcher une charge excessive sur les serveurs Web pour un domaine donné.”

Comment puis-je empêcher ChatGPT d’accéder à mon site Web ?

La majorité des données d’entraînement de ChatGPT provient du crawler de Common Crawl. Donc, pour bloquer ChatGPT, votre site Web devrait, au minimum, bloquer le trafic de CCBot.

Robots.txt

CCBot respecte les fichiers robots.txt, et peut être bloqué par les lignes de code suivantes :

User-agent: CCBot
Disallow: /

Blocking CCBot User-Agent

Une autre option est de bloquer l’agent utilisateur CCBot. Bien que le fait d’autoriser le trafic des bons bots par l’intermédiaire d’un agent utilisateur ne soit pas sécurisé, vous pouvez bloquer un bot indésirable en toute sécurité par l’intermédiaire d’un agent utilisateur, que les attaquants ne peuvent pas tromper.

Logiciel de gestion de bot

La meilleure façon d’empêcher le scraping de vos données à n’importe quel fin est d’empêcher les bots de scraper en premier lieu. Un puissant logiciel de gestion des bots et des fraudes (comme DataDome) peut tenir les mauvais bots, et même les simples bots indésirables, à l’écart en utilisant de puissants algorithmes d’apprentissage automatique.

Y a-t-il d’autres scrapers ChatGPT / OpenAI ?

Certains bots liés aux outils d’IA sont des scrapers, et d’autres ne sont que des plugins qui ne cherchent pas activement des données à récupérer.

ChatGPT-User

Vous avez peut-être vu des requêtes provenant de l’agent utilisateur suivant dans vos journaux : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Selon OpenAI’s documentation, ces requêtes sont liées au plugin de navigation Web d’OpenAI et ne sont pas utilisées à des fins de scraping, ce qui signifie que les requêtes faites par ce bot ne sont pas utilisées pour entraîner les modèles d’OpenAI.

Agent utilisateur de ChatGPT

Tout comme le scraper ChatGPT, le bot d’OpenAI respecte également robots.txt et peut être bloqué en utilisant les lignes suivantes dans votre fichier robots.txt :

User-agent: ChatGPT-User
Disallow: /

Une autre possibilité est de bloquer son agent utilisateur :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +

https://openai.com/bot

Comment puis-je protéger les données de mon site Web contre l’entraînement des modèles d’IA à long terme ?

ChatGPT et d’autres grands modèles de langage ont besoin de données pour s’entraîner. Aujourd’hui, bloquer Common Crawl, soit en utilisant robots.txt, soit en bloquant son agent utilisateur, est suffisant pour s’extraire de la plupart des entraînements de GPT. Cependant, il est possible que la situation évolue à l’avenir.

Si OpenAI ne peut pas accéder au contenu d’un trop grand nombre de sites Web, les développeurs pourraient être tentés de cesser de respecter robots.txt et d’arrêter de déclarer l’identité de leur crawler dans l’agent utilisateur. Dans ce cas, vous devrez appliquer des techniques de détection de bots avancées pour détecter et bloquer les scrapers d’IA, comme vous le feriez pour les autres scrapers.

Il est possible qu’en raison de son partenariat avec Microsoft, OpenAI puisse accéder aux données du scraper de Microsoft Bing. Dans ce cas, la situation serait encore plus difficile pour les propriétaires de sites Web. En effet, alors que les bots de Bing s’identifient comme Bingbot, les bloquer pourrait être dangereux, empêchant les sites Web d’être indexés sur le moteur de recherche de Bing et entraînant une baisse significative du nombre de visiteurs humains.

Et quant à Bard de Google ?

Alors que tout le monde parle de ChatGPT, Google travaille également sur son rival : Bard. Le Bard de Google est basé sur le modèle linguistique LaMDA, qui a été entraîné “sur un ensemble de données de 1,56 T de mots à partir de données de dialogue public et d’autres documents Web publics ”.

Les données sur lesquelles Google Bard s'entraîne

Google reste assez vague quant à l’origine des données publiques et à la façon dont elles ont été collectées. Il est possible que les grands modèles de langage de Google soient ou seront entraînés à l’aide des données recueillies par les scrapers de Googlebot. Dans la plupart des cas, bloquer Googlebot serait imprudent, puisque c’est de cette façon que les sites Web sont indexés pour les résultats de recherche Google. Les propriétaires de sites Web s’appuient souvent sur le moteur de recherche Google pour générer du trafic sur leur site. Ainsi, bloquer Googlebot ferait chuter le nombre de visiteurs.

Quel est l’impact des grands modèles de langage sur le trafic des sites Web ?

Bien qu’il n’y ait pas encore d’étude à long terme sur l’impact potentiel des outils comme ChatGPT sur le trafic des sites Web, nous voyons déjà les utilisateurs partager des témoignages d’utilisation de ChatGPT au lieu de moteurs de recherche ou de sites Web.

Alors que les utilisateurs devaient par le passé utiliser les moteurs de recherche ou les sites Web pour obtenir leurs réponses, ils peuvent maintenant être tentés de mettre un terme à leur recherche « approfondie » en utilisant ChatGPT, sans consulter les sites Web externes. Vous pouvez imaginer l’impact significatif sur le nombre de visiteurs, les revenus publicitaires potentiels et d’autres paramètres commerciaux pour les entreprises en ligne.

Des préoccupations similaires ont été soulevées au moment de la présentation des featured snippets de Google. Comment les snippets pourraient-ils affecter le trafic des sites Web si les utilisateurs n’avaient plus à visiter le site Web, puisqu’ils obtiendraient leur réponse directement à partir de la page des résultats de recherche Google ?

Ainsi, si OpenAI (financé en partie par Microsoft) et Google commençaient à tirer parti des scrapers de Bing et de Googlebot pour collecter des données d’entraînement d’IA, les sites Web des entreprises seraient confrontés à un dilemme.

Devriez-vous:

Refuser le processus de collecte de données et perdre du trafic parce que les principaux moteurs de recherche n’indexent plus votre site ?
Permettre l’utilisation des données de votre site Web pour entraîner des modèles d’IA, mais courir le risque de perdre des visiteurs à long terme, car ceux-ci pourront obtenir toutes leurs réponses directement depuis des outils comme ChatGPT ou les moteurs de recherche ?

Bien sûr, la situation est compliquée, puisque les entreprises qui entraînent les modèles d’IA ont également besoin de données générées par les humains pour entraîner leurs modèles. Ces entreprises pourraient tirer parti de leur infrastructure et de leurs scrapers de moteurs de recherche existants pour l’entraînement d’IA, mais pourraient également fournir un nouveau type de directive dans robots.txt, de sorte que les propriétaires de sites Web pourraient choisir de refuser uniquement la partie relative aux données d’entraînement d’IA.

Quels sont les facteurs à envisager pour monétiser mon contenu web / API ?

Au lieu d’empêcher les entreprises qui essaient d’entraîner les modèles d’IA d’accéder aux données de votre site Web public, une autre possibilité est de monétiser vos données, par exemple en fournissant une API.

Quels sont les défis potentiels de la monétisation de vos données par l’intermédiaire d’une API ?

La monétisation des données par l’intermédiaire d’une API peut être difficile, en particulier si les données que vous essayez de monétiser sont publiques. Bien que certaines entreprises soient prêtes à payer le contenu structuré retourné par l’API (avec les SLA et un faible temps de réponse), d’autres pourraient être tentées de scraper votre site Web sans votre autorisation pour éviter de payer votre API. Pour empêcher tout accès non autorisé, vous devez protéger votre API contre le scraping indésirable.

Ainsi, lors de la conception de votre plan de tarification d’API, il est important de prendre en compte cette possibilité.

Une méthode pour que les gens soient moins tentés de scraper les données de votre site Web sans autorisation, au lieu de payer pour votre API, est de mettre en place une solution de détection de bots avancée. Une solution telle que DataDome surveillera en continu les requêtes faites sur votre site Web, votre application mobile et votre API, et analysera le comportement des utilisateurs pour bloquer le trafic frauduleux. La bonne solution fonctionnera en arrière-plan en collectant des données techniques telles que les empreintes du navigateur et en appliquant une analyse comportementale, de sorte que vos utilisateurs humains ne sont pas remis en question.

Quelle est la prochaine étape pour les entreprises en ligne ?

Avec les dernières améliorations en matière d’IA, en particulier sur les grands modèles de langage, l’obtention d’ensembles de données de contenu de haute qualité généré par l’humain sera d’une importance primordiale. Certains sites Web avec des données précieuses voudront soit refuser de participer à l’entraînement des modèles d’IA, soit essayer de monétiser leur contenu.

Pour le moment, vous pouvez refuser de fournir des données à des modèles comme ChatGPT en bloquant le bot Common Crawl qu’ils ont utilisé pour construire leur ensemble de données d’entraînement. Vous pouvez également bloquer les plugins ChatGPT pour éviter que les utilisateurs ne puissent interagir avec votre site Web par l’intermédiaire des plugins ChatGPT, en utilisant robots.txt ou en bloquant l’agent utilisateur du crawler.

Cependant, à long terme, des entreprises comme OpenAI (financées en partie par Microsoft) et Google pourraient être tentées d’utiliser les scrapers de leurs moteurs de recherche pour construire des ensembles de données qui peuvent entraîner leurs grands modèles d’IA. Dans ce cas, il serait plus difficile pour les sites Web de refuser le processus de collecte de données, puisque la plupart des entreprises en ligne s’appuient fortement sur Bing et Google pour indexer leur contenu et générer du trafic sur leur site Web.

Les propriétaires de sites de commerce électronique, de petites annonces et d’autres sites et applications similaires qui veulent éviter de devenir des victimes du vol de contenu devront probablement avoir besoin d’une protection avancée dans un avenir proche. Seules les solutions avancées et adaptatives qui s’appuient sur l’IA et l’apprentissage automatique (ML) pour détecter les bots et les menaces inconnues peuvent avoir une chance contre les technologies d’IA qui évoluent rapidement.

Antoine Vastel

VP of Research

Antoine Vastel est vice-président de la recherche chez DataDome, où il supervise le SOC et l'équipe de recherche sur les menaces. À ce titre, il se concentre sur l'amélioration du moteur de détection des bots en temps réel de DataDome à travers différentes approches, notamment la détection comportementale, l'empreinte digitale HTTP/navigateur, la détection des proxys/IP infectés et la détection des fermes à CAPTCHA. Antoine est titulaire d'un doctorat en informatique avec une spécialisation dans l'empreinte digitale des navigateurs.