Comment fonctionnent les plugins ChatGPT et ce qu’ils signifient pour votre entreprise

Scraping

Qu’est-ce qu’un plugin ChatGPT ?

Le 23 mars 2023, OpenAI a annoncé des plugins permettant de connecter ChatGPT à des applications tierces. Les plugins servent à connecter de grands modèles de langage (LLM) comme ChatGPT à des outils externes et permettent aux LLM :

d’accéder aux données externes disponibles sur le Web ;
d’accéder aux données privées ;
de récupérer des informations en temps réel (notamment les nouvelles) ;
d’aider les utilisateurs à effectuer des actions en ligne (par exemple, réserver un vol).

Comment les plugins ChatGPT seront-ils utilisés ?

Les cas d’utilisation des plugins ChatGPT sont nombreux. Voici les plus courants :

Réserver une table au restaurant : les utilisateurs peuvent saisir quelque chose comme « Réserver une table pour deux à 19 heures au restaurant La Baguette. » ChatGPT analysera la phrase et le plugin déclenchera la réservation à l’aide de requêtes API.
Faire ses courses : les utilisateurs peuvent faire leurs courses dans l’un des nombreux services d’épicerie en ligne comme Instacart. ChatGPT analysera la liste de courses, ainsi que le service d’épicerie souhaité, puis effectuera la commande pour l’utilisateur.

ChatGPT Plugins Instacart

Récupérer des données en temps réel : les plugins ChatGPT peuvent également être utilisés pour naviguer sur le web et récupérer des données en temps réel. Faute de plugins à compter de juin 2023, ChatGPT ne pouvait pas récupérer de données en temps réel ni accéder à Internet, et les informations les plus récentes de son ensemble de données de formation datent de septembre 2021. Si un utilisateur interroge ChatGPT sur un événement survenu après septembre 2021, il répondra donc simplement qu’il n’en a pas connaissance. Les plugins peuvent localiser des informations actualisées en ligne pour les partager avec l’utilisateur.

Plugin ChatGPT

Bien que la limite des données en temps réel de ChatGPT soit résolue avec le modèle « Browsing » (actuellement en version alpha), des plugins tels que WebPilot et Link Reader couvrent déjà ce cas d’utilisation.

ChatGPT Plugins Browsing

Comment savoir si les plugins ChatGPT font des requêtes sur mes sites web ?

La documentation de l’OpenAI indique que les requêtes avec l’en-tête HTTP user-agent suivant proviennent des plugins ChatGPT : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

La documentation n’indique cependant pas si c’est le seul agent utilisateur susceptible d’être utilisé par les plugins lorsqu’ils effectuent des requêtes HTTP.

ChatGPT Plugins ChatGPT-User

Utilisation des plugins ChatGPT

Les plugins ChatGPT pouvant interagir avec des API tierces, ces dernières peuvent en effet effectuer n’importe quel type de requête HTTP à partir de leur propre infrastructure, une fonctionnalité qui est à la base des plugins ChatGPT. Par exemple, un plugin peut permettre aux utilisateurs d’effectuer des appels API pour réserver une table dans un restaurant ou faire des courses directement à partir de ChatGPT.

Le diagramme ci-dessous montre ce qu’il se passe lorsque quelqu’un utilise ChatGPT avec un « plugin Live Sport » fictif pour obtenir les dernières informations sur un événement sportif.

ChatGPT-Plugins-Schema

Dans ce cas, l’utilisateur interagit avec ChatGPT pour obtenir les résultats d’un événement sportif. ChatGPT déclenche le plugin Live Sport et envoie une requête (avec des paramètres analysés à partir de l’invite de l’utilisateur) aux terminaux API du plugin. Le plugin effectue ensuite une requête HTTP pour récupérer un site web sportif afin d’obtenir les informations les plus récentes sur l’événement. Les informations sont ensuite transmises à l’utilisateur final par l’intermédiaire de ChatGPT.

Dans la réalité, une API de plugin pourrait envoyer une requête à une API de sport, sans avoir nécessairement à parcourir un site web sportif.

Lorsque les requêtes sont effectuées directement à partir du serveur hébergeant l’API du plugin, il n’y a pas de contrainte sur l’agent utilisateur. Pour le démontrer, nous avons analysé deux plugins ChatGPT populaires susceptibles de déclencher des requêtes HTTP à partir des serveurs qui gèrent leurs API :

WebPilot : permet de parcourir des pages web et des PDF/données, et de générer des articles à partir d’une ou plusieurs URL.
Link Reader : permet de lire le contenu de tous types de liens, notamment les pages web, les PDF, les PowerPoint et les images.

ChatGPT Plugin Store

Analyse du plugin WebPilot

Nous avons rédigé une simple invite dans l’interface utilisateur ChatGPT (avec le plugin WebPilot activé) pour résumer l’un de nos articles de blog hébergé sur le site web de DataDome.

Magasin de plugins ChatGPT

Lorsque nous examinons la requête déclenchée par le plugin WebPilot dans le tableau de bord DataDome, nous constatons qu’elle ne contient pas l’agent utilisateur du plugin ChatGPT décrit dans la documentation OpenAI.

Décomposition de la requête WebPilot sur le tableau de bord DD

La requête possède un véritable agent utilisateur Chrome 113 sur Linux. Notez toutefois qu’il provient d’un navigateur headless Chrome. DataDome détecte en effet les signaux suivants :

La requête comporte l’indice client utilisateur suivant : "HeadlessChrome";v="113", "Chromium";v="113", "Not-A.Brand";v="24".
Il n’y a pas l’en-tête accept-language normalement présent sur Chrome.
Le navigateur a navigator.webdriver = true.
Il a une résolution d’écran par défaut de Headless Chrome de 600×800 px.

Analyse du plugin Link Reader

Nous avons fait la même expérience avec un autre plugin populaire de ChatGPT : Link Reader.

ChatGPT Plugins Link Reader

Nous voyons ici que la requête contient bien l’agent utilisateur du plugin ChatGPT :

ChatGPT Plugins User-Agent Block

Notez toutefois que l’adresse IP 3.91.22.243 appartient à AWS. Cette adresse IP (et la plage d’adresses IP) est différente de celle indiquée dans la documentation du plugin OpenAI (23.98.142.176/28), qui appartient à Microsoft. Cette requête provient probablement directement de l’infrastructure de Link Reader, et non de celle d’OpenAI.

Les plugins ChatGPT sont-ils utilisés de manière abusive ?

Nous détectons en moyenne environ 300 000 requêtes par semaine qui utilisent le plugin ChatGPT user-agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot. Ce trafic est lié à la fois aux plugins de ChatGPT et à la fonctionnalité de « browsing » de ChatGPT, qui était encore en version alpha en juin 2023.

Les principaux secteurs d’activité dans lesquels nous constatons un trafic de plugins :

ChatGPT-Plugins-Industry-PieChart

Il est plus difficile de mesurer le trafic des plugins qui effectuent des requêtes directement à partir de leur backend avec un agent utilisateur différent, car chaque plugin a sa propre signature qui peut ne pas être unique. Par exemple, WebPilot utilise Headless Chrome, qui est également utilisé par de nombreux autres développeurs de bots.

Les plugins ChatGPT peuvent-ils avoir un impact sur mes recettes à long terme ?

Les plugins ChatGPT sont relativement récents. Certaines entreprises développent leurs propres plugins pour permettre aux utilisateurs d’interagir différemment avec leurs contenus/services via ChatGPT, par exemple pour réserver un hôtel ou un restaurant.

Selon votre secteur d’activité, si les utilisateurs interagissent avec votre site web par l’intermédiaire de plugins ChatGPT tiers, ils verront moins de publicités et le trafic sur votre site web diminuera. Les utilisateurs peuvent aussi être moins enclins à payer pour vos fonctionnalités premium si elles peuvent être reproduites par des plugins ChatGPT tiers (par exemple, si un client web non officiel qui interagit avec votre site offre des fonctionnalités premium par le biais de son interface utilisateur).

Comment bloquer les requêtes provenant des plugins ChatGPT ?

Vous pouvez bloquer les requêtes provenant d’un agent utilisateur contenant la sous-chaîne ChatGPT-User (telle que contenue dans l’agent utilisateur du plugin ChatGPT : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot). Notez que vous pourrez également bloquer les utilisateurs de ChatGPT dont le mode « browsing » activé. Le processus est similaire à celui qui consiste à empêcher les scrapers web de ChatGPT de récupérer votre contenu.

En ce qui concerne les plugins qui ne déclarent pas leur identité dans l’agent utilisateur, vous devrez appliquer des techniques avancées de détection des bots pour savoir si la requête provient d’un bot.

Conclusion

Les plugins pour ChatGPT permettent aux utilisateurs d’accéder à des informations en temps réel et d’effectuer certaines tâches, par exemple faire leurs courses. Cependant, l’utilisation accrue des plugins ChatGPT pourrait réduire le nombre d’utilisateurs qui naviguent réellement vers le site web de votre entreprise, et donc entraîner une baisse du trafic et du nombre de clics sur les publicités.

Et contrairement à ce que la documentation d’OpenAI indique, détecter et bloquer les requêtes provenant de ChatGPT (et de ses plugins) ne revient pas simplement à bloquer toutes les requêtes avec la sous-chaîne ChatGPT-User (telle que contenue dans l’agent utilisateur du plugin ChatGPT).

Les plugins ChatGPT peuvent effectuer des requêtes directement à partir des serveurs hébergeant leurs API en utilisant n’importe quel agent utilisateur, voire des navigateurs automatisés (sans tête), comme c’est le cas avec le plugin WebPilot. Dans ce cas, il n’existe pas de solution simple et directe reposant uniquement sur l’agent utilisateur.

Pour éviter de perdre du trafic web et des revenus publicitaires au profit de ChatGPT et de ses plugins, vous devez appliquer des techniques de détection des bots, notamment l’empreinte digitale, la détection de proxy et l’analyse comportementale. La principale difficulté est que vous devrez généralement prendre une décision dès la première requête. Des solutions avancées comme la protection contre les bots et la fraude de DataDome s’appuient sur l’IA et l’apprentissage automatique (Machine Learning, ML) pour détecter et arrêter les bots inconnus dès la première requête. Vous pouvez ainsi avoir l’esprit tranquille et ne pas laisser votre contenu être utilisé par des plugins inconnus.

Antoine Vastel

VP of Research

Antoine Vastel est vice-président de la recherche chez DataDome, où il supervise le SOC et l'équipe de recherche sur les menaces. À ce titre, il se concentre sur l'amélioration du moteur de détection des bots en temps réel de DataDome à travers différentes approches, notamment la détection comportementale, l'empreinte digitale HTTP/navigateur, la détection des proxys/IP infectés et la détection des fermes à CAPTCHA. Antoine est titulaire d'un doctorat en informatique avec une spécialisation dans l'empreinte digitale des navigateurs.

Comment fonctionnent les plugins ChatGPT et ce qu’ils signifient pour votre entreprise

Qu’est-ce qu’un plugin ChatGPT ?

Comment les plugins ChatGPT seront-ils utilisés ?

Comment savoir si les plugins ChatGPT font des requêtes sur mes sites web ?

Analyse du plugin WebPilot

Analyse du plugin Link Reader

Les plugins ChatGPT sont-ils utilisés de manière abusive ?

Les plugins ChatGPT peuvent-ils avoir un impact sur mes recettes à long terme ?

Conclusion

Articles liés

Qu’est-ce qu’une solution anti-bot et comment fonctionne-t-elle ?

Comment DataDome a bloqué une attaque de scraping de 80M de requêtes visant une plateforme d'avis de premier plan

Loveholidays protège ses API et améliore ses conversions grâce à une défense anti-bot en temps réel

Analyse du trafic Kimwolf : comment les proxys résidentiels alimentent le credential stuffing, le scraping et la fraude

Vous explorez encore ?