Qu’est-ce qu’un CAPTCHA et comment ça fonctionne

Bot management

Vous avez certainement déjà rencontré un CAPTCHA en ligne. Mais pourquoi y êtes-vous confronté aussi souvent ?

Les cybercriminels programment des bots pour parcourir Internet à la recherche de failles à exploiter : manipuler vos pages, accéder à vos bases de données, voler vos données. En réalité, les bots représentent plus de 40 % du trafic en ligne.

N’importe quel site web peut être la cible d’attaques par force brute, de fraude publicitaire, de fraude transactionnelle ou de collecte automatisée de données personnelles via des bots malveillants. Les CAPTCHA ont été conçus pour protéger les sites web contre ces bots.

Qu’est-ce qu’un CAPTCHA ?

L’acronyme CAPTCHA signifie « Completely Automated Public Turing Test to Tell Computers and Humans Apart ». Il s’agit d’un test de type défi-réponse utilisé par les sites web pour différencier rapidement les utilisateurs humains des bots.

Les sites web utilisent des CAPTCHA pour vérifier si un véritable utilisateur ou un bot tente d’accéder à une page. Les premiers CAPTCHA, apparus à la fin des années 1990, consistaient en des images déformées contenant une combinaison aléatoire de lettres et de chiffres.

Comment fonctionnent les CAPTCHA ?

Lorsqu’un CAPTCHA est déclenché, une fenêtre contextuelle peut apparaître au moment où l’utilisateur tente d’accéder à une page spécifique ou de saisir des informations, l’invitant à compléter un test. Les CAPTCHA textuels d’origine tordaient et déformaient les lettres et chiffres, modifiaient les proportions, rendant leur lecture difficile pour les bots.

Exemple de CAPTCHA à l’ancienne

Les dégradés de couleurs et autres bruits visuels en arrière-plan compliquent la tâche des bots et spambots. Les codes CAPTCHA ne peuvent pas être copiés, donc les bots basiques échouent au test. Les versions suivantes utilisent des images et demandent aux utilisateurs d’identifier celles qui contiennent un certain objet. Certaines versions de reCAPTCHA sont même « invisibles », mais pas totalement efficaces contre les bots. En réalité, tous les CAPTCHA traditionnels, y compris reCAPTCHA, ont aujourd’hui été dépassés par de nombreux développeurs de bots.

En résumé, si un test CAPTCHA n’est pas déclenché ou est réussi, l’utilisateur est considéré comme humain et peut accéder normalement aux ressources du site. S’il échoue, l’utilisateur est supposé être un bot. La plupart des systèmes CAPTCHA ne disposent d’aucun moyen automatisé pour détecter les faux positifs ou les faux négatifs.

À quoi servent les CAPTCHA ?

Les CAPTCHA visent à empêcher les bots de se faire passer pour des humains afin d’accéder à des ressources réservées aux vrais utilisateurs. Il existe de nombreuses raisons pour lesquelles nous ne voulons pas que des bots accèdent à certaines pages web. Les bots malveillants peuvent :

créer de faux comptes et gaspiller des ressources précieuses. Les hackers utilisent la création de faux comptes pour générer du trafic, surcharger les serveurs et même bloquer l’accès des vrais clients à vos services. Ils peuvent aussi envoyer du spam ou lancer des campagnes de phishing ;
prendre le contrôle de sites en inondant les commentaires et formulaires de contact. Sans protection, les bots peuvent remplir les sites de messages contenant des liens malveillants. Les utilisateurs qui cliquent sur ces liens s’exposent à des arnaques potentielles ;
permettre aux scalpers d’acheter en masse des billets ou produits très demandés. Ces articles sont ensuite revendus à un prix plus élevé, ce qui frustre les véritables clients ;
fausser les sondages en ligne en votant de façon incontrôlée. Ils peuvent aussi manipuler les notes de produits sur des plateformes comme Amazon, pour améliorer ou dégrader artificiellement leur réputation ;
sécuriser les processus de paiement : certains sites et applications e-commerce intègrent des CAPTCHA sur les pages de paiement. Cela ajoute une étape supplémentaire pour bloquer les bots qui utilisent des listes de cartes bancaires volées pour effectuer des transactions.

Au départ, les CAPTCHA traditionnels étaient relativement efficaces pour empêcher les bots d’exécuter des actions malveillantes en ligne. Les bots étaient plus simples et incapables de lire les lettres et chiffres déformés. Toutefois, les bots sont devenus plus sophistiqués et savent désormais passer de nombreux types de CAPTCHA.

Quelle est la différence entre CAPTCHA et reCAPTCHA ?

Si vous avez entendu parler des CAPTCHA, vous avez probablement aussi entendu parler de reCAPTCHA. Voici la différence : CAPTCHA est un terme générique qui désigne tout type de test challenge-réponse visant à déterminer si un utilisateur est humain ou un bot, tandis que reCAPTCHA est l’implémentation spécifique développée par Google.

Google a conçu reCAPTCHA pour intégrer des algorithmes avancés et de l’apprentissage automatique afin de déterminer si un utilisateur est humain, ce qui est considéré comme plus sécurisé que les CAPTCHA traditionnels. Les principales différences sont les suivantes :

Technologie : reCAPTCHA utilise des méthodes de détection plus sophistiquées comme le suivi IP, l’analyse comportementale et des modèles d’apprentissage automatique. Les CAPTCHA traditionnels reposent essentiellement sur des défis visuels ou audio.
Expérience utilisateur : les CAPTCHA classiques peuvent être difficiles et frustrants à compléter. reCAPTCHA propose des tâches interactives plus “conviviales”, comme la reconnaissance d’images ou le suivi des mouvements de souris.
Collecte de données : reCAPTCHA analyse un grand volume de données utilisateur et de comportements, alors que les CAPTCHA de base n’évaluent que la réponse au défi posé.
Évolution : reCAPTCHA a évolué à travers plusieurs versions (v1, v2, v3) avec des méthodes de détection de plus en plus avancées, tandis que les CAPTCHA traditionnels sont restés relativement statiques.

Quels sont les différents types de CAPTCHA ?

Les CAPTCHA traditionnels existent sous de nombreuses formes :

CAPTCHA textuel

Il s’agit du type de CAPTCHA le plus répandu pendant de nombreuses années. L’utilisateur devait saisir le ou les mots affichés à l’écran pour valider le test. Le « mot » était généralement composé de lettres et de chiffres disjoints, flous, étirés ou autrement déformés. Pour rendre l’exercice plus difficile, le texte était souvent affiché sur un arrière-plan flou ou déformé.

Parmi les techniques spécifiques de CAPTCHA textuel :

Gimpy : affiche plusieurs mots d’un dictionnaire sous forme déformée
EZ-Gimpy : variante de Gimpy n’utilisant qu’un seul mot
Gimpy-r : sélectionne des lettres aléatoires, les déforme et ajoute du bruit de fond
HIP de Simard : sélectionne des lettres et chiffres aléatoires, puis les déforme avec des arcs et des couleurs

En tant que méthode d’authentification, le CAPTCHA textuel a souvent été critiqué. Les tests peuvent être difficiles à lire et manquer d’accessibilité, en particulier pour les personnes malvoyantes.

CAPTCHA visuel

Avec les CAPTCHA visuels, l’utilisateur doit sélectionner, parmi plusieurs images, celles qui contiennent un objet spécifique. Cette forme de CAPTCHA est très efficace : la reconnaissance d’image est facile pour un humain (sans doute plus que la lecture de texte), mais difficile pour les bots — du moins jusqu’à ces dernières années.

Google, par exemple, utilise sa vaste bibliothèque d’images Street View combinée à l’intelligence artificielle pour générer des CAPTCHA en temps réel (c’est pourquoi vous cliquez souvent sur des panneaux, des feux ou des bouches d’incendie). Ces challenges servent également à entraîner les modèles d’apprentissage automatique de Google pour la reconnaissance d’image.

Exemples de variantes de CAPTCHA visuels :

Sélection d’images contenant certains objets dans une mosaïque
Recomposition d’une image type puzzle
Rotation d’images à remettre à l’endroit
Identification d’objets spécifiques dans des scènes complexes

CAPTCHA audio

L’accessibilité étant essentielle, un maximum d’utilisateurs doivent pouvoir résoudre le test. Les CAPTCHA doivent donc proposer une alternative audio, souvent via une icône en forme de haut-parleur. Le système vocal génère alors une suite de lettres ou de chiffres à transcrire, ou énonce des mots commençant par les lettres spécifiées.

Lorsqu’un utilisateur clique sur l’icône casque d’un CAPTCHA visuel, il est redirigé vers un test audio. Le fichier contient plusieurs chiffres à saisir pour valider le défi.

CAPTCHA alternatifs

Certains sites choisissent de remplacer les CAPTCHA traditionnels par d’autres types de CAPTCHA, tels que :

Problème mathématique : l’utilisateur doit résoudre une opération simple (ex. : 3 + 2)
Énigme textuelle : il peut s’agir de réarranger des lettres, indiquer la couleur d’un mot ou saisir le dernier mot d’une phrase
Connexion via les réseaux sociaux : l’utilisateur peut se connecter avec son compte Google ou Facebook
Basé sur le temps : les comportements typiques de bots (remplissage de formulaire en quelques millisecondes) sont automatiquement bloqués
No CAPTCHA reCAPTCHA : l’utilisateur n’a qu’à cocher la case « Je ne suis pas un robot ». Google analyse les mouvements de souris, entre autres, pour évaluer l’authenticité
reCAPTCHA v3 : la dernière version fonctionne en arrière-plan pour détecter les bots sans interaction utilisateur

Qu’est-ce qui déclenche un test CAPTCHA ?

Idéalement, un comportement suspect déclenche un test CAPTCHA. Les déclencheurs courants incluent :

le suivi IP : l’adresse IP de l’utilisateur a été identifiée comme celle d’un bot ;
le chargement des ressources : l’utilisateur ne charge pas les styles, bannières ou images ;
la connexion : l’utilisateur n’est pas connecté à Google/Gmail lors de l’accès au site ;
l’absence d’historique de navigation : un humain ne se contente pas d’essayer de se connecter en boucle à la même page ;
le volume de trafic : des requêtes envoyées trop rapidement depuis une même source ;
des anomalies de user agent : chaînes d’identification du navigateur inhabituelles ou manquantes ;
un comportement typique de bot : clics étranges, peu de mouvements de souris, clics parfaitement centrés sur une case à cocher, etc., peuvent déclencher un CAPTCHA.

Exemples d’utilisation des CAPTCHA

Paiement e-commerce : les sites de vente en ligne utilisent souvent des CAPTCHA lors du paiement pour empêcher les achats frauduleux ou la vidange de stocks par des bots.
Création de compte : les réseaux sociaux et services en ligne utilisent des CAPTCHA pour empêcher la création massive de faux comptes.
Formulaires de contact : les sites professionnels protègent leurs formulaires de contact contre le spam en exigeant la résolution d’un CAPTCHA avant l’envoi du message.
Protection des sondages : les sites d’actualité et les instituts d’étude utilisent des CAPTCHA pour garantir que les réponses proviennent de véritables utilisateurs et préserver l’intégrité des données.

Les CAPTCHA sont très courants dans les formulaires de contact

Quels sont les inconvénients des CAPTCHA ?

Les CAPTCHA ne bloquent pas totalement les bots. Ils ne doivent être qu’un signal parmi d’autres dans un système de détection plus large visant à bloquer les bots malveillants. Ils ne sont pas infaillibles, surtout s’ils sont utilisés seuls, et ne doivent jamais constituer votre première ligne de défense. De plus, les CAPTCHA modernes présentent plusieurs limites majeures.

Impact sur l’expérience utilisateur : un test CAPTCHA peut interrompre le parcours de l’utilisateur, dégrader son expérience sur le site et parfois même le pousser à quitter la page.
Problèmes d’accessibilité : les CAPTCHA reposent sur la perception visuelle. Ils sont donc quasiment inutilisables non seulement pour les personnes malvoyantes, mais aussi pour toute personne ayant une déficience visuelle importante.
Compatibilité des navigateurs : certains types de CAPTCHA ne fonctionnent pas avec tous les navigateurs ou appareils plus anciens, ce qui peut exclure des utilisateurs légitimes.
Enjeux de confidentialité : reCAPTCHA collecte une grande quantité de données utilisateur pour l’écosystème publicitaire de Google, soulevant des questions de conformité au RGPD et à la protection de la vie privée.

Remarque : DataDome propose le premier CAPTCHA à la fois facile à utiliser, conforme à la confidentialité des données et sécurisé. Mais même le DataDome CAPTCHA n’est pas conçu pour bloquer les bots isolément. Il s’intègre à une solution complète de protection contre les bots et la fraude en ligne, alimentée par l’apprentissage automatique, qui analyse 5 000 milliards de signaux par jour et évalue chaque requête en fonction de l’ensemble des signaux accumulés.

Comment les bots avancés contournent-ils les CAPTCHA ?

Les développeurs de bots utilisent aujourd’hui plusieurs techniques sophistiquées pour contourner la majorité des CAPTCHA :

Solutions d’apprentissage automatique : il existe de nombreuses façons de programmer un bot pour battre un CAPTCHA. Les bots dopés à l’IA peuvent désormais résoudre de nombreux CAPTCHA textuels et visuels, parfois plus rapidement que les humains.
Fermes à CAPTCHA : les attaquants peuvent recourir à des fermes de clics, avec des milliers de travailleurs mal rémunérés résolvant les CAPTCHA pour le compte de bots. Ces services permettent aux opérateurs de bots sophistiqués d’externaliser la résolution des CAPTCHA à des humains pour quelques centimes par test.
Imitation comportementale : les bots avancés peuvent simuler des mouvements de souris, des schémas de clic et un comportement de navigation humain pour tromper les systèmes basés sur l’analyse comportementale.
Outils d’automatisation de navigateur : les navigateurs headless modernes et frameworks d’automatisation peuvent exécuter du JavaScript et imiter les empreintes numériques de navigateurs légitimes, ce qui rend la détection beaucoup plus difficile.

6 alternatives aux CAPTCHA

Bien que les CAPTCHA restent largement utilisés, plusieurs alternatives offrent des niveaux de sécurité similaires avec une meilleure expérience utilisateur :

Honeypots : champs invisibles ajoutés aux formulaires web pour détecter les bots. Les utilisateurs humains ne peuvent ni les voir ni interagir avec eux, mais les bots tentent de les remplir, permettant ainsi aux sites de les identifier et de les bloquer facilement.
Authentification à deux facteurs : l’authentification à deux facteurs (2FA) est un processus de sécurité qui demande aux utilisateurs de fournir deux éléments d’identification avant d’accéder à un service. Cela peut inclure quelque chose que l’utilisateur connaît (mot de passe) et quelque chose qu’il possède (smartphone ou token de sécurité).
Analyse comportementale : des outils peuvent être utilisés pour identifier et bloquer les bots en se basant sur leur comportement de navigation. Cela inclut la vitesse de navigation, les mouvements de souris ou de pavé tactile, ainsi que les comportements de défilement et de clic sur smartphone.
Vérification par email : permet de confirmer l’identité d’un utilisateur en lui envoyant un lien ou un code de vérification à son adresse email.
Challenges par preuve de travail : l’atténuation par challenge cryptographique repose sur le concept de preuve de travail utilisé dans les blockchains. Elle consiste à soumettre les bots suspects à des défis continus et invisibles exécutés dans le navigateur.
Détection avancée des bots : les solutions modernes comme DataDome utilisent l’apprentissage automatique, le device fingerprinting et l’analyse comportementale en temps réel pour identifier les bots sans interaction avec l’utilisateur.

Le CAPTCHA de DataDome s’intègre à une protection complète contre les bots

Non seulement les CAPTCHA traditionnels (comme reCAPTCHA) sont incapables de bloquer les bots avancés, mais ils sont également connus pour faire chuter les taux de conversion et faire fuir les utilisateurs en raison d’une mauvaise expérience utilisateur.

Une meilleure alternative consiste à adopter une solution de protection contre les bots et la fraude en ligne efficace, avec une précision inégalée, sans compromis, et dotée de son propre CAPTCHA intégré. Grâce à l’apprentissage automatique, la solution en temps réel de DataDome peut identifier les bots les plus récents et les plus sophistiqués en quelques millisecondes.

Votre expérience utilisateur est également préservée, car seul 1 CAPTCHA sur 10 000 est visible pour un client. (Autrement dit, nous avons le taux de faux positifs leader du marché de 0,01 %.) Et dans le cas rare où un utilisateur légitime verrait notre CAPTCHA, celui-ci est simple, accessible et respecte la vie privée.

Découvrez-le par vous-même en demandant une démo.

FAQ

Les CAPTCHA fonctionnent-ils vraiment ?

Oui et non. Si les CAPTCHA peuvent encore bloquer des bots très simples, ils ne remplissent plus leur objectif initial : arrêter tous les bots sans nuire à l’expérience utilisateur. Les CAPTCHA traditionnels fonctionnent en silo, sans prendre en compte d’autres signaux que le succès ou l’échec du test. Or, d’autres signaux sont indispensables pour détecter les bots sophistiqués d’aujourd’hui. Les CAPTCHA ne peuvent pas bloquer les bots à eux seuls, et donnent les meilleurs résultats lorsqu’ils sont associés à une solution de détection avancée.

DataDome a créé le premier CAPTCHA conforme au RGPD et simple d’utilisation, parfaitement synchronisé avec une détection des bots et de la fraude en ligne précise et en temps réel. Le DataDome CAPTCHA n’est affiché que lorsque la solution de détection ne peut déterminer avec certitude si un utilisateur est humain ou non (sur la base de milliers de milliards de signaux analysés) et qu’une vérification supplémentaire est nécessaire.

Comment fonctionne reCAPTCHA ?

ReCAPTCHA, acquis par Google en 2009, est une marque particulière de test CAPTCHA. La première version de reCAPTCHA affichait un texte déformé et demandait aux utilisateurs de le déchiffrer puis de le saisir dans un champ.

La version 2 de reCAPTCHA est toujours utilisée et comprend plusieurs sous-versions : no CAPTCHA (l’utilisateur clique sur la case « Je ne suis pas un robot ») et reCAPTCHA invisible (la case « Je ne suis pas un robot » est liée à un autre bouton du site). La version 3 ne comporte pas de case à cocher, mais surveille plutôt le comportement de l’utilisateur sur la page afin de lui attribuer un score — plus il est proche de 0, plus il est probable qu’il s’agisse d’un bot.

Les CAPTCHA peuvent-ils être contournés ?

Oui, les CAPTCHA traditionnels peuvent être, et sont souvent, facilement contournés par les bots. Les bots sont de plus en plus capables d’imiter le comportement humain et les empreintes numériques. Avec reCAPTCHA, ils peuvent même obtenir un score « humain » avec la version 3, sans être bloqués ni mis au défi.

Aujourd’hui, de nombreux bots confrontés à un défi CAPTCHA peuvent simplement le faire résoudre par un humain via des CAPTCHA farms. En outre, les avancées en apprentissage automatique ont permis à certains bots de résoudre eux-mêmes les CAPTCHA grâce à la reconnaissance d’images ou de sons.

Comment un CAPTCHA empêche-t-il le spam ?

Les CAPTCHA visent à prévenir le spam de la même manière que des alternatives comme les honeypots, la limitation de débit ou les WAF. Les bots simples sont généralement détectés par ces filtres et ne parviennent pas à résoudre les défis, ce qui peut parfois les ralentir suffisamment pour que le spammeur passe à une autre cible. Mais la plupart des bots actuels sont bien trop sophistiqués pour être stoppés par un CAPTCHA isolé.

Quels sont les problèmes d’accessibilité liés aux CAPTCHA ?

Les CAPTCHA posent des défis importants pour les utilisateurs en situation de handicap. Les CAPTCHA visuels sont quasiment impossibles à résoudre pour les personnes malvoyantes, tandis que les CAPTCHA audio peuvent être difficiles pour les personnes malentendantes. De nombreux CAPTCHA ne sont également pas compatibles avec les lecteurs d’écran ou les technologies d’assistance, ce qui peut exclure des utilisateurs légitimes de l’accès à certains sites web.

Le CAPTCHA est-il sûr à utiliser ?

Bien que les CAPTCHA puissent offrir une certaine protection contre les bots simples, ils présentent des inconvénients. Les CAPTCHA traditionnels peuvent compromettre la vie privée des utilisateurs (en particulier reCAPTCHA), créer des obstacles en matière d’accessibilité et nuire à l’expérience utilisateur. Les alternatives modernes, qui ne nécessitent aucune interaction de l’utilisateur tout en maintenant un bon niveau de sécurité, constituent généralement des choix plus sûrs tant pour la confidentialité que pour la facilité d’utilisation.