Rencontrez notre Head of Research : Questions/Réponses avec Antoine Vastel, PhD
En tant que Head of Research, Antoine analyse les demandes des clients et les alertes provenant des systèmes de surveillance internes, afin de garantir que l’équipe mondiale de DataDome reste à jour sur les nouvelles découvertes et les activités suspectes. Il travaille également en direct avec les clients pour préparer les ventes flash et les lancements de produits en édition limitée. Fait amusant : Antoine développe ses propres (bons) bots — pour la recherche, bien sûr — et, pendant son temps libre, il écrit du code que même les concurrents rêvent d’intégrer à leurs produits !
Q : À quoi ressemble une journée de travail typique pour toi ?
A : Lors d’une journée classique, je consacre une bonne partie de mon temps à examiner les demandes des clients de DataDome et les alertes de nos systèmes de surveillance internes, dans le but d’améliorer nos capacités de détection de bots. Nous surveillons un large éventail de signaux liés à un trafic potentiellement suspect et, dès que cela nous paraît trop suspect, nous y regardons de plus près.
Par exemple, un site américain peut avoir un trafic légitime en provenance d’Europe, mais si le volume de trafic européen augmente fortement sans raison apparente, nous analysons le contexte pour identifier d’éventuels schémas récurrents, afin de nous assurer de ne rien laisser passer.
Notre objectif est toujours d’utiliser ces demandes clients et alertes internes comme sources d’amélioration à long terme de notre moteur de détection de bots. Il ne s’agit pas simplement de fermer un ticket ou de faire disparaître une alerte, mais de s’assurer que toutes les informations sont correctement prises en compte.
En tant que responsable d’une équipe répartie dans le monde entier, je dois aussi veiller à ce que nous communiquions bien et partagions nos connaissances. Par exemple, lorsque nous créons des modèles d’apprentissage automatique, notre objectif est d’automatiser la détection à grande échelle et de résoudre des problèmes spécifiques.
Quand nos analystes de données partagent les difficultés qu’ils rencontrent, cela permet aux data scientists de comprendre ce qui vaut la peine d’être automatisé. De la même manière, il est utile que les chercheurs en menaces connaissent les limites de notre détection actuelle. Si quelqu’un découvre une nouvelle façon efficace de falsifier plusieurs attributs, nous savons qu’il faut investir du temps dans l’amélioration de la détection sur ce point.
Enfin, je travaille en direct avec de nombreux clients pour les aider à se préparer à des ventes flash ou à des lancements de produits en édition limitée. Pour ce type d’événement, nous avons un mode de protection dédié, avec des modèles comportementaux plus agressifs, qui garantissent que seuls les humains participent. Nous pouvons également surveiller manuellement le trafic pendant toute la durée de la vente.
Q : Comment menez-vous vos recherches sur les menaces ?
A : Nous avons plusieurs façons de garder une longueur d’avance sur les bots. Toutes les requêtes et signaux que nous collectons pour nos clients sont stockés dans un grand cluster Elasticsearch interne.
Après une attaque de bots, nous accédons aux données via Kibana ou un script Python, pour analyser la performance de notre détection. Aurions-nous pu faire mieux en ajustant nos modèles ou certaines signatures ?
Parfois, l’analyse des données nous montre qu’il nous manque des signaux pour optimiser la détection. Si les attaquants utilisent un outil open source, nous pouvons le télécharger, l’exécuter, analyser son code, l’observer lorsqu’il interagit avec une page protégée par DataDome, et voir ce que nous pouvons en tirer.
C’est pareil pour les produits payants, comme les bots de scalping : nous pouvons les acheter, les analyser, comprendre leur fonctionnement, et identifier de nouvelles manières de les détecter, que ce soit via leur signature ou leur comportement.
Il y a aussi les proxys. Nous sommes abonnés à de nombreux fournisseurs de proxys pour bien les détecter. Si une adresse IP a été utilisée par un fournisseur, nous utilisons cette information pour entraîner nos modèles d’apprentissage automatique et surveiller leurs performances.
Pour détecter les bots, il est aussi crucial de comprendre la mentalité des attaquants. Donc oui, je crée et j’utilise aussi des bots — de manière respectueuse, bien entendu !
Un attaquant a toujours un objectif, souvent financier. Je me mets donc dans la même logique : si j’ai x dollars à investir, comment puis-je en tirer un profit rapide ? En prenant en compte le coût, quelle est la meilleure stratégie et comment l’adapter ?
L’idée est vraiment de rester au fait des outils utilisés par les attaquants, de s’assurer que nous les détectons, et si ce n’est pas le cas, nos analystes et chercheurs chercheront de nouveaux signaux ou ajusteront les modèles existants.
Q : Comment es-tu arrivé dans le domaine de la recherche sur les menaces ?
A : Ma thèse de doctorat portait à l’origine sur des sujets de confidentialité. J’étudiais le fingerprinting des navigateurs, et j’ai passé beaucoup de temps à appeler le million de sites web les plus populaires selon Alexa afin d’identifier les traceurs, les traces d’exécution de scripts, etc. À l’époque, pour créer un bot, on faisait soit des requêtes HTTP avec un script Python, soit on utilisait PhantomJS, qui fonctionnait bien, mais n’était pas très avancé.
Puis Google a sorti Headless Chrome, et tout est devenu plus simple. C’était très facile de créer un bot réaliste. J’ai donc continué à scraper des sites pour ma recherche sur la vie privée. Mais à un moment, j’ai été bloqué, car je ne camouflais pas vraiment mon empreinte.
En essayant de comprendre ce qui avait déclenché le blocage, j’ai découvert qu’il existait des solutions de détection pour Selenium ou PhantomJS, mais rien pour Headless Chrome, car c’était tout nouveau. J’ai donc commencé à faire un peu de rétro-ingénierie, et j’ai lancé un dépôt GitHub, Headless Cat & Mouse, en collaboration avec quelqu’un de l’équipe Headless Chrome de Google.
J’ai vraiment aimé ce travail, et ma thèse s’est progressivement orientée vers la détection des bots. C’était logique, car le fingerprinting est moins utilisé pour le tracking aujourd’hui, étant donné que les navigateurs ont réduit l’entropie des attributs. Mais le fingerprinting reste très utile pour la détection de bots, côté serveur comme côté client.
J’ai donc conservé tout mon savoir sur le fingerprinting à des fins de tracking, mais je l’applique maintenant à la détection de bots et à la protection des sites web et des applications contre les attaquants.
Anecdote : Il y a quelques années, Antoine a développé une implémentation open source d’un algorithme de canvas fingerprinting inspiré de l’article Picasso d’Elie Bursztein. Son code est aujourd’hui utilisé par d’autres entreprises, dont Discord, dans leurs scripts de détection de bots.

Q : Comment avez-vous vu évoluer les menaces automatisées depuis vos débuts ?
A : Comme je l’ai mentionné, à l’époque de PhantomJS, il était difficile de rendre les navigateurs headless réalistes. Il existait de nombreux tests open source pour les détecter, et la détection était assez simple. Tout a changé avec Headless Chrome et les bibliothèques d’automatisation comme Puppeteer.
Ces bots disposent d’en-têtes HTTP cohérents (car ce sont des navigateurs), d’empreintes TLS cohérentes, etc. Il faut donc une réelle expertise pour les détecter.
Autre évolution : la disponibilité de bibliothèques open source comme Puppeteer Extra Stealth. Il suffit d’installer le package, et il s’occupe de falsifier votre empreinte numérique de manière très réaliste. Cela a grandement facilité la création de bots crédibles, tout en rendant leur détection beaucoup plus complexe.
Certaines entreprises proposent même des bots en tant que service, notamment pour le scraping ou le scalping. Les utilisateurs n’ont besoin d’aucune compétence en développement de bots, car le service se charge de falsifier l’empreinte digitale, de faire tourner les agents utilisateurs et les proxys, etc. Ils ne paient que pour les requêtes réussies.
Il existe aujourd’hui une véritable économie autour des scraper bots, ce qui n’était pas le cas à mes débuts. Les développeurs de bots peuvent en tirer beaucoup d’argent.
Tendance émergente, et assez ironique : il y a de plus en plus d’humains dans la boucle. Les attaquants automatisent une partie du processus, mais les humains interviennent pour aider les bots à contourner les protections.
Les fermes de CAPTCHA en sont un exemple typique. À mon arrivée chez DataDome, il était encore rare que les bots contournent les CAPTCHA. Aujourd’hui, c’est fréquent. Des bibliothèques comme Puppeteer Extra Stealth proposent même des plugins qui interagissent avec des fermes de CAPTCHA. Un attaquant peut donc facilement déléguer cette tâche à un prestataire.
Enfin, les développeurs de bots investissent bien plus de ressources qu’avant. Les données sont le nouveau pétrole, et de nombreuses entreprises vivent de leur collecte, leur conditionnement et leur revente. Elles ont besoin du scraping pour exister, et sont donc prêtes à investir beaucoup de temps et d’argent. C’est un jeu sans fin, qui demande une vraie expertise pour comprendre les stratégies de plus en plus avancées des bots.
Q : Qu’est-ce que vous préférez dans votre travail ?
A : DataDome protège certains des plus grands sites et applications au monde, et bloquer les attaquants a un réel impact positif, à la fois pour les entreprises et pour leurs utilisateurs finaux. C’est gratifiant de marcher dans la rue, de voir des marques connues, et de savoir qu’on les protège et qu’on leur permet de fonctionner sereinement.
Ce qui est aussi très motivant chez DataDome, c’est que notre moteur de détection est conçu pour permettre un déploiement rapide de nouveaux signaux et de nouvelles stratégies. Si l’on a une idée ou une intuition, on peut la tester sur une partie du trafic, commencer à collecter des signaux pour confirmer ou infirmer notre hypothèse, et très rapidement utiliser ces signaux pour bloquer des millions de requêtes malveillantes.
Bien entendu, chaque modification est rigoureusement contrôlée pour ne jamais perturber le trafic des clients. Mais en très peu de temps, on peut renforcer la détection et réagir à un nouveau type d’attaque.
Q : Si vous deviez travailler dans un autre secteur ou un autre métier, que choisiriez-vous ?
A : Difficile à dire ! J’aime vraiment la cybersécurité, donc peut-être un domaine lié à la fraude humaine, comme la lutte contre le blanchiment d’argent. C’est un sujet passionnant, avec un impact potentiel énorme.
Q : Quel conseil donneriez-vous à quelqu’un qui souhaite se lancer dans la recherche sur les menaces en ligne ?
A : Il n’y a pas vraiment de bon ou de mauvais parcours pour ce métier. C’est un domaine qu’on peut commencer à explorer seul, si on est motivé.
Il est essentiel de bien comprendre le fonctionnement du web : architecture, réseau, JavaScript, proxys, etc. Et bien sûr, il faut créer ses propres bots et voir ce qu’on peut en apprendre ! La curiosité est la qualité la plus importante. Il n’existe pas de tutoriel tout fait : il faut expérimenter et construire ses connaissances soi-même.
Quand nous recrutons dans mon équipe, nous cherchons des profils avec une vraie culture de l’automatisation. À notre échelle, le traitement et l’automatisation des données sont cruciaux.
Par ailleurs, nos membres ont des compétences variées. Certains sont des data scientists experts en apprentissage automatique ; d’autres combinent data science et cybersécurité. D’autres encore sont de vrais experts en sécurité, spécialisés dans les réseaux ou la sécurité web.
Nous avons donc des profils très diversifiés, et c’est volontaire. Quand on est attaqué, les assaillants ne respectent pas les règles, et se moquent de savoir dans quelle université vous avez étudié. C’est donc essentiel d’avoir une variété de compétences pour toujours garder une longueur d’avance sur les bots.