Rencontre avec Konstantina Kontoudi, la femme à la tête de la Data Science chez Datadome
De l’obtention de son doctorat en physique théorique au fait de passer 60 % de ses journées à coder, Konstantina nous raconte comment elle en est arrivée là et pourquoi son rôle de Lead Data Scientist lui convient parfaitement. Découvrez le cerveau derrière l’apprentissage automatique de DataDome, ce que c’est que de percer dans le domaine de la cybersécurité, pourquoi les compétitions d’apprentissage automatique sont un excellent outil d’apprentissage, et ce qu’elle considère comme les principales tendances en science des données aujourd’hui.
Q : À quoi ressemble votre journée de travail typique ?
R : Je commence généralement la journée en vérifiant Slack et mes e-mails, et en me tenant au courant des actualités liées à l’apprentissage automatique (ML). À 9h45, mon équipe a une réunion quotidienne de synchronisation de 5 minutes. Après cela, je passe la plupart de mon temps à coder et à implémenter, à faire des revues de code et à lire des sujets liés à mes projets.
Le codage et la mise en œuvre représentent généralement environ 60 % de ma journée, la lecture peut-être 20 %, mais l’équilibre dépend de l’étape du projet sur lequel je travaille. En moyenne, j’ai deux réunions par jour, principalement des réunions techniques avec les membres de mon équipe ou des réunions de synchronisation avec d’autres équipes ou la direction de DataDome.
Q : Comment êtes-vous entrée dans le domaine de la science des données ?
R : Après avoir terminé mon doctorat en physique théorique, je voulais sortir du milieu universitaire et trouver un « vrai » travail. Quelqu’un a mentionné Coursera, où j’ai trouvé le cours d’apprentisage automatique d’Andrew Ng qui est depuis devenu un incontournable pour chaque aspirant data scientist — des millions de personnes l’ont suivi maintenant. Bref, j’ai suivi le cours et j’ai pensé « c’est incroyable » ! Je connaissais déjà toutes les mathématiques dont j’avais besoin pour travailler avec l’apprentissage automatique ; ce que je ne savais pas si bien, c’était coder. Mais j’ai trouvé des cours pour cela aussi. L’un d’eux exigeait que je participe à une compétition Kaggle, c’est ainsi que j’ai commencé à apprendre Python.
J’ai ensuite trouvé un emploi en tant que développeuse, ce qui m’a offert l’opportunité parfaite de passer du milieu universitaire au monde des affaires. J’avais toujours en tête que je voulais faire de la data science, mais ces années d’expérience en tant que développeuse se sont révélées très précieuses. Lorsque nous mettons de nouveaux modèles d’apprentissage automatique en production, il ne suffit pas de connaître la théorie, vous devez écrire le code réel, le faire fonctionner et le rendre fiable.
Q : Qu’est-ce qui vous a attiré exactement dans la data science ?
R : J’apprécie la complexité et les mathématiques impliquées, et j’aime que les connaissances soient très transférables. Dans mon emploi précédent, nous utilisions l’apprentissage automatique pour effectuer des tests de qualité dans une usine de production. Maintenant, je l’applique à la cybersécurité, mais les mêmes algorithmes peuvent également être utilisés pour des choses comme l’imagerie médicale, presque n’importe quoi en fait. Et je trouve ça incroyable.
Q : Comment avez-vous vu le domaine de la science des données évoluer depuis que vous avez commencé ?
R : Lorsque j’ai commencé à suivre le domaine, il y a environ huit ans, tout le battage médiatique était autour de XGBoost et d’algorithmes plus traditionnels. Aujourd’hui, il y a beaucoup plus d’accent sur l’apprentissage profond et les réseaux neuronaux.
Je pense aussi qu’à l’époque, la plupart des entreprises faisant de la data science ne faisaient qu’effleurer la surface et expérimenter pour voir ce qui pouvait être fait. Ça a changé. De plus en plus d’entreprises utilisent désormais la science des données en production, ce qui nécessite non seulement une compréhension théorique de l’apprentissage automatique, mais aussi la capacité d’écrire du code de qualité production.
Q : Quelles sont, selon vous, les principales tendances en science des données en ce moment ?
R : Eh bien, c’est un domaine immense, mais un domaine de recherche intéressant consiste à essayer de comprendre pourquoi les réseaux neuronaux fonctionnent et ce qui se passe exactement lorsqu’ils sont entraînés. Les gens essaient de créer des modèles du comportement des réseaux neuronaux, mais c’est encore une question de recherche ouverte. Je vois aussi beaucoup de battage médiatique autour du traitement du langage naturel (NLP).
En regardant le dernier programme de la conférence NeurIPS, il y avait aussi un énorme chapitre sur les biais et l’éthique, et comment y faire face. Les modèles apprennent à partir des données, donc si les données sont biaisées, le modèle sera biaisé, surtout avec les modèles de langage qui sont souvent à la fois racistes et sexistes parce qu’ils capturent tous les biais existants dans les données disponibles.
En général, il y a beaucoup d’accent sur l’IA centrée sur les données, et à juste titre. Si vos données ne sont pas bonnes, vous n’obtiendrez tout simplement pas de résultats fiables. Nous, les data scientists, aimons créer des modèles compliqués parce que c’est tellement plus amusant, mais la vérité est que très souvent, si vous avez de meilleures données, vous n’avez pas besoin de changer le modèle. Même des ensembles de données bien connus comme ImageNet ont été trouvés avec des images mal étiquetées, donc il y a un nombre croissant d’outils disponibles pour vous aider à identifier ce genre de problème, à rassembler des connaissances d’experts et à automatiser l’étiquetage de vos données.
C’est une chose sur laquelle nous travaillons déjà chez DataDome. Sans entrer dans trop de détails, nous utilisons des fonctions d’étiquetage de données automatisées pour produire des étiquettes probabilistes pour chaque empreinte digitale. Cela nous aide, par exemple, à identifier les faux négatifs.
Q : Comment restez-vous informée des tendances ? Quelles sont vos ressources préférées ?
R : Je m’abonne à beaucoup de newsletters, probablement trop. Celle que j’aime particulièrement est The Batch, du professeur Andrew Ng, que j’ai déjà mentionné. Il résume des articles de recherche, mais couvre également des sujets intéressants qui apparaissent dans les actualités, avec une approche très courte et concise. Un autre outil très utile s’appelle Connected papers. Lorsque vous entrez un article académique, il crée un graphe d’autres publications au contenu similaire. Cela vous permet de trouver rapidement les articles les plus pertinents pour le domaine sur lequel vous travaillez.
Pendant mon temps libre, je continue également à participer à des compétitions Kaggle de temps en temps, pour apprendre et acquérir de l’expérience dans de nouveaux domaines. La dernière que j’ai faite portait sur la segmentation d’images, ce qui n’est pas quelque chose que j’utilise dans mon travail quotidien. Il existe d’autres plateformes aussi, mais Kaggle est génial parce que les participants partagent beaucoup. Il y a des espaces de discussion et des espaces où vous pouvez partager vos notebooks, et les gens le font vraiment. Vous pouvez donc voir le travail des autres et comment ils expliquent leurs approches, ce qui est un excellent moyen d’apprendre.
Vous pouvez également accéder à l’historique des compétitions précédentes, et si vous avez de la chance, vous trouverez un problème similaire à celui que vous essayez actuellement de résoudre. Bien sûr, les compétitions ne vise qu’à obtenir le meilleur score, et les solutions gagnantes ne sont pas toujours pratiques dans la vie réelle, mais il y a souvent encore de l’inspiration utile à trouver.
Fun fact: en 2021, Konstantina a remporté la 2ème place dans une compétition appelée le Feel The Rhythm Challenge, où la compagnie de services publics australienne Western Power a demandé aux data scientists de développer un modèle pour aider à assurer la sécurité des personnes au travail. Félicitations Konstantina !
Q: Quelle est la meilleure partie de votre travail ?
R : J’apprécie vraiment d’obtenir des retours rapides sur mon travail. Lorsque nous déployons un nouveau modèle d’apprentissage automatique dans le moteur de détection de bots de DataDome, nos boucles de rétroaction nous indiquent presque instantanément comment il fonctionne. Dans de nombreuses autres entreprises, vous devez attendre longtemps avant d’obtenir un retour quelconque.
J’aime aussi que tous mes clients — internes et externes — soient des personnes techniques. Je trouve très facile d’interagir avec eux ; même s’ils ne sont pas dans le même domaine que moi, ils comprennent mes défis et mes points de douleur.
Q: De quoi êtes-vous la plus fière dans votre carrière ?
R : Sur le plan technique, cela doit être la mise en œuvre de l’apprentissage automatique dans les serveurs API de DataDome. J’en ai géré chaque aspect, avec l’aide de l’équipe moteur dans la phase finale. Beaucoup des technologies impliquées étaient une première pour moi, et j’ai touché presque tous les composants de l’infrastructure de DataDome.
Avec mes collègues, nous avons également jeté les bases d’une équipe d’apprentissage automatique vraiment solide chez DataDome. Je pense que mes compétences interpersonnelles se sont beaucoup améliorées au cours des dernières années.
Q: Quel conseil avez-vous pour quelqu’un qui cherche à percer dans le domaine de la cybersécurité ?
R : La cybersécurité est immense. Personnellement, je ne connaissais rien à la cybersécurité avant de rejoindre DataDome, mais j’ai appris en lisant beaucoup et en posant beaucoup de questions.
Je dirais que si vous cherchez à entrer dans la cybersécurité, vous devez d’abord réduire le domaine sur lequel vous voulez vous concentrer, puis commencer à expérimenter. Si vous êtes intéressé par le domaine de DataDome, par exemple, vous pouvez commencer par créer quelques bots vous-même, essayer de scraper certains sites web et voir ce qui se passe. Une autre excellente façon d’explorer différents domaines et d’acquérir une expérience pratique est de participer à des défis de type Capture the Flag (CTF).
Q: Les femmes sont notoirement sous-représentées en cybersécurité ; quelle a été votre expérience ?
R : Eh bien, j’ai été dans cette situation depuis que j’ai commencé à étudier la physique, mais honnêtement, je n’ai jamais eu de mauvaises expériences liées au fait d’être une femme dans un domaine dominé par les hommes. Peut-être que j’ai eu de la chance, ou peut-être que je n’ai tout simplement pas fait le lien. J’ai tendance à ne pas trop réfléchir à ces choses, et si quelqu’un est désagréable, je penserai juste qu’il est idiot, je ne croirai pas nécessairement que c’est parce que je suis une femme.
Q: Si vous deviez travailler dans n’importe quel autre secteur ou rôle, que serait-ce ?
R : Mon rôle me convient parfaitement, et je ne peux pas penser à autre chose que je préférerais faire. Mais si je devais changer d’industrie, je pourrais choisir le domaine médical. Il y a beaucoup de travaux intéressants en cours, et si vous réussissez, vous pouvez vraiment changer la vie des gens pour le mieux.