DataDome

Comment améliorer la détection de la fraude avec l’apprentissage automatique

Table des matières

Si votre entreprise gère des transactions ou des données sensibles en ligne, il est essentiel qu’elle puisse détecter efficacement les fraudes. Vous vous êtes probablement déjà demandé quel était le moyen le plus efficace d’identifier et de prévenir les activités frauduleuses sans gêner vos clients.

Les méthodes traditionnelles (telles que les WAF et les CAPTCHA cloisonnés) ne sont plus efficaces face aux menaces avancées actuelles. Heureusement, les logiciels de détection de la fraude évoluent toujours parallèlement aux progrès de l’intelligence artificielle (IA), de la science des données et de l’apprentissage automatique (machine learning, ou ML).

Les techniques de détection de la fraude par ML contribuent largement à atténuer les pertes et à prévenir les catastrophes pour les entreprises, tant sur le plan financier que sur le plan opérationnel. Les défenses statiques ne peuvent exécuter que des règles spécifiquement programmées. Les systèmes d’apprentissage dynamique, eux, peuvent réagir en temps réel à l’évolution du paysage des menaces. Le ML est donc un élément fondamental de toute solution efficace de protection continue contre la fraude.

Mais comment fonctionne l’apprentissage automatique pour la détection de la fraude, et que peut-il apporter à votre entreprise ? Penchons-nous sur la question.

Qu’est-ce que l’apprentissage automatique pour la détection de la fraude ?

Les entreprises de commerce électronique, les gouvernements, les applications et les services en ligne utilisent de plus en plus l’apprentissage automatique pour détecter les fraudes. Cet outil permet de détecter et de prévenir les attaques sophistiquées, souvent automatisées, qui menacent d’endommager votre infrastructure et de voler vos données, vos biens et vos ressources.

Pour la détection de la fraude, les modèles d’apprentissage automatique doivent être formés à l’aide de données historiques sur la fraude (tentatives d’attaque, sources, méthodes, etc.). Il est possible d’utiliser des algorithmes de ML pour reconnaître des schémas dans un jeu de données historiques, puis de modifier dynamiquement les règles de sécurité d’une solution afin d’empêcher de futures tentatives de fraude, même si elles utilisent des méthodes inédites.

Recourir à l’apprentissage automatique pour détecter les fraudes est une adaptation intelligente désormais nécessaire dans l’environnement volatile de la cybersécurité d’aujourd’hui. La détection par ML est beaucoup plus efficace qu’une intervention humaine, qui nécessite que des personnes recherchent manuellement des schémas et créent des règles pour essayer d’atténuer des menaces spécifiques. Le ML est la meilleure réponse à la nature évolutive des menaces en ligne. Il donne en effet aux utilisateurs un avantage massif dans la lutte contre la fraude à la carte, la création de faux comptes, les account takeovers (ATO) et le credential stuffing.

Quelles sont les différences entre l’apprentissage automatique et la technologie de l’IA ?

Le ML et l’IA sont liés, mais il existe des différences importantes. L’apprentissage automatique est essentiellement un sous-ensemble de l’IA (intelligence artificielle).

L’IA fait généralement référence aux systèmes informatiques qui imitent la pensée ou le comportement humain d’une manière ou d’une autre, par exemple pour générer des idées créatives ou résoudre des problèmes. La plupart des produits technologiques qui prétendent être alimentés par l’IA utilisent le terme « IA » parce que le système est suffisamment intelligent pour identifier et exécuter ce qu’il doit faire dans certaines circonstances. L’automatisation des tâches est une fonctionnalité courante de l’IA.

L’apprentissage automatique est une application spécifique de l’intelligence artificielle qui permet à un ordinateur d’apprendre automatiquement grâce à des données historiques sans instruction explicite. Par exemple, l’IA de DataDome pour la détection de la fraude surveille les données entrantes en direct et réagit en conséquence. Mais d’abord, la solution détermine quels sont les déclencheurs de l’IA en utilisant l’apprentissage automatique pour examiner les données historiques.

Apprentissage automatique vs. anciennes méthodes de détection de la fraude

La fraude en ligne évolue en permanence, et les acteurs malveillants utilisent un arsenal d’outils automatisés (y compris l’IA) pour développer de nouvelles méthodes d’attaque. Des armées de bots peuvent être assemblées en quelques minutes pour lancer une nouvelle offensive.

Les systèmes traditionnels de détection de la fraude sont sérieusement limités :

  • Premièrement, ils sont basés sur des règles statiques. Bien que les règles puissent très bien fonctionner au départ, elles perdent de leur utilité au fil du temps, à mesure que la technologie évolue et que les méthodes d’attaques changent. Les acteurs malveillants veulent atteindre leurs objectifs en faisant le moins d’effort possible. Ils ne gaspilleront donc pas leurs ressources en utilisant plusieurs fois une approche inefficace, et trouveront un moyen de contourner la barrière statique.
  • Les systèmes traditionnels reposent fortement sur le travail humain, et sont donc limités par l’expertise, le temps et l’énergie des personnes qui créent et gèrent leurs règles. Les systèmes exploités manuellement peuvent devenir si complexes que les nouveaux utilisateurs n’arrivent plus à comprendre comment les gérer.

Le ML est plus rapide, plus précis et plus rentable, car il ne nécessite plus qu’un humain supervise chaque décision, traite automatiquement les nouvelles données et actualise les modèles de détection en temps réel.

Et contrairement au cerveau humain, plus vous alimentez un algorithme d’apprentissage automatique en données, plus il s’améliore et gagne en précision.

Cela dit, le ML n’est pas toujours parfait.

Parmi les inconvénients de l’apprentissage automatique pour la détection de la fraude, citons le risque de faux positifs, c’est-à-dire le fait qu’un système considère à tort des actions légitimes comme frauduleuses. Les faux positifs peuvent créer une boucle de rétroaction négative. Si une erreur de détection n’est pas repérée, l’algorithme pense qu’il a réagi correctement et que le comportement était légitime, et il apprend à répéter la même réponse à l’avenir.

Heureusement, la perspicacité humaine associée à l’apprentissage automatique peut résoudre ce problème. Nous recommandons donc une surveillance experte 24 h sur 24 et 7 jours sur 7 de tous les modèles d’apprentissage automatique de détection de la fraude. 

3 principaux avantages de l’apprentissage automatique pour la détection de la fraude

Utiliser des modèles d’apprentissage automatique pour la détection de la fraude (au lieu d’une supervision manuelle) est un coup de force pour les entreprises, car cela leur offre trois avantages majeurs :

  1. Rentabilité : automatiser la détection de la fraude et exploiter l’apprentissage automatique vous permet de réduire les coûts associés à la détection manuelle de la fraude, notamment le coût de la main-d’œuvre, de la technologie et du temps. Cela vous permet d’allouer les ressources plus efficacement et de réduire vos dépenses globales de lutte contre la fraude.
  2. Précision : les algorithmes d’apprentissage automatique sont formés sur de gros volumes de données afin d’identifier des schémas et des anomalies que les humains ne peuvent tout simplement pas détecter (et à une vitesse que les humains sont incapables d’atteindre). Le ML surveillé peut donc réduire considérablement le nombre de faux positifs et de faux négatifs (les indicateurs clés de la précision de la détection) par rapport aux méthodes traditionnelles et manuelles.
  3. Constance : les humains ne peuvent analyser les données que pendant un nombre limité d’heures par jour, alors que les machines peuvent le faire 24 heures sur 24 et 7 jours sur 7, sans s’épuiser ni être surchargées. En fait, plus la quantité de données traitées est importante, plus un algorithme de ML est performant.

Utiliser les perspectives humaines pour enrichir l’apprentissage automatique

L’apprentissage automatique pour la détection de la fraude est un outil vraiment puissant, mais une véritable solution de protection contre la fraude doit optimiser les modèles ML avec une surveillance 24 h sur 24 et 7 jours sur 7 par des experts humains.

Les modèles de ML peuvent très bien fonctionner en pilotage automatique (lorsqu’ils sont livrés à eux-mêmes pour exécuter des règles préprogrammées), mais il existe des cas uniques dans lesquels le ML peut marquer à tort un comportement normal comme étant problématique/potentiellement frauduleux. Par exemple, une transaction d’un montant inhabituellement élevé peut indiquer que les données d’une carte ont été volées, mais il peut aussi s’agir d’un client régulier effectuant un achat important.

Une machine peut difficilement comprendre les nuances de la psychologie et du comportement humains. Les modèles de ML ne peuvent pas se mettre à la place d’un humain (qu’il s’agisse d’un client ou d’un attaquant), ni utiliser un raisonnement déductif pour comprendre pourquoi et comment un utilisateur pourrait faire quelque chose.

Il faut enseigner une solution complète et adaptative quand la réponse initiale est incorrecte, et l’intervention d’un expert en menaces est le meilleur moyen de corriger et de former la solution. Votre meilleure option est donc une solution qui combine la puissance des deux :

  1. Une solution qui utilise un puissant apprentissage automatique pour passer au crible des trillions de signaux de données et réagir en conséquence.
  2. Des experts humains ayant une vaste expérience dans le domaine et la capacité de se mettre à la place de l’attaquant.

Comment fonctionne la détection de la fraude avec l’apprentissage automatique ?

La mise en place d’un système d’apprentissage automatique pour la détection de la fraude se fait en quatre grandes étapes :

1) Collecte de données

Nous commençons par alimenter le système avec les données. La capacité du système à identifier correctement les menaces est déterminée par la qualité des données : une détection précise nécessite des données pertinentes et de qualité. L’expression « garbage in, garbage out » (à données inexactes, résultats erronés) s’applique.  Et dans le cas de l’apprentissage automatique, plus il y a de données, mieux c’est. Mais celles-ci doivent être organisées et spécifiques à l’entreprise en question. Ainsi, les données pertinentes sont segmentées et extraites du jeu de données selon les instructions de l’utilisateur.

2) Extraction de données

Ensuite, nous décidons quelles données sont pertinentes en fonction des fonctionnalités les plus importantes pour la tâche à accomplir, et nous extrayons les données pertinentes du jeu de données.

Par exemple, si vous avez besoin de détecter de la fraude en ligne dans le domaine de l’e-commerce, nous pouvons nous focaliser sur vos données de transactions, la façon dont les utilisateurs interagissent avec votre site web ou la façon dont les connexions sont établies avec votre service (appareils, adresses IP, proxys, etc.). Grâce à ces catégories, nous pouvons préciser quels comportements sont suspects et susceptibles d’être frauduleux.

3) Création de modèle

À partir des fonctionnalités pertinentes, nous pouvons déployer un algorithme sur les données de formation et le faire fonctionner. L’algorithme est un ensemble de règles de décisions qui jugera de la nature des interactions et déterminera si elles sont frauduleuses ou non. Le type d’algorithme utilisé détermine la manière exacte dont le processus de prise de décision fonctionne (vous trouverez quelques exemples ci-dessous).

Vous obtenez un modèle d’apprentissage automatique prédictif créé pour identifier les activités futures potentiellement suspectes avec un niveau de confiance élevé.

4) Test du modèle

Enfin, le modèle ML est testé dans un environnement de type bac à sable. Nous testons les modèles sur des données historiques réelles pour évaluer leurs performances avant de les laisser tourner en temps réel.

Nos experts continuent de surveiller et d’adapter les règles en fonction de l’efficacité de chaque modèle et de la précision de ses assertions. L’équipe SOC peut identifier tout problème potentiel ou faux positifs avant de lancer un modèle dans un environnement en direct.

Algorithmes courants de détection de la fraude

Différents algorithmes peuvent être utilisés en fonction du type de données analysées et du résultat souhaité. Il en existe différents types :

  • Apprentissage supervisé : un type d’algorithme couramment utilisé qui utilise des données étiquetées pour apprendre des schémas et faire des prédictions. Les données d’entraînement auront été classées manuellement comme potentiellement frauduleuses ou non, afin que le système puisse comprendre les différentes caractéristiques et les surveiller. Cela implique une configuration humaine initiale pour mettre les choses en route, et nécessite de disposer d’un jeu de données historiques de bonne qualité.
  • Apprentissage non supervisé : utilisé lorsqu’il n’y a pas beaucoup de données historiques sur lesquelles s’appuyer. Le système doit donc trouver des schémas à partir des nouvelles données qui arrivent et décider ce qui est frauduleux et ce qui est légitime. Le système recherchera des anomalies potentielles dans une nouvelle activité et les signalera comme problématiques. Cette technique, également connue sous le nom de « clustering », repère les comportements inhabituels et les met en évidence en vue d’une inspection, en surveillant et en mettant à jour en permanence son propre ensemble de règles au fur et à mesure qu’elle acquiert de l’expérience.
  • Apprentissage semi-supervisé : utilisé lorsqu’il est impossible ou trop coûteux d’étiqueter toutes les données. Il combine des techniques d’apprentissage supervisé et non supervisé pour obtenir le meilleur des deux. Dans ce cas, il est nécessaire de faire appel à des experts humains pour étiqueter certaines parties des données. Cela peut fonctionner dans les applications de détection de la fraude en utilisant des données étiquetées pour l’entraînement et des données non étiquetées pour la validation.
  • Apprentissage par renforcement : un algorithme qui apprend de ses erreurs en utilisant des techniques d’essai et d’erreur pour trouver la meilleure solution dans un environnement donné. Le système apprend quel est le comportement optimal en effectuant différentes actions, à plusieurs reprises. Il doit pour cela recevoir un retour, comme une récompense ou une punition, pour chaque action qu’il entreprend. Les retours permettent à l’algorithme de déterminer quelles actions sont bonnes et quelles actions sont mauvaises, pour finalement trouver les meilleures actions qui réduisent les risques et augmentent les récompenses.

Voici quelques-uns des algorithmes utilisés dans les scénarios de prévention de la fraude :

  • Régression logistique : ce modèle statistique est utilisé pour prédire la probabilité d’un résultat binaire, tel que « fraude » ou « pas fraude ».
  • Arbre de décision : prend des décisions en décomposant des problèmes complexes en parties plus petites et plus simples. Les branches de l’arbre représentent des résultats possibles, qui sont analysés pour identifier les schémas indiquant un comportement frauduleux.
  • Forêt aléatoire : une combinaison de plusieurs arbres de décision, chacun formé sur un sous-ensemble de données différent, qui donne la prédiction moyenne de tous les arbres. Les forêts aléatoires peuvent gérer des relations non linéaires entre les fonctionnalités des données, ce qui est important pour détecter des schémas de fraude complexes.
  • Réseaux neuronaux : ce type d’algorithme d’apprentissage automatique est modélisé d’après la structure du cerveau humain, et utilise une approche « d’apprentissage profond » basée sur des couches pour la reconnaissance de schémas. Un réseau neuronal peut être combiné à d’autres algorithmes d’apprentissage automatique pour améliorer les performances de votre système de détection de la fraude.

D’autres algorithmes parfois utilisés dans le ML de détection de la fraude sont les machines à vecteurs de support, la méthode des k plus proches voisins et la classification naïve bayésienne.

Comment les entreprises peuvent utiliser l’apprentissage automatique pour la prévention de la fraude

L’apprentissage automatique permet aux entreprises de prévenir la fraude et de se protéger contre les pertes financières en analysant de grandes quantités de données d’activité. Voici quelques exemples de la façon dont les techniques de ML sont utilisées pour combattre la multitude de menaces en cours :

1) Détection de la fraude par carte bancaire

Les sociétés de cartes bancaires et les passerelles de paiement par carte peuvent utiliser des systèmes de ML pour analyser les données de transaction et le comportement des utilisateurs afin de déterminer quand les fraudeurs tentent de contourner leurs défenses. Le carding et le card cracking sont des mécanismes de fraude généralement automatisés qui reposent sur l’utilisation de bots pour tester la validité des données volées. Les algorithmes d’apprentissage automatique sont capables d’identifier et d’arrêter le card cracking avant qu’il n’ait un impact négatif sur l’intégrité de vos données et de votre système.

2) Détection de la fraude dans le secteur bancaire

Les banques utilisent également des méthodes d’apprentissage automatique pour analyser les transactions des clients afin d’identifier les scénarios susceptibles d’indiquer une activité suspecte.

Les méthodes de ML sont plus agiles et réactives que les règles statiques (par exemple, signaler comme suspectes les transactions dépassant un certain montant). Le ML ne nécessite pas non plus de ressources massives et ne ralentit pas les véritables transactions, ce qui nuit à l’expérience de vos clients légitimes.

La détection par apprentissage automatique dans le secteur bancaire peut être utilisée à plusieurs échelles, notamment pour repérer de potentielles transactions frauduleuses uniques ou pour découvrir des crimes financiers à l’échelle de l’entreprise.

3) Détection de la fraude par accound takeover

Les entreprises en ligne utilisent des algorithmes de ML pour analyser les données des clients, notamment les informations d’expédition, les méthodes de paiement et les adresses IP, afin d’identifier des scénarios susceptibles d’indiquer une fraude.

Les attaques par account takeover (ATO) sont une menace courante. Elles permettent aux fraudeurs d’accéder à des comptes d’utilisateurs, et de les utiliser pour des activités malveillantes, comme l’usurpation d’identité ou le transfert de fonds. Il est possible d’utiliser le ML pour détecter les tentatives d’ATO en analysant les modèles de comportement des clients, notamment les changements soudains du montant de l’achat ou de l’emplacement de connexion, et en signalant toute activité suspecte. Le ML peut permettre aux entreprises en ligne de détecter les transactions illicites en temps réel et de prévenir les pertes financières.

Utiliser l’apprentissage automatique à la périphérie pour la détection et la prévention des fraudes en temps réel

L’apprentissage automatique est au cœur de la solution de DataDome. Il nous permet de protéger les entreprises en ligne contre les fraudeurs, les bots malveillants et tous les types d’attaques.

Notre plateforme de cybersécurité basée sur le cloud, un acteur clé de la prévention de la fraude pour les entreprises en ligne à travers le monde, protège les sites web, les applications mobiles et les API contre la fraude en ligne et les menaces automatisées.

FAQ

  1. Comment l’apprentissage automatique (machine learning, ML) détecte-t-il la fraude ?
    L’apprentissage automatique détecte la fraude en analysant d’énormes quantités de données brutes d’après des instructions spécifiques, et en identifiant des scénarios et des anomalies qui indiquent un comportement suspect de l’utilisateur. Les humains peuvent le contrôler pour obtenir des résultats plus précis sans faux positifs.
  2. Quel est le meilleur algorithme d’apprentissage automatique pour détecter les fraudes ?
    Cela dépend du volume et de la complexité des données, du type de fraude que vous recherchez et du niveau de précision et de rapidité que vous êtes prêt à accepter. Une fois mis en place, le meilleur algorithme ne nécessitera que peu d’interventions manuelles.
  3. Qu’est-ce qu’une détection de la fraude financière basée sur l’apprentissage automatique ?
    La détection de la fraude financière basée sur le ML est une technologie qui utilise des algorithmes et des modèles statistiques pour identifier les transactions frauduleuses sur les comptes financiers. Les algorithmes de ML analysent de grandes quantités de données, identifient les actions problématiques et les bloquent ou les signalent pour qu’elles soient évaluées.