Le paysage des bots proxy en 2022

Le paysage des proxys

Dans ce rapport, nous analysons un élément clé de toute opération de bots à grande échelle : les proxys. Quels types de proxys les bots utilisent-ils, et quelle proportion des adresses IP sont utilisées comme proxys de centres de données et comme proxys résidentiels à un moment donné ?

Qu’est-ce qu’une adresse IP ?

Une adresse IP (Internet Protocol) est une série de chiffres qui représente l’adresse d’un appareil sur internet. Elle permet d’acheminer correctement le trafic entre un appareil et un site web.

Cependant, un appareil n’a pas toujours une adresse IP unique. Une seule adresse IP peut être partagée par un utilisateur ou par des milliers d’utilisateurs en même temps.

Les adresses IP résidentielles, fournies par les fournisseurs d’accès à internet (FAI), sont souvent partagées par les membres d’un même foyer et changent rarement. En revanche, les adresses IP mobiles peuvent être partagées par des milliers d’appareils simultanément.

Qu’est-ce qu’un proxy ?

Un proxy est un programme qui permet aux utilisateurs de masquer leur adresse IP en faisant transiter leur trafic via l’infrastructure d’un tiers. Les proxys sont utilisés à la fois par des personnes cherchant à préserver leur anonymat et leur confidentialité, et par des opérateurs de bots malveillants pour éviter d’être bloqués.

Lorsqu’une activité suspecte ou malveillante est détectée depuis une adresse IP, de nombreux services en ligne bloquent cette adresse pour une certaine durée. Pour contourner ces blocages, les développeurs de bots et les fraudeurs exploitent les proxys, redirigeant ainsi leur trafic à travers d’autres adresses IP.

Le schéma ci-dessous illustre l’acheminement d’une requête HTTP, d’abord sans proxy, puis avec proxy.

Schéma proxy résidentiel illustrant une requête avec et sans proxy.

Lorsqu’un utilisateur (ou un bot) utilise un proxy, la requête est acheminée par le proxy vers le site web ou l’application mobile. Ainsi, pour le site, il semble que la requête provienne de l’adresse IP du proxy, masquant l’IP réelle de l’utilisateur final.

Comprendre l’espace d’adressage IPv4

En théorie, l’espace IPv4 contient environ 4,5 milliards d’adresses IP. Après exclusion des adresses IP locales, il reste environ 4,22 milliards d’adresses IPv4 publiques disponibles.

Parmi ces adresses, on distingue deux grandes catégories :

IP des centres de données : ces adresses sont liées aux centres de données, comme ceux fournis par Amazon, Google Cloud, et autres. Il est rare (bien que possible) que des utilisateurs humains utilisent ces adresses. Par conséquent, les adresses IP des proxys de centres de données sont souvent rapidement identifiées et bloquées.
IP résidentielles : ces adresses appartiennent à des fournisseurs d’accès à internet (FAI) bien connus, comme AT&T et Comcast. Puisque ces adresses sont régulièrement utilisées par des utilisateurs légitimes, elles bénéficient d’une meilleure réputation que celles des centres de données, ce qui permet aux attaquants d’éviter d’être détectés rapidement.

Dans chaque catégorie, seule une fraction des adresses IP est utilisée comme proxy. Le schéma ci-dessous illustre la répartition des types d’adresses IP dans l’espace d’adressage IPv4.

Schéma des proxys

La majorité des bots exploitent des proxys résidentiels et des proxys de centres de données pour opérer à grande échelle.
En utilisant ces deux types de proxys, les attaquants peuvent changer fréquemment d’IP afin d’éviter les blocages récurrents. Bien qu’un attaquant puisse utiliser l’adresse IP de son propre PC ou serveur pour exécuter des bots, cela ne permet pas de s’adapter à grande échelle. L’adresse IP sera rapidement signalée comme malveillante et bloquée.

Les proxys résidentiels sont de meilleure qualité mais plus coûteux. Comme ils utilisent les mêmes adresses IP que celles employées par les utilisateurs humains, ils permettent aux développeurs de bots de réduire la fréquence des blocages. En revanche, les proxys de centres de données sont moins chers, mais plus facilement bloqués, car ils sont associés à des systèmes autonomes connus appartenant aux centres de données.

De plus, les adresses IP des proxys de centres de données sont principalement utilisées par des bots (bien que certains bots utilisent également des VPN). À l’inverse, la majorité des proxys résidentiels sont des adresses IP partagées entre les bots et les utilisateurs humains. En effet, les appareils qui exécutent le code proxy sont généralement aussi utilisés par des utilisateurs légitimes. C’est parce que les proxys résidentiels sont obtenus via les méthodes suivantes :

SDK mobile ou logiciel,
extensions de navigateur,
appareils infectés.

Il existe également des proxys résidentiels entièrement privés. Ces services louent l’accès à des adresses IP appartenant à de grands FAI (principalement américains) et sous-louent ces IP en tant que proxys. Bien que situés dans des centres de données, ces proxys appartiennent à des systèmes autonomes résidentiels (AS), ce qui les rend plus difficiles à bloquer.

Estimation de la taille des parcs de proxys

Pour estimer la taille des parcs de proxys des centres de données et des proxys résidentiels, nous adoptons deux approches distinctes :

Approche 1 : souscrire à différents services de proxy et répertorier les adresses IP utilisées.
Approche 2 : analyser le trafic des clients afin de détecter et prédire l’utilisation de proxys.

L’approche 1 nous fournit une « vérité absolue » : nous savons avec certitude qu’une adresse IP a été utilisée comme proxy, car nous avons généré les requêtes qui ont transité par ce proxy.

L’approche 2 utilise l’apprentissage automatique supervisé et une série d’heuristiques (signaux liés au comportement de l’adresse IP, types d’empreintes utilisées, etc.) pour déterminer si une adresse IP a servi de proxy. Cette méthode permet une analyse plus exhaustive.

Note : l’estimation que nous proposons ci-dessous est une image à un instant donné. Les adresses IP des centres de données et les IP résidentielles sont fréquemment réattribuées. Par conséquent, les statistiques présentées ici sont susceptibles d’évoluer au fil du temps.

Estimation de la taille des parcs de proxys des centres de données

Pour estimer le nombre d’adresses IP de centres de données utilisées comme proxys, nous appliquons deux méthodes :

Nous analysons toutes les adresses IP de centres de données à partir desquelles nous avons généré des requêtes via des services de proxy auxquels nous sommes abonnés.
Nous identifions les adresses IP de centres de données signalées comme proxys par nos modèles d’apprentissage automatique et heuristiques, et qui ont été utilisées par des bots malveillants.

Grâce à ces deux approches, nous estimons que les bots exploitent environ 5,7 millions d’adresses IP de proxys de centres de données distinctes en l’espace de 7 jours.

Le tableau ci-dessous montre les proxys de centres de données distincts pour les 6 principaux systèmes autonomes (AS).

Paysage des proxys - Principaux AS - Tableau 1

Nous retrouvons des fournisseurs de cloud bien connus tels qu’Amazon, ainsi que des acteurs moins courants comme :

Sprintlink,
HostRoyale Technology,
M247,
Cogent.

Bien que certains de ces noms soient moins familiers, ils font partie des systèmes autonomes fréquemment utilisés pour les proxys de centres de données.

Estimation de la taille des parcs de proxys résidentiels

Comme pour les proxys de centres de données, nous appliquons deux approches pour estimer le nombre de proxys résidentiels actifs :

Nous répertorions toutes les adresses IP résidentielles utilisées pour effectuer des requêtes via les services de proxy auxquels nous sommes abonnés.
Nous identifions les adresses IP résidentielles signalées comme proxys par nos modèles heuristiques et d’apprentissage automatique, qui ont été utilisées par des bots malveillants.

En combinant ces deux méthodes, nous estimons qu’environ 6,2 millions d’adresses IP de proxys résidentiels distinctes ont été exploitées par des bots sur une période de 7 jours.

Le tableau ci-dessous répertorie les proxys résidentiels distincts associés aux 10 principaux systèmes autonomes (AS).

Paysage des proxys - Tableau 2

On remarque une forte présence d’adresses IP provenant de fournisseurs bien connus, tant américains (Comcast, AT&T, Verizon) qu’européens (Orange, Free, Virgin), utilisées comme proxys résidentiels par les bots pour mener des attaques.

Globalement, nous constatons un plus grand nombre d’adresses IP résidentielles distinctes utilisées comme proxys résidentiels (6,2 millions) par rapport aux proxys de centres de données (5,7 millions).

Cependant, il est à noter que le volume de requêtes provenant des proxys de centres de données est nettement supérieur (environ 1,8 fois plus élevé) à celui des proxys résidentiels.

Limitations

L’approche que nous utilisons pour estimer la taille des parcs de proxys présente certaines limites, notamment en raison des facteurs suivants :

Les services de proxy auxquels nous sommes abonnés et la taille de leurs parcs d’adresses IP.
La précision de nos modèles d’apprentissage automatique et des heuristiques que nous appliquons pour identifier le trafic suspect.
La quantité et la diversité du trafic que nous analysons.

Il convient de noter que certaines adresses IP utilisées par les bots ne sont pas nécessairement des proxys. Par exemple, un utilisateur peut créer une machine virtuelle (VM) sur Amazon et l’utiliser directement sans la configurer comme proxy. De même, un bot peut être exécuté directement depuis une adresse IP résidentielle, par exemple sur un PC personnel. Bien que nos modèles et heuristiques tentent de prendre en compte ces cas particuliers, il est difficile de garantir une précision parfaite.

De plus, cette analyse se concentre uniquement sur l’espace d’adressage IPv4. Bien que nous observions et traitions également des bots opérant à partir d’adresses IPv6, ceux-ci représentent une minorité du trafic malveillant. C’est pourquoi nous n’avons pas inclus les adresses IPv6 dans cette étude.

Conclusion

Bien que le volume de requêtes provenant des adresses IP de centres de données soit plus élevé, le nombre d’adresses résidentielles distinctes utilisées par les bots est encore plus important.

Que faut-il en déduire ? Les opérateurs de bots sont prêts à investir dans des proxys résidentiels, plus coûteux mais offrant une meilleure réputation que les proxys de centres de données, car cela leur assure un meilleur retour sur investissement.

Les stratégies traditionnelles qui consistent à bloquer les adresses IP des centres de données sont devenues inefficaces, car les bots s’appuient désormais sur des millions d’adresses IP résidentielles. En outre, bloquer les IP de centres de données présente le risque de pénaliser également des utilisateurs légitimes, notamment ceux qui utilisent des VPN ou des proxys d’entreprise.