23/11/2024

Actu Cybersécurité

DarkBERT, un équivalent de ChatGPT entrainé avec les données du dark web

DarkBERT, c'est le nom d'une intelligence artificielle spécialisée dans un domaine bien précis : le dark web. Sa particularité : elle apprend à partir de données disponibles sur le dark web, contrairement à d'autres IA comme ChatGPT.

Depuis plusieurs mois et l'explosion de ChatGPT aux yeux du grand public, les chatbots dopés à l'intelligence artificielle sont très à la mode. ChatGPT est loin d'être seul puisque l'on a aussi un chatbot dans Microsoft Bing et de son côté, Google, a lancé Bard.

Dans un style différent, il y a aussi DarkBERT : un chatbot mis au point par une équipe de chercheurs sud-coréens. S'il s'appelle DarkBERT, il y a deux raisons principales :

  • "Dark" car il est conçu pour effectuer de la recherche de données sur le dark web. Initialement, il a été formé à partir de données issues du dark web.
  • "BERT" car ce chatbot s'appuie sur l'architecture RoBERTa de chez Meta, qui s'appuie quant à elle sur sur BERT (Bidirectional Encoder Representations from Transformers). BERT est un modèle de langage de Google.

La face cachée d'Internet, c'est ce qui intéresse DarkBERT, contrairement aux autres chatbots que l'on connait tous, qui eux s'appuient sur les données du Web indexées sur les moteurs de recherche comme Google, Bing ou Qwant. Mais, pourquoi ?

Pour se rendre sur le dark web et former DarkBERT, les chercheurs ont utilisé Tor de manière à récolter des millions d'informations. Au total, il s'agit de 5,83 Go de texte brut que DarkBERT a pu utiliser pour son apprentissage initial. Par exemple, DarkBERT a pu lire des documents spécifiques aux marchés noirs, des messages échangés sur des forums, et lire le contenu de bases de données volées. Au préalable, et pour des raisons d'éthiques, les données collectées ont été triées dans le but de supprimer les données personnelles sensibles d'internautes.

Pour alimenter le modèle, les chercheurs ont aussi exclu les fichiers images et vidéos, notamment pour éviter le contenu pédopornographique. Alimenter un modèle via le dark web, ce n'est pas si simple puisque l'on trouve beaucoup de contenus sensibles.

Quel est l'objectif de DarkBERT ?

L'objectif de DarkBERT est de permettre aux autorités et aux enquêteurs de mieux appréhender le fonctionnement du dark web et des réseaux de cybercriminels. L'intelligence artificielle serait capable de détecter des menaces ou des informations précises sur la face cachée d'Internet.

Par exemple, si un nouveau ransomware est mis en ligne, le modèle pourra le détecter, l'analyser et le documenter, au même titre qu'il peut détecter la mise en ligne d'une nouvelle base de données issue d'une cyberattaque.

La prochaine étape pour les chercheurs sud-coréens, c'est de faire en sorte que DarkBERT analyse le dark web lui-même, de façon régulière et automatique, à la recherche de nouvelles menaces. Il est à noter aussi que DarkBERT n'est pas accessible au grand public.

Le rapport est disponible en téléchargement à partir de cette page en cliquant sur "PDF" en haut à droite.

author avatar
Florian BURNEL Co-founder of IT-Connect
Ingénieur système et réseau, cofondateur d'IT-Connect et Microsoft MVP "Cloud and Datacenter Management". Je souhaite partager mon expérience et mes découvertes au travers de mes articles. Généraliste avec une attirance particulière pour les solutions Microsoft et le scripting. Bonne lecture.
Partagez cet article Partager sur Twitter Partager sur Facebook Partager sur Linkedin Envoyer par mail

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.