Les dangers des modèles d’IA et la manipulation de l’information
Le web n’oublie jamais rien, les IA également. Tout ce qu’elles ont ingurgité durant leur apprentissage peut ressortir, même ce qui est le plus illégal, à condition de savoir leur parler. Explications.
Des modèles d’IA propices à la désinformation
Les modèles d’IA sont susceptibles de mettre en avant la désinformation, d’expliquer comment réaliser des choses illégales ou éthiquement discutables, le tout avec aplomb. Malgré les sécurités ajoutées par les éditeurs, des failles persistent.
Une récente étude menée par des chercheurs en IA de l’Université Ben Gourion du Néguev, en Israël, confirme que les modèles de langage (LLM) peuvent être facilement manipulés pour générer des informations nuisibles voire illégales. Les chatbots peuvent ainsi fournir des informations très discutables, voire dangereuses.
Depuis leur utilisation massive, les chatbots ont été poussés dans leurs retranchements et ont délivré des informations sur des éléments normalement présents uniquement sur le dark web, comme la recette du napalm ou des techniques de piratage.
Des chatbots incontrôlables?
Les éditeurs ont renforcé les sécurités pour éviter les manipulations des LLM, mais des méthodes de détournement ont été mises au point pour contourner ces mesures de sécurité. Une équipe de recherche a même développé une requête universelle fonctionnant avec la plupart des LLM, permettant d’obtenir des informations détaillées sur des activités frauduleuses ou nuisibles.
Les « Dark LLM », des modèles conçus avec des garde-fous assouplis pour répondre à des missions spécifiques, représentent une menace croissante. Ces chatbots sur mesure, reposant sur des modèles open source sans contrôle, fournissent des réponses problématiques légalement et éthiquement.
Impossible de revenir en arrière
Même les chatbots traditionnels comme ChatGPT peuvent être manipulés malgré les tentatives des éditeurs pour les contraindre. Les chercheurs estiment qu’il est actuellement impossible d’empêcher les LLM d’exploiter des informations assimilées lors de leur formation. Ces informations font désormais partie de leur base de données.
Les éditeurs n’ont pas encore réussi à mettre en place des filtres rigoureux pour bloquer ces informations. Avec la confirmation de ces manipulations, les conséquences pourraient être graves, notamment avec l’utilisation croissante de l’IA par des géants comme Google.