OpenAI : comment des opérations d’influence sont contrecarrées par l’intelligence artificielle
Depuis les trois derniers mois, OpenAI a perturbé cinq opérations d’influence (IO) secrètes qui ont tenté d’exploiter les modèles de l’entreprise pour des activités trompeuses en ligne. En date de mai 2024, ces campagnes n’ont pas montré une augmentation substantielle de l’engagement du public ou de la portée en raison des services d’OpenAI.
OpenAI affirme que son engagement à concevoir des modèles d’intelligence artificielle en tenant compte de la sécurité a souvent contrecarré les tentatives des acteurs malveillants de générer du contenu souhaité. De plus, la société affirme que les outils d’intelligence artificielle ont amélioré l’efficacité des investigations d’OpenAI.
Les rapports de menaces détaillés par les plateformes de distribution et la communauté open-source ont contribué de manière significative à la lutte contre les opérations d’influence. OpenAI partage ces découvertes pour promouvoir le partage d’informations et les meilleures pratiques parmi la communauté des parties prenantes.
Perturbation des opérations d’influence secrètes
Au cours des trois derniers mois, OpenAI a perturbé plusieurs opérations d’influence en utilisant ses modèles pour diverses tâches, telles que la génération de courts commentaires, la création de profils de médias sociaux fictifs, la réalisation de recherches open-source, le débogage de code simple et la traduction de textes.
Les opérations spécifiques perturbées comprenaient :
– Mauvaise grammaire : Une opération non signalée précédemment en provenance de Russie ciblant l’Ukraine, la Moldavie, les États baltes et les États-Unis. Ce groupe utilisait les modèles d’OpenAI pour déboguer du code afin de faire fonctionner un bot Telegram et pour créer des commentaires politiques en russe et en anglais, publiés sur Telegram.
– Doppelganger : Une autre opération russe générant des commentaires dans plusieurs langues sur des plateformes comme X et 9GAG, traduisant et éditant des articles, générant des titres et transformant des articles d’actualité en publications Facebook.
– Spamouflage : Un réseau chinois utilisant les modèles d’OpenAI pour la recherche d’activité publique sur les médias sociaux, la génération de texte dans plusieurs langues et le débogage de code pour la gestion de bases de données et de sites web.
– International Union of Virtual Media (IUVM) : Une opération iranienne générant et traduisant des articles longs, des titres et des balises de site web, publiés sur un site web lié.
– Zero Zeno : Une société commerciale en Israël, avec des opérations générant des articles et des commentaires publiés sur plusieurs plateformes, notamment Instagram, Facebook, X et des sites web affiliés.
Le contenu publié par ces opérations portait sur divers sujets, notamment l’invasion russe en Ukraine, le conflit de Gaza, les élections indiennes, la politique européenne et américaine, et les critiques du gouvernement chinois.
Malgré ces efforts, aucune de ces opérations n’a montré une augmentation significative de l’engagement du public en raison des modèles d’OpenAI. En utilisant l’échelle de Breakout de Brookings – qui évalue l’impact des opérations d’influence secrètes – aucune des cinq opérations n’a obtenu un score supérieur à 2, indiquant une activité sur plusieurs plateformes mais sans percée dans des communautés authentiques.
Tendances des attaquants
Les enquêtes sur ces opérations d’influence ont révélé plusieurs tendances :
– Génération de contenu : Les acteurs malveillants ont utilisé les services d’OpenAI pour générer de grands volumes de texte avec moins d’erreurs linguistiques que ce que des opérateurs humains pourraient réaliser seuls.
– Mélange de l’ancien et du nouveau : L’intelligence artificielle a été utilisée aux côtés de formats traditionnels, tels que des textes écrits manuellement ou des mèmes copiés.
– Simulation d’engagement : Certains réseaux généraient des réponses à leurs propres publications pour créer l’apparence d’engagement, bien que aucun n’ait réussi à attirer un engagement authentique.
– Gains de productivité : Les acteurs malveillants ont utilisé l’intelligence artificielle pour améliorer la productivité, résumant des publications sur les médias sociaux et débogant du code.
Tendances défensives
Les enquêtes d’OpenAI ont bénéficié du partage de l’industrie et de la recherche open-source. Les mesures défensives comprennent :
– Conception défensive : Les systèmes de sécurité d’OpenAI ont imposé des frictions aux attaquants, les empêchant souvent de générer le contenu souhaité.
– Investigation améliorée par l’intelligence artificielle : Les outils alimentés par l’intelligence artificielle ont amélioré l’efficacité de la détection et de l’analyse, réduisant les temps d’enquête de semaines ou de mois à quelques jours.
– La distribution compte : Le contenu des opérations d’influence, comme le contenu traditionnel, doit être distribué de manière efficace pour atteindre un public. Malgré leurs efforts, aucune des opérations perturbées n’a réussi à obtenir un engagement substantiel.
– Importance du partage de l’industrie : Le partage d’indicateurs de menace avec les pairs de l’industrie a augmenté l’impact des perturbations d’OpenAI. La société a bénéficié des années d’analyse open-source de la communauté de recherche plus large.
– L’élément humain : Malgré l’utilisation de l’intelligence artificielle, les acteurs d’attaque étaient sujets à des erreurs humaines, telles que la publication de messages de refus de modèles d’OpenAI sur leurs réseaux sociaux et sites web.
OpenAI affirme rester dédié au développement d’une IA sûre et responsable. Cela implique la conception de modèles en tenant compte de la sécurité et l’intervention proactive contre une utilisation malveillante.
Tout en admettant que la détection et la perturbation d’abus sur plusieurs plateformes tels que les opérations d’influence secrètes sont difficiles, OpenAI affirme être engagé à atténuer les dangers.