La lutte contre les deepfakes audio : nouvelles techniques en vue
La technologie de clonage vocal, dans laquelle l’intelligence artificielle est utilisée pour créer des discours faux mais réalistes, présente des avantages, tels que la génération de voix synthétiques pour les personnes souffrant de troubles de la parole. Cependant, cette technologie a également de nombreux usages malveillants : les escrocs peuvent utiliser l’IA pour cloner des voix afin d’usurper l’identité de quelqu’un et tromper des particuliers ou des entreprises pour leur soutirer des millions de dollars. Le clonage vocal peut également être utilisé pour générer des deepfakes audio diffusant de la désinformation électorale.
Pour combattre les dangers croissants posés par les deepfakes audio, la Federal Trade Commission (FTC) américaine a lancé son défi Voice Cloning. Les participants, venant à la fois du monde universitaire et industriel, ont été chargés de développer des idées pour prévenir, surveiller et évaluer le clonage vocal utilisé à des fins malveillantes. L’agence a annoncé les trois gagnants du concours en avril.
Ces trois équipes abordent toutes le problème de manière différente, démontrant qu’une approche multiprongée et multidisciplinaire est nécessaire pour faire face aux préjudices complexes et évolutifs posés par les deepfakes audio.
3 façons de lutter contre les deepfakes audio
L’un des projets gagnants, OriginStory, cherche à valider une voix à la source. Selon Visar Berisha, professeur de génie électrique à l’Université d’État de l’Arizona, qui dirige l’équipe de développement aux côtés de ses collègues Daniel Bliss et Julie Liss, “Nous avons développé un nouveau type de microphone qui vérifie l’humanité de la parole enregistrée au moment de sa création.”
Le microphone personnalisé d’OriginStory enregistre les signaux acoustiques comme le ferait un microphone conventionnel, mais il intègre également des capteurs pour détecter et mesurer les biosignaux émis par le corps lorsque quelqu’un parle, tels que les battements de cœur, les mouvements pulmonaires, les vibrations des cordes vocales et le mouvement des lèvres, de la mâchoire et de la langue. “Cette vérification est attachée à l’audio sous forme de filigrane pendant le processus d’enregistrement et fournit aux auditeurs des informations vérifiables démontrant que la parole a été générée par un être humain,” explique Berisha.
Un autre projet gagnant, nommé AI Detect, a pour but d’utiliser l’IA pour détecter l’IA. Proposé par OmniSpeech, une société qui conçoit des logiciels de traitement de la parole alimentés par l’IA, AI Detect intégrerait des algorithmes d’apprentissage automatique dans des appareils tels que des téléphones et des écouteurs ayant une puissance de calcul limitée pour distinguer les voix générées par l’IA en temps réel. “Notre objectif est d’avoir un identifiant lorsque vous parlez au téléphone ou utilisez un casque, par exemple, que l’entité à l’autre bout pourrait ne pas être une voix réelle,” explique David Przygoda, PDG d’OmniSpeech.
Le dernier projet gagnant, DeFake, est un autre outil IA. DeFake ajoute de légères perturbations à un enregistrement vocal humain, rendant plus difficile le clonage précis. “Vous pouvez envisager les perturbations comme de petits bruits de brouillage ajoutés à un enregistrement vocal humain, que l’IA utilise pour apprendre la signature d’une voix humaine,” explique Ning Zhang, professeur adjoint d’informatique et de génie à l’Université de Washington à St. Louis. “Ainsi, lorsque l’IA tente d’apprendre à partir de l’échantillon enregistré de cette parole, elle commettrait une erreur et apprendrait autre chose.”
Zhang déclare que DeFake est un exemple de ce qu’on appelle l’IA adversariale, une technique défensive qui attaque la capacité d’un modèle d’IA à fonctionner correctement. “Nous intégrons de petits extraits d’attaques pour attaquer l’IA des attaquants, les personnes essayant de voler nos voix,” ajoute-t-il.
Mise en œuvre des défenses contre les deepfakes audio
Tant AI Detect que DeFake en sont à leurs débuts en matière de R&D. AI Detect est encore conceptuel, tandis que DeFake nécessite des améliorations d’efficacité supplémentaires. Przygoda et Zhang reconnaissent les inconvénients de l’utilisation de l’intelligence artificielle. “Cela va nécessiter un effort continu où nous devrons mettre à jour nos ensembles de données et notre technologie pour suivre les développements des modèles et du matériel utilisé pour créer des deepfakes. C’est quelque chose qui nécessitera une surveillance active,” explique Przygoda.
Zhang partage cet avis : “L’IA évolue très vite, nous devons donc constamment nous assurer d’ajuster notre technique à mesure que de nouvelles capacités émergent. Et en tant que défenseurs, nous ne savons pas quels modèles d’IA les attaquants utilisent, nous devons donc être capables de nous défendre de manière générique contre toutes les attaques tout en maintenant la qualité de la voix, ce qui rend les choses beaucoup plus difficiles.”
Pendant ce temps, OriginStory est en phase de tests et travaille à rendre la technologie à l’épreuve des tromperies. “Nous menons une étude de validation avec de nombreux utilisateurs différents pour essayer de le tromper en faisant croire qu’il y a un être humain derrière le microphone alors que ce n’est pas le cas. À la fin de cela, nous aurons une idée de sa robustesse. Il faut savoir avec une très grande certitude que la personne en face est un être humain,” explique Berisha.
Nauman Dawalatabad, associé postdoctoral du groupe Spoken Language Systems au Laboratoire d’informatique et d’intelligence artificielle du MIT, estime que l’approche d’AI Detect est prometteuse. “Il est crucial pour un modèle de détection audio faux/réel d’opérer sur l’appareil pour préserver la vie privée, plutôt que d’envoyer les données personnelles à un serveur d’une entreprise.”
Quant à la stratégie préventive de DeFake, qu’il compare à un marquage, Dawalatabad la considère comme une bonne solution pour protéger les consommateurs contre la fraude lorsque leurs données vocales sont compromises ou interceptées. “Cependant, cette approche dépend de la connaissance de tous les locuteurs d’origine et nécessite une mise en œuvre minutieuse. Par exemple, le simple réenregistrement d’un discours marqué avec un autre appareil microphone peut totalement ou partiellement supprimer les effets d’un filigrane,” ajoute-t-il.
Quant à OriginStory, Dawalatabad déclare que la méthode préventive similaire de marquage à la source “semble plus robuste que le simple marquage logiciel, car elle repose sur des biosignaux difficiles à reproduire.”
Cependant, Dawalatabad souligne qu’une tactique encore plus efficace pour lutter contre les deepfakes audio est une approche à quatre volets combinant plusieurs stratégies. La première étape, selon lui, consiste à marquer dès à présent les nouveaux enregistrements audio pour les rendre traçables. La deuxième étape consiste en ce que les projets gagnants s’attellent à développer de meilleurs modèles de détection, essentiels pour garantir la sécurité des données actuelles, dont une grande partie n’est pas marquée.
La troisième étape implique le déploiement des modèles de détection directement sur les appareils pour renforcer la sécurité et préserver la vie privée. “Cela inclut la mise au point de meilleurs algorithmes de compression de modèles à déployer sur des appareils aux ressources limitées,” dit Dawalatabad. “En outre, je suggère d’ajouter ces modèles de détection au niveau du système par les fabricants eux-mêmes.”
Enfin, Dawalatabad met l’accent sur la nécessité d'”impliquer les décideurs politiques pour garantir la protection des consommateurs tout en promouvant des solutions autant que possible.”