La technologie de clonage vocal, dans laquelle l’intelligence artificielle est utilisée pour créer des discours faux mais réalistes, présente des avantages, tels que la génération de voix synthétiques pour les personnes ayant des troubles de la parole. Cependant, cette technologie comporte également de nombreuses utilisations malveillantes : les escrocs peuvent utiliser l’IA pour cloner des voix afin d’usurper l’identité de quelqu’un et escroquer des individus ou des entreprises de millions de dollars. Le clonage vocal peut également être utilisé pour générer des deepfakes audio qui propagent la désinformation électorale. Pour lutter contre les dangers croissants posés par les deepfakes audio, la Federal Trade Commission (FTC) des États-Unis a lancé son défi de clonage vocal. Des concurrents de l’académie et de l’industrie ont été chargés de développer des idées pour prévenir, surveiller et évaluer le clonage vocal utilisé à des fins néfastes. L’agence a annoncé les trois gagnants du concours en avril. Ces trois équipes ont toutes abordé le problème différemment, démontrant qu’une approche multiprongée et pluridisciplinaire est nécessaire pour aborder les dangers complexes et évolutifs posés par les deepfakes audio.
L’une des entrées gagnantes, OriginStory, vise à valider une voix à la source. “Nous avons développé un nouveau type de microphone qui vérifie l’humanité de la parole enregistrée dès sa création”, explique Visar Berisha, professeur de génie électrique à l’Université d’État de l’Arizona, qui dirige l’équipe de développement avec ses collègues de l’ASU, Daniel Bliss et Julie Liss. Le microphone personnalisé d’OriginStory enregistre les signaux acoustiques comme le fait un microphone conventionnel, mais il intègre également des capteurs pour détecter et mesurer les signaux biométriques émis par le corps lorsqu’une personne parle, tels que les battements de cœur, les mouvements pulmonaires, les vibrations des cordes vocales et les mouvements des lèvres, de la mâchoire et de la langue. “Cette validation est attachée à l’audio sous la forme d’un filigrane pendant le processus d’enregistrement et fournit aux auditeurs des informations vérifiables selon lesquelles la parole a été générée par un humain”, explique Berisha.
Une autre entrée gagnante, nommée AI Detect, vise à utiliser l’IA pour attraper l’IA. Proposée par OmniSpeech, une société qui fabrique des logiciels de traitement de la parole alimentés par l’IA, AI Detect intègrerait des algorithmes d’apprentissage machine dans des appareils comme des téléphones et des écouteurs ayant une puissance de calcul limitée pour distinguer en temps réel les voix générées par l’IA. “Notre objectif est d’avoir une sorte d’identifiant lorsque vous parlez au téléphone ou utilisez un casque, par exemple, que l’entité à l’autre bout n’est peut-être pas une vraie voix”, déclare David Przygoda, PDG d’OmniSpeech.
La troisième entrée gagnante, DeFake, est un autre outil d’IA. DeFake ajoute de minuscules perturbations à un enregistrement vocal humain, rendant le clonage précis plus difficile. “Vous pouvez considérer les perturbations comme de petits bruits de brouillage ajoutés à un enregistrement vocal humain, que l’IA utilise pour apprendre la signature d’une voix humaine”, explique Ning Zhang, professeur adjoint d’informatique et d’ingénierie à l’Université de Washington à St. Louis. “Par conséquent, lorsque l’IA essaie d’apprendre à partir de l’échantillon enregistré de cette parole, elle commet une erreur et apprend autre chose.”
Zhang dit que DeFake est un exemple de ce qu’on appelle l’IA adversaire, une technique de défense qui attaque la capacité d’un modèle d’IA à fonctionner correctement. “Nous intégrons de petits morceaux d’attaques pour attaquer l’IA des attaquants – les personnes qui essaient de voler nos voix”, ajoute-t-il.
Tant AI Detect que DeFake en sont à leurs débuts en R&D. AI Detect est encore conceptuel, tandis que DeFake nécessite des améliorations d’efficacité. Przygoda et Zhang sont conscients des inconvénients de l’utilisation de l’intelligence artificielle. “Cela va nécessiter un effort continu où nous mettons à jour nos ensembles de données et notre technologie pour suivre les évolutions des modèles et du matériel utilisé pour créer des deepfakes. C’est quelque chose qui nécessitera une surveillance active”, déclare Przygoda. Zhang partage le même sentiment : “L’IA évolue très vite, donc nous devons constamment nous assurer d’ajuster notre technique à mesure que de nouvelles capacités apparaissent. Et en tant que défenseurs, nous ne savons pas quels modèles d’IA les attaquants utilisent, nous devons donc être en mesure de nous défendre de manière générale contre toutes les attaques tout en conservant la qualité de la voix, ce qui rend les choses beaucoup plus difficiles.”
Pendant ce temps, OriginStory est en phase de test et travaille pour immuniser la technologie contre les détournements. “Nous menons une étude de validation avec de nombreux utilisateurs différents essayant de le tromper en pensant qu’il y a un humain derrière le microphone alors que ce n’est pas le cas. À la fin de cela, nous aurons une idée de sa robustesse. Vous devez être sûr avec une très grande certitude que la personne à l’autre bout est humaine”, déclare Berisha.
Selon Nauman Dawalatabad, collaborateur postdoctoral du groupe Spoken Language Systems au Laboratoire d’informatique et d’intelligence artificielle du MIT, l’approche d’AI Detect est prometteuse. “Il est crucial qu’un modèle de détection audio faux/réel fonctionne sur l’appareil pour préserver la vie privée, plutôt que d’envoyer des données personnelles au serveur d’une entreprise.” Dawalatabad considère la stratégie préventive de DeFake, qu’il compare à un tatouage numérique, comme une bonne solution pour protéger les consommateurs contre la fraude lorsque leurs données vocales sont compromises ou interceptées. “Cependant, cette approche dépend de la connaissance de tous les intervenants source et nécessite une mise en œuvre soigneuse. Par exemple, simplement enregistrement avec un autre dispositif de microphone peut supprimer entièrement ou partiellement les effets d’un tatouage numérique, dit-il.
Quant à OriginStory, Dawalatabad déclare que la méthode préventive similaire de la technologie de marquage à la source “semble plus robuste que le tatouage numérique basé sur un logiciel seul, car elle repose sur des signaux biologiques difficiles à reproduire”.
Cependant, Dawalatabad souligne qu’une tactique encore plus efficace pour lutter contre les deepfakes audio est une approche à plusieurs volets combinant plusieurs stratégies. La première étape, dit-il, consiste à tatouer numériquement les nouveaux enregistrements audio dès maintenant pour les rendre traçables. La deuxième étape consiste en ce que les entrées gagnantes s’engagent à développer de meilleurs modèles de détection, qui sont “essentiels pour sécuriser les données actuelles, dont bon nombre ne sont pas tatouées numériquement”, explique-t-il. La troisième étape consiste à déployer directement des modèles de détection sur les appareils pour améliorer la sécurité et préserver la vie privée. “Cela inclut la création de meilleurs algorithmes de compression de modèle à déployer sur des appareils aux ressources limitées,” dit Dawalatabad. “De plus, je suggère d’ajouter ces modèles de détection au niveau du système par les fabricants eux-mêmes”.
Enfin, Dawalatabad souligne la nécessité d'”impliquer les décideurs politiques pour garantir la protection des consommateurs tout en promouvant des solutions chaque fois que possible.”