La technologie du clonage vocal, basée sur l’intelligence artificielle, a des avantages indéniables, tels que la création de voix synthétiques pour les personnes souffrant de troubles de la parole. Cependant, cette technologie comporte également de nombreux usages malveillants : les escrocs peuvent utiliser l’IA pour cloner des voix et usurper l’identité de quelqu’un afin d’escroquer des individus ou des entreprises de millions de dollars. Le clonage vocal peut également être utilisé pour créer des deepfakes audio qui propagent la désinformation électorale.
Pour contrer les dangers croissants posés par les deepfakes audio, la Federal Trade Commission (FTC) des États-Unis a lancé son Défi du Clonage Vocal. Les participants, issus à la fois du monde universitaire et de l’industrie, avaient pour mission de développer des idées pour prévenir, surveiller et évaluer le clonage vocal utilisé à des fins néfastes. L’agence a annoncé les trois gagnants du concours en avril. Ces trois équipes ont toutes adopté des approches différentes pour aborder le problème, démontrant qu’une approche multiprise et multidisciplinaire est nécessaire pour faire face aux dangers complexes et évolutifs posés par les deepfakes audio.
Une des entrées gagnantes, OriginStory, vise à valider une voix à la source. “Nous avons développé un nouveau type de microphone qui vérifie l’humanité de la parole enregistrée dès sa création”, déclare Visar Berisha, professeur de génie électrique à l’Université d’État de l’Arizona, qui dirige l’équipe de développement aux côtés de ses collègues Daniel Bliss et Julie Liss.
L’AI Detect, une autre entrée gagnante, entend utiliser l’IA pour détecter l’IA. Proposée par OmniSpeech, une entreprise spécialisée dans les logiciels de traitement de la parole alimentés par l’IA, AI Detect intégrerait des algorithmes d’apprentissage automatique dans des dispositifs tels que les téléphones et les écouteurs ayant une puissance de calcul limitée pour distinguer en temps réel les voix générées par IA. “Notre objectif est d’avoir un type d’identifiant lorsque vous parlez au téléphone ou utilisez un casque, par exemple, indiquant que l’entité à l’autre bout n’est peut-être pas une voix réelle”, explique David Przygoda, PDG d’OmniSpeech.
Enfin, DeFake, la dernière entrée gagnante, est un autre outil basé sur l’IA. DeFake ajoute de légères perturbations à un enregistrement vocal humain, rendant le clonage précis plus difficile. “Vous pouvez imaginer les perturbations comme de petits bruits brouillés ajoutés à un enregistrement vocal humain, que l’IA utilise pour apprendre la signature d’une voix humaine”, explique Ning Zhang, professeur adjoint d’informatique et de génie à l’Université de Washington à St. Louis. “Ainsi, lorsque l’IA tente d’apprendre à partir de l’échantillon enregistré de cette parole, elle commettrait une erreur et apprendrait autre chose.”
Tant AI Detect que DeFake en sont encore à leurs débuts en matière de R&D. AI Detect est encore conceptuel, tandis que DeFake nécessite des améliorations d’efficacité. Przygoda et Zhang sont conscients des inconvénients de l’utilisation de l’intelligence artificielle. “Cela va demander un effort continu où nous mettrons à jour nos ensembles de données et notre technologie pour suivre les évolutions des modèles et du matériel utilisé pour créer les deepfakes. Cela nécessite une surveillance active”, déclare Przygoda.
Zhang ajoute : “L’IA évolue très rapidement, nous devons donc constamment nous assurer d’ajuster notre technique à mesure que de nouvelles capacités apparaissent. Et en tant que défenseurs, nous ne savons pas quels modèles d’IA les attaquants utilisent, donc nous devons être capables de nous défendre de manière générique contre toutes les attaques tout en maintenant la qualité de la voix, ce qui rend les choses beaucoup plus difficiles.”
Source : article original de IEEE Spectrum, “How 3 Winning Entries Plan to Thwart Criminal Deepfakes”