Au cours des derniers jours, un logiciel appelé Deep-Live-Cam a connu un véritable engouement sur les réseaux sociaux. Ce programme permet d’extraire le visage d’une personne à partir d’une seule photo et de l’appliquer sur une source vidéo en direct, tout en suivant les poses, l’éclairage et les expressions de la personne devant la webcam. Bien que les résultats ne soient pas parfaits, cette technologie montre à quelle vitesse le domaine évolue, rendant la capacité à tromper les autres à distance de plus en plus accessible.
Le projet Deep-Live-Cam est en développement depuis la fin de l’année dernière, mais des vidéos montrant des personnes imitant Elon Musk et le candidat républicain à la vice-présidence J.D. Vance (entre autres) en temps réel circulent sur Internet. Cette avalanche d’attention a brièvement propulsé ce projet open source à la première position sur la liste des dépôts tendance de GitHub (il est actuellement à la quatrième position à l’heure où j’écris ces lignes), où il est disponible en téléchargement gratuit.
« Étrange de constater que toutes les innovations majeures qui émergent de la technologie ces derniers temps se situent sous l’arbre des compétences de la fraude, » a écrit l’illustrateur Corey Brickley dans un fil de discussion sur X en réagissant à une vidéo d’exemple de Deep-Live-Cam en action. Dans un autre post, il a ajouté : « N’oubliez pas d’établir des mots de code avec vos parents, tout le monde, » faisant référence au potentiel d’outils similaires à être utilisés pour tromper à distance — ainsi qu’au concept d’utiliser un mot de passe partagé entre amis et famille pour établir votre véritable identité.
La technologie d’échange de visage n’est pas nouvelle. Le terme « deepfake » a été inventé en 2017 par un utilisateur de Reddit nommé « deepfakes » (combinant les termes « deep learning » et « fakes »), qui avait publié de la pornographie en échangeant le visage d’un acteur avec celui d’une célébrité. À l’époque, cette technologie était coûteuse et lente, et ne fonctionnait pas en temps réel. Cependant, grâce à des projets comme Deep-Live-Cam, il devient plus facile pour quiconque d’utiliser cette technologie chez soi avec un PC ordinaire et un logiciel gratuit.
Les dangers des deepfakes ne sont pas nouveaux non plus. En février, nous avons couvert un vol présumé à Hong Kong où une personne a imité le directeur financier d’une entreprise lors d’un appel vidéo, débouchant sur un montant de plus de 25 millions de dollars. Les deepfakes audio ont également conduit à d’autres fraudes financières ou escroqueries. Avec la disponibilité facile de logiciels de deepfake en temps réel, nous pouvons nous attendre à une augmentation des incidents de fraude vidéo à distance, et ce ne sont pas seulement des célébrités ou des politiciens qui pourraient être affectés.
En utilisant un logiciel d’échange de visage, quelqu’un pourrait prendre une photo de vous sur les réseaux sociaux et vous imiter auprès d’une personne ne connaissant pas bien votre apparence — étant donné la nécessité actuelle d’imiter des manières similaires, votre voix, vos cheveux, vos vêtements et votre structure corporelle. Des techniques existent également pour cloner ces aspects d’apparence et de voix (en utilisant le clonage vocal et la synthèse d’images de type image-à-image), mais elles n’ont pas encore atteint des implémentations photoréalistes fiables en temps réel. Cependant, avec le temps, cette technologie deviendra probablement également facilement accessible et simple à utiliser.
Comment ça fonctionne ?
Comme de nombreux projets open source sur GitHub, Deep-Live-Cam regroupe plusieurs paquets logiciels existants sous une nouvelle interface (et est lui-même un fork d’un projet antérieur appelé “roop“). Il détecte d’abord les visages dans les images source et cible (comme une image provenant d’une vidéo en direct). Il utilise ensuite un modèle d’IA pré-entraîné appelé “inswapper” pour réaliser l’échange de visage, et un autre modèle appelé GFPGAN pour améliorer la qualité des visages échangés en rehaussant les détails et en corrigeant les artefacts qui surviennent lors de l’échange de visage.
Le modèle inswapper, développé par un projet appelé InsightFace, peut deviner à quoi pourrait ressembler une personne (à partir d’une photo fournie) avec différentes expressions et sous différents angles, car il a été entraîné sur un vaste jeu de données contenant des millions d’images faciales de milliers d’individus capturées sous divers angles, dans différentes conditions d’éclairage et avec diverses expressions.
Lors de l’entraînement, le réseau neuronal sous-jacent au modèle inswapper a développé une « compréhension » des structures faciales et de leurs dynamiques sous diverses conditions, apprenant également à inférer la structure tridimensionnelle d’un visage à partir d’une image en deux dimensions. Il est également devenu capable de séparer les caractéristiques spécifiques à l’identité, qui restent constantes à travers différentes images de la même personne, des caractéristiques spécifiques à la pose qui changent avec l’angle et l’expression. Cette séparation permet au modèle de générer de nouvelles images faciales combinant l’identité d’un visage avec la pose, l’expression et l’éclairage d’un autre visage.
Deep-Live-Cam n’est pas le seul projet de logiciel d’échange de visage à exister. Un autre projet GitHub, appelé facefusion, utilise le même modèle d’échange de visage avec une interface différente. La plupart d’entre eux reposent lourdement sur un ensemble complexe de bibliothèques Python et d’apprentissage profond comme PyTorch, donc Deep-Live-Cam n’est pas encore aussi simple qu’une installation en un clic. Cependant, il est probable que ce type de capacité d’échange de visage devienne de plus en plus facile à installer avec le temps et s’améliore en qualité à mesure que les utilisateurs prolonge leur travail dans l’espace de développement AI open source.
En tant que journaliste, j’observe avec curiosité l’évolution de ces technologies. Les implications éthiques et de sécurité entourant les deepfakes ne peuvent être ignorées. Alors que ces outils deviennent plus accessibles, il est essentiel que nous sensibilisions le public aux dangers potentiels. La technologie avance vite, mais il est encore plus crucial de s’assurer qu’elle est utilisée de manière responsable.