Agence de traduction et d'interprétation professionnelle

Rechercher
  • Blogueur

Générer des vidéos deepfake traduites vers différentes langues avec les lèvres sincronizées.

Mis à jour : janv. 31

Des chercheurs de l’ International Institute of Information Technology d’ Hyderabad, en Inde, ont développé un système d'intelligence artificielle capable de créer des vidéos deepfakes traduites vers différentes langues en émulant le mouvement des lèvres pour donner un résultat plus réaliste.


Ce système a été surnommé «Face-to-Face Translation» et selon Prajwal Renukanand, auteur principal de l'étude, «La communication numérique d'aujourd'hui devient de plus en plus visuelle, nous soutenons que il existe le besoin d’un système capable de traduire automatiquement une vidéo d'une personne qui parle dans la langue A vers la langue B avec une synchronisation labiale réaliste. "

Pour développer leur modèle, les chercheurs ont créé un système de traduction voix à voix regroupant différents modules vocaux et linguistiques existants. Par la suite, ils ont implémenté LipGAN pour faire la "traduction en face à face". LipGAN, comme vous pouvez presque le deviner d'après son nom, est un système pour générer des visages réalistes avec un mouvement de lèvres synchronisées à partir du son de l’audio.


Le système est divisé en deux sous-systèmes: la traduction vocale et la synthèse labiale.

Le premier combine des technologies telles que ASR (reconnaissance automatique de la parole), NMT (traduction automatique neuronale) et TTS (Text-to-Speech) pour d'abord comprendre ce que dit l'audio original; deuxièmement, le traduire vers une autre langue et troisièmement, le parler dans la langue cible en utilisant la voix du sujet. Pour traduire l’anglais ils ont utilisé DeepSpeech, tandis que pour nourrir le système NMT dans les langues indiennes, ils ont utilisé le code de base de Facebook, AI Research.

Le deuxième sous-système est la synthèse du visage du sujet. Pour cela, LipGAN a été développé, un modèle capable de générer des visages parlants de toute personne à partir de n'importe quel fragment audio. Le modèle se compose de deux encodeurs: un encodeur facial et un encodeur vocal. Le premier est utilisé pour "encoder des informations sur l'identité du sujet", comme l'expliquent les auteurs, tandis que le second "prend de très petits fragments de voix (350 ms d'audio par fragment) et les utilise pour encoder les informations audio ". Enfin, la sortie de ces deux encodeurs est introduite dans un décodeur qui génère une image faciale ou les lèvres synchronisées avec le fragment audio.


LipGAN est un réseau générateur antagoniste. Le générateur crée une image faciale conditionnée par l'entrée audio et le discriminateur vérifie que les images générées et l'audio sont synchronisées de la meilleure façon possible. Pour y parvenir, en plus des images synthétisées, le modèle a été nourri avec d'autres échantillons synchronisés et non synchronisés pour apprendre à détecter la meilleure synchronisation labiale, sans oublier la qualité d'image optimale.


Ce système a fait l'objet de deux évaluations : quantitative et humaine.

Pour l’évaluation quantitative, ils l’ont soumis aux méthodes PSNR (Maximum Noise Signal Proportion), SSIM (Structural Similarity Index) et LMD (Landmark Distance) et LipGAN confronté à d'autres modèles similaires a obtenu le meilleur score dans chacun d'eux.

Pour l’évaluation humaine, 20 personnes ont évalué le réalisme et la synchronisation labiale de 150 vidéos. Noté sur une échelle d’ un à cinq, là encore, LipGAN a obtenu le score le plus élevé.


Selon les chercheurs, bien que le logiciel ne soit pas assez rapide pour faire cette traduction en temps réel, LipGAN a le potentiel pour doubler des films, des vidéos éducatives et des interviews et infos de la télévision. "Par exemple, un téléspectateur hindou ou français pourrait voir une interview d'Obama dans sa langue avec sa propre voix et avec des lèvres synchronisées", disent les auteurs de l'étude.


Avec ce système, il se peut que dans quelques années on puisse voir les films avec les voix originales, mais dans notre propre langue.


Source : NewScientist


19 vues

               

           InterpPro  

 

                 Lotissement les Collets N° 9,

            avenue Frédéric Mistral

            13111 Coudoux France

 

           +33 (0) 4 84 49 24 79

           +33 (0) 6 98 25 64 54

 

A votre écoute du lundi au vendredi, 

                 de 9h00 à 18h30

info@interppro.com

Réponse sous 24 heures

               

            Interneword

 

         Calle Bòbiles N° 48

             08905 L'Hospitalet

             de Llobregat España 

 

            +34 512 703 517 

            +34 63 555 91 81 

 

Le atenderemos de lunes a viernes

                de 9h00 a 18h30