VALL-E : à partir d’un échantillon de 3 secondes, cette nouvelle IA peut simuler votre voix !
VALL-E, c'est le nouvel outil d'intelligence artificielle de chez Microsoft capable de reproduire la voix de n'importe quelle personne à partir d'un échantillon de seulement 3 secondes !
Alors que ChatGPT est une intelligence artificielle capable de répondre à de nombreuses questions et de générer du texte à la volée, VALL-E serait capable de reproduire la voix d'une personne ! Ce modèle d'intelligence artificielle de type Text-To-Speech correspond à de la synthèse vocale. VALL-E a suivi un entrainement intensif de 60 000 heures sur de la parole anglaise (à partir de 7000 locuteurs différents) et il est capable de préserver l'émotion et le ton de la voix, ce qui rend le résultat réaliste. Du coup, on peut croire qu'il s'agit de la personne qui parle alors qu'il s'agit de l'intelligence artificielle.
Pour mieux vous rendre compte, vous pouvez visiter cette page officielle où il y a des exemples d'audio générés par VALL-E. Cela permet également de comparer la voix originale avec la voix imitée par l'intelligence artificielle. Tout n'est pas parfait, mais on est très loin d'avoir une voix robotisée que l'on identifie très facilement !
VALL-E, qui n'a rien à voir avec le dessin animé WALL-E (quoi que...), n'est surement pas un nom choisit par hasard ! Si l'on regarde du côté de chez OpenAI, la société derrière ChatGPT, il y a un outil nommé DALL-E capable de générée des images en s'appuyant sur l'intelligence artificielle.
Quoi qu'il en soit, espérons que VALL-E ne soit pas accessible au grand public car sinon il y a des chances que ça parte dans tous les sens... S'il n'y a pas de contrôle sur ces outils, il pourrait clairement y avoir une explosion de contenus fake. On voit déjà ce que cela donne avec les deepfakes !
A ce sujet, Microsoft précise : "Puisque VALL-E peut synthétiser la parole en conservant l'identité du locuteur, il peut comporter des risques potentiels de mauvaise utilisation du modèle, comme l'usurpation de l'identification vocale ou celle de l'identité d'un locuteur spécifique" - La firme de Redmond estime que si VALL-E devenait accessible publiquement, il devra obligatoirement un protocole pour s'assurer que le locuteur approuve l'utilisation de sa voix.