Quand le traducteur automatique adopte la voix de son utilisateur

Emime souhaite traduire automatiquement dans la langue voulue les propos d'une personne, si elle ne parle pas la même langue que son interlocuteur. La voix automatique essayant de coller au plus près du timbre de l'individu.

En marge des solutions de traduction automatique de texte, celles de traduction vocale se multiplient également. VoiceTrade4U-M avait ainsi profité des Jeux Olympiques pour lancer son application iPhone qui traduit les paroles des individus pour faciliter les échanges entre les étrangers. Le tout, avec un léger retard de transmission. Dans la même veine, l'université d'Edimbourg en Ecosse travaille sur Emime, un système mobile qui traduira également instantanément les propos de l’utilisateur lors d’une discussion téléphonique. Avec une différence : le dispositif retranscrira les propos avec une voix qui ressemble à celle de son interlocuteur. Ainsi lors d’une discussion avec une personne étrangère, le logiciel traduira vos mots en y ajoutant votre voix pour plus de familiarité. Pour cela, le logiciel copie les caractéristiques de la voix et la façon dont les mots sont prononcés en y incluant une traduction du contenu.

Une méthode centrée sur les caractéristiques uniques de la voix

Pour ce faire, les chercheurs s’appuient sur l’utilisation de la synthèse de la parole du modèle caché de Markov (HMM), un modèle statistique dans lequel le système modélisé comprend des paramètres aléatoires. La même technologie est déjà utilisée sur la reconnaissance automatique de la parole utilisée dans les logiciels vocaux, comme Dragon Naturally Speaking. Les chercheurs prévoient de synthétiser le discours à travers deux étapes. La première, étant la phase d’apprentissage dans laquelle, ils vont décortiquer la voix pour extraire les mots. Ainsi à l’aide de deux filtres, ils vont séparer les caractéristiques propres à la voix : pulsation, intonation, ton et les variations du bruit afin d’identifier et extraire le langage. Dans la deuxième partie (phase de synthèse), ils vont traduire les mots extraits grâce à une base de données dans la langue voulue.

Des améliorations en vue

Ensuite, ils vont recomposer la voix grâce au modèle statistique de HMM en intégrant les mots traduits pour enfin synthétiser l’ensemble pour retransmettre le message à la personne réceptrice. Tout ce processus, selon les chercheurs, prendrait une seconde entre l’émission du message et sa réception. Cependant, quelques améliorations sont encore à étudier. Ils espèrent ainsi amener plus de flexibilité au logiciel. C'est-à-dire développer et de mieux comprendre la relation mathématique et théorique entre la reconnaissance vocale et la synthèse afin d’améliorer la retranscription du style, de l’expression émotionnelle.