Meta envisage d’ouvrir la technologie à toutes les langues vivantes. Meta a créé un modèle de langage IA très intéressant. Le projet Massively Multilingual Speech (MMS) peut reconnaître plus de 4000 langues parlées et produire du contenu oral texte-vers-voix dans plus de 1100 d’entre elles.
Comme la majorité des autres annonces publiques de projets IA, Meta rend MMS open-source pour aider à préserver la diversité des langues et encourager les chercheurs à travailler avec. Les modèles de reconnaissance du langage oral et de texte-vers-voix nécessitent normalement des milliers d’heures d’audio pour leur entraînement, avec leurs traductions texte. Mais pour les langues qui ne sont beaucoup parlées, et nombre d’entre elles risquent de disparaître, «ces données n’existent tout simplement pas», comme l’explique Meta. Meta a utilisé une approche non conventionnelle pour collecter des données audio: puiser dans des enregistrements audio de textes religieux traduits. «Nous nous sommes tournés vers les textes religieux, comme la Bible, qui a été traduit dans tellement de langues différentes et dont les traductions ont été grandement étudiées pour des recherches de traduction. […] Ces traductions ont des enregistrements audio de personnes qui lisent ces textes dans différentes langues accessibles publiquement.» Ce qui a permis de passer la barre des 4000 langues reconnues par le modèle. Et selon Meta, il n’y a là aucun biais possible : «Bien que le contenu des enregistrements audio soit religieux, notre analyse montre que le modèle n’est pas biaisé pour produire davantage de langues religieuses. […] Nous pensons que c’est parce que nous utilisons une approche Connectionist Temporal Classification (CTC), qui est bien plus contraignante que les grands modèles de langage (LLM) ou modèle séquence-vers-séquence pour la reconnaissance du langage.» Et malgré le fait que les textes soient principalement lus par des hommes, il n’y a pas non plus de biais de genre. Les performances sont identiques avec des voix masculines et féminines. Après avoir entraîné un modèle d’alignement pour rendre les données plus utilisables, Meta a utilisé wav2vec 2.0, le modèle d’«apprentissage de représentation du langage auto-supervisé» de l’entreprise, lequel peut apprendre avec des données sans leurs traductions. Combiner des sources de données non conventionnelles et un modèle de langage auto-supervisé a produit des résultats impressionnants. «Nos résultats montrent que les modèles MMS s’en sortent très bien par rapport aux modèles existants et couvrent 10 fois plus de langues.» Plus précisément, Meta a comparé le MMS à Whipser, d’OpenAI, et le résultat est excellent. «Nous avons trouvé que les modèles entraînés sur les données de MMS atteignent la moitié du taux d’erreur sur les mots, mais MMS couvre 11 fois plus de langues.»
Meta envisage d’ouvrir la technologie à toutes les langues vivantes
Meta rappelle cependant que ces nouveaux modèles ne sont pas parfaits. «Par exemple, il y a des risques que le modèle voix-vers-texte retranscrive de manière incorrecte certains mots ou phrases. […] Le résultat pourrait être offensant et/ou imprécis. Nous continuons de croire qu’une collaboration avec la communauté IA est vitale pour un développement responsable des technologies d’intelligence artificielle.» Maintenant que Meta a rendu son MMS open-source pour la recherche, le géant américain espère pouvoir inverser la tendance de cette technologie qui se «concentre» sur les 100 langues, ou moins, les plus populaires. La firme de Menlo Park imagine un monde dans lequel les technologies d’aide, TTS et même d’AR et VR pourraient aider tout un chacun à parler et apprendre dans leur langue natale. «Nous rêvons d’un monde dans lequel la technologie a l’effet inverse, encourageant les gens à garder leur langue bien vivante puisqu’ils pourraient accéder à l’information et utiliser les technologies en parlant leur langue de prédilection.»