Google a annoncé un nouveau projet visant à construire un modèle d’IA capable de prendre en charge les 1 000 langues les plus parlées au monde. L’entreprise a présenté un modèle d’IA qui a été entraîné dans plus de 400 langues, ce qu’elle décrit comme « la plus grande couverture linguistique vue dans un modèle de langage aujourd’hui. » Ce nouveau projet souligne l’engagement de Google en faveur des langues et de l’IA. Chez LenseUp, nous sommes particulièrement à l’écoute des ces innovations, qui permettent de faire progresser les communications, tant orales qu’écrites.


Google a annoncé le développement d’un modèle de langage « géant » capable de gérer plus de 1 000 langues du monde entier. L’entreprise travaille sur ce projet depuis un certain temps déjà, et elle a déjà fait quelques progrès. Avec l’aide de l’apprentissage automatique, Google a été en mesure de traduire différentes langues avec « zéro intervention humaine ». Maintenant, avec le nouveau modèle de langage, Google espère faire passer les choses au niveau supérieur. L’objectif est de permettre aux individus de communiquer plus facilement entre eux, quelle que soit la langue qu’ils parlent.

Comme l’a mentionné un cadre de Google, la langue est un aspect essentiel de la communication, et de la compréhension du monde. Environ 7 000 langues différentes sont parlées dans le monde, mais seules quelques-unes sont prises en charge par les outils de traduction.
Google estime qu’il lui faudra quelques années pour mener ce projet à bien et le concrétiser. L ‘entreprise est confiante dans la réalisation de son objectif. Google a créé un nouveau modèle vocal universel qui est entraîné sur environ 400 langues différentes, et qui offre dèjà une exccellente couverture en termes de modèle vocal. A cet égard, le géant de la technologie s’associe à d’autres communautés pour obtenir des données liées à la parole.

Il est clair que Google est déterminé à élargir son offre linguistique. Récemment, la société a ajouté 24 nouvelles langues à Google Translate et 9 nouvelles langues africaines à Gboard.

De même, le géant des moteurs de recherche travaille d’arrache-pied avec diverses ONG et différentes universités pour collecter des échantillons audio de différentes langues ou dialectes.

D’autres grandes entreprises technologiques créent également leurs propres méga-modèles linguistiques. En juillet, Meta a présenté un nouveau modèle d’IA appelé « No Language Left Behind », capable de traduire plus de 200 langues différentes.

Meta a donc déployé de nouveaux efforts afin d’ajouter du contenu aux communautés qui ne sont pas bien représentées sur le web. Le modèle d’IA pour lequel Meta possède actuellement des traductions concerne environ 55 langues africaines . Il s’agit d’un progrès considérable. Actuellement, moins de 25 langues africaines sont prises en charge par un certain nombre d’outils de traduction, alors en avoir 55 est une réussite majeure.

Google a déjà commencé à intégrer ces modèles linguistiques dans certains de ses produits, comme Google Search, tout en repoussant les critiques concernant la fonctionnalité des systèmes. Les modèles linguistiques présentent un certain nombre de défauts, dont une tendance à reproduire des préjugés sociétaux nocifs tels que le racisme et la xénophobie, et une incapacité à analyser le langage avec la sensibilité humaine. Ces modèles sont pourtant capables d’effectuer de nombreuses tâches, de la génération de langage (comme le GPT-3 d’OpenAI) à la traduction (voir les travaux de Meta sur le thème « No Language Left Behind »). L’initiative « 1 000 langues » de Google ne vise pas une fonctionnalité particulière, mais plutôt la création d’un système unique doté d’un vaste éventail de connaissances sur toutes les langues du monde.

Bien que l’entreprise n’ait pas donné d’exemples précis, elle a indiqué qu’elle s’attendait à ce que ce modèle soit utilisé pour toute une série de produits Google. Parmi les exemples potentiels, citons Google Translate ou les sous-titres de YouTube.