ChatGPT est un chatbot développé par OpenAI. Il est basé sur instructGPT : il a été entraîné à répondre à des instructions, ou « prompts », rédigés par les utilisateurs.
ChatGPT fait preuve d’une capacité impressionnante à fournir des réponses détaillées, cohérentes et pertinentes. Il semble particulièrement performant dans les tâches de traitement du langage naturel (NLP) telles que le résumé, la réponse aux questions, la génération de langage et la traduction automatique.
Cependant, étant donné qu’il s’agit d’un système très récent, ChatGPT doit encore être évalué scientifiquement afin de comparer ses performances en matière de traitement du langage naturel avec celles de travaux antérieurs.
Dans cette optique, Tencent AI a publié une étude préliminaire sur la capacité de ChatGPT à traduire :
Is ChatGPT A Good Translator ? Une étude préliminaire par Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, et Zhaopeng Tu (Tencent AI)
L’équipe de Tencent répond à la question en examinant, disons, un ensemble limité de données. L’équipe a déclaré que « l’obtention des résultats de traduction de ChatGPT prend du temps car on ne peut interagir avec lui que manuellement et il ne peut pas répondre à des lots importants. Ainsi, nous échantillonnons au hasard 50 phrases de chaque ensemble pour l’évaluation. » Voyons donc quelles informations l’équipe a recueillies en évaluant ces 50 phrases.
Selon l’article, ChatGPT a des performances » comparables » à celles des solutions commerciales de traduction automatique (TA), telles que Google Translate, DeepL et le propre système de Tencent, sur les langues européennes à fortement utilisées, mais a du mal avec les paires de langues à faible ressource.
Pour cette « étude préliminaire », les chercheurs du laboratoire d’intelligence artificielle de Tencent, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang et Zhaopeng Tu, ont évalué les invites de traduction, la traduction multilingue et la robustesse de la traduction.
Elaboration de « prompts » pour la traduction
Pour cette « étude préliminaire », les chercheurs du laboratoire d’intelligence artificielle de Tencent, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang et Zhaopeng Tu, ont évalué les Prompts de traduction.
Lorsqu’on utilise des modèles de langage génératifs, l’une des étapes les plus importantes est la conception du prompt.
Nous devons trouver une formulation appropriée en langage naturel pour interroger le modèle en fonction de notre tâche cible. Ici, nous voulons que ChatGPT traduise une phrase dans une langue source, désignée par « [SRC] », vers une langue cible, désignée par « [TGT] ».
Pour trouver de bons prompts, Tencent AI a directement demandé à ChatGPT de donner 10 prompts, avec le prompt suivant:
Donnez dix prompts ou modèles concis qui peuvent vous faire traduire.
ChatGPT a renvoyé comme prévu 10 prompts, mais avec seulement quelques différences entre eux. Ils décident finalement de ne retenir que les 3 propositions suivantes, qui sont les plus représentatives des 10 propositions initialement renvoyées par ChatGPT :
– Prompt 1 : Traduisez ces phrases de [SRC] à [TGT] :
– Prompt 2 : Répondez sans guillemets. Que signifient ces phrases en [TGT] ?
– Prompt 3 : Veuillez fournir la traduction en [TGT] de ces phrases :
Prompt 1: Translate these sentences from [SRC] to [TGT]:
Prompt 2: Answer with no quotes. What do these sentences mean in [TGT]?
Prompt 3: Please provide the [TGT] translation for these sentences:
Le prompt qui a produit (prompt 3) les meilleures traductions chinois-anglais a ensuite été utilisée pour le reste de l’étude – 12 directions au total entre le chinois, l’anglais, l’allemand et le roumain.
Les chercheurs étaient curieux de savoir comment les performances de ChatGPT pouvaient varier selon la paire de langues. Si ChatGPT a obtenu des résultats » comparables » à ceux de Google Translate et de DeepL pour la traduction anglais-allemand, son score BLEU pour la traduction anglais-roumain était inférieur de 46,4 % à celui de Google Translate.
L’équipe a attribué cette mauvaise performance à la différence marquée des données monolingues pour l’anglais et le roumain, qui « limite la capacité de modélisation linguistique du roumain. »
La traduction roumain-anglais, en revanche, « peut bénéficier de la forte capacité de modélisation linguistique de l’anglais, de sorte que le manque de ressources des données parallèles peut être quelque peu compensé », pour un score BLEU de seulement 10,3 % inférieur à celui de Google Translate.
Des différences selon les familles de langues
Au-delà des différences de ressources, écrivent les auteurs, la traduction entre familles de langues est considérée comme plus difficile que la traduction au sein d’une même famille de langues. La différence de qualité des résultats de ChatGPT pour les traductions allemand-anglais et chinois-anglais semble le confirmer.
Les chercheurs ont observé un écart de performance encore plus important entre ChatGPT et les systèmes de TA commerciaux pour les paires de langues à faibles ressources appartenant à des familles différentes, comme le roumain-chinois.
« Étant donné que ChatGPT traite différentes tâches dans un seul modèle, les tâches de traduction à faible niveau de ressources sont non seulement en concurrence avec les tâches de traduction à niveau de ressources élevé, mais aussi avec d’autres tâches NLP pour la capacité du modèle, ce qui explique leurs faibles performances », ont-ils écrit.
Google Translate et DeepL ont tous deux surpassé ChatGPT en matière de robustesse de la traduction sur deux des trois ensembles de tests : WMT19 Bio (résumés Medline) et WMT20 Rob2 (commentaires Reddit), probablement grâce à leur amélioration continue en tant qu’applications du monde réel alimentées par des phrases spécifiques au domaine et bruitées.
Cependant, ChatGPT a surpassé Google Translate et DeepL de manière « significative » sur l’ensemble de test WMT20 Rob3, qui contenait un corpus de reconnaissance vocale provenant du grand publie. Les auteurs estiment que ce résultat suggère que ChatGPT est « capable de générer des langues parlées plus naturelles que ces systèmes de traduction commerciaux », ce qui laisse entrevoir un futur domaine d’étude possible.
Perspectives d’avenir
Alors que les modèles de traduction automatique sont intrinsèquement prédictifs, c’est-à-dire qu’on s’attend à ce qu’ils soient à la fois exacts et précis, les modèles génératifs comme ChatGPT peuvent ouvrir de nouvelles voies aux traducteurs et au secteur de la localisation.
Le coût de la création de contenu va baisser, ce qui signifie que l’on va créer encore plus de contenu. Cela crée une nouvelle demande de services linguistiques pour réviser, adapter et certifier les résultats obtenus par l’IA. Le concept de post-modification de la traduction automatique s’étendra à la validation linguistique, à l’adaptation culturelle, à l’ajustement du ton, à la vérification des faits et à la suppression des préjugés.