5 raisons pour lesquelles la synthèse vocale sera la norme pour l'accessibilité audio

La synthèse vocale est aujourd’hui largement utilisée – notamment dans le récent boom des haut-parleurs intelligents, qui reposent sur des voix TTS comme Alexa et Google Assistant. Mais il existe un autre domaine dans lequel les voix TTS sont sur le point de devenir tout aussi importantes – la voix off d’accessibilité audio pour la documentation. Parce que la localisation multimédia est étroitement liée aux services d’accessibilité, il est crucial pour les prestataires de services linguistiques et les professionnels de la postproduction de comprendre pourquoi la TTS viendra dominer ce domaine – et comment être prêt pour ces projets.

Une familiarité croissante avec la voix off synthétique.

La prochaine génération de technologies, en particulier l’intelligence artificielle, dépendra des voix TTS reproduisant avec succès la parole humaine. C’est la principale raison pour laquelle le développement des TTS est si fort en ce moment. Mais c’est dans le domaine de l’accessibilité des documents audio, qui rend les textes juridiques, sanitaires, gouvernementaux et autres accessibles aux aveugles et aux malvoyants, que le TTS s’imposera comme la norme en matière de voix-off dans les prochains mois – en remplaçant la voix-off humaine, en fait.

Voici les cinq raisons de ce changement.

1. Les voix et la technologie sont excellentes maintenant – et s’améliorent considérablement.

Nous le disons à chaque fois que nous écrivons sur le TTS, nous n’insisterons donc pas sur ce point. Des développements majeurs en matière de qualité vocale se produisent tous les 2 ou 3 mois, car de nombreux développeurs travaillent sur cette technologie, qu’il s’agisse de multinationales comme Google, Amazon, Microsoft et Apple, ou de plus petits développeurs de pointe dans le monde entier. Et le rythme des améliorations va s’accélérer cette année, notamment grâce aux progrès de l’intelligence artificielle, de l’assemblage audio et du big data.

2. Les exigences en matière d’accessibilité vont augmenter.

Davantage de contenu est rendu accessible aux États-Unis en raison de la mise en œuvre continue de l’Americans with Disabilities Act (ADA). Et les nouvelles technologies permettent une grande partie de cette mise en œuvre et la rendent plus rentable. Par exemple, les formats de sous-titres textuels autonomes comme le SRT et le DFXP ont rendu la mise en œuvre du sous-titrage et du sous-titrage en ligne relativement rapide et rentable, ce qui a fait grimper la demande pour ces services. Il en va de même pour les documents : la quantité de contenu bénéficiant de l’accessibilité audio ne fera qu’augmenter, en partie grâce à la rapidité et à la rentabilité du service TTS VO.
Les pays du monde entier mettent également en œuvre des exigences en matière d’accessibilité – en fait, de nombreux pays ont déjà mis en place une législation similaire à l’ADA. Les pays qui disposent de bonnes options TTS dans leur langue les adopteront relativement rapidement pour des raisons d’accessibilité, ce qui favorisera le développement de TTS spécifiques à la langue.

3. La prise en charge des TTS en langue étrangère s’améliore.

Les ventes de haut-parleurs intelligents ont été robustes lors de la dernière saison des fêtes, en particulier aux États-Unis – et continueront de croître rapidement en 2018, faisant de ces produits la technologie grand public à la croissance la plus rapide de tous les temps, selon Canalys. Si les États-Unis sont toujours en tête de cette adoption, la demande augmente dans le reste du monde. Et cela signifiera de meilleures voix TTS pour les localités en langues étrangères, car elles sont essentielles pour la fonctionnalité des haut-parleurs intelligents.
Il est également bon de noter que le développement de voix TTS dans certaines langues devrait être moins laborieux que pour l’anglais – par exemple, dans les langues qui s’écrivent phonétiquement et ont un plus petit nombre de voyelles, comme l’espagnol. En fait, la synthèse vocale devrait dominer la voix espagnole pour l’accessibilité assez rapidement, d’autant plus que cette langue compte un grand nombre de locuteurs aux États-Unis.

4. L’accessibilité des documents exige des délais d’exécution courts.

Une grande partie du contenu rendu accessible par la voix-off est critique pour ses utilisateurs. Prenons l’exemple d’un guide de régime de santé : les membres du régime ont besoin de ces informations pour comprendre leurs prestations de santé, choisir des médecins et trouver des services. Mais ces documents comptent généralement plus de 100 000 mots ou plus, ce qui peut prendre des semaines à un talent humain de voix off pour les enregistrer. Pendant ce temps, une partie importante de la population a un accès réduit à ces informations essentielles. Si les avantages en termes de coûts de l’enregistrement avec TTS sont certainement attrayants, pour l’accessibilité, ce sont les délais drastiquement plus courts qui font toute la différence.

5. La TTS est largement utilisée pour les applications d’accessibilité.

Enfin, la raison pour laquelle la TTS deviendra la norme pour l’audio des documents est qu’elle est déjà la norme pour de nombreuses applications d’accessibilité. En fait, les systèmes de synthèse vocale, ainsi que les voix synthétiques à sonorité humaine, ont été absolument essentiels pour rendre les ordinateurs accessibles aux aveugles et aux malvoyants. Le logiciel « Reader » existe depuis la sortie du premier ordinateur Macintosh en 1984. Et aujourd’hui, presque tous les appareils comprennent une fonction d’accessibilité TTS. Vous voulez en voir une ? Allez dans les paramètres d’accessibilité de votre iPhone ou de votre appareil Android et vous verrez une sélection de voix TTS prêtes à être utilisées.
Le public auquel s’adresse le document audio d’accessibilité est déjà familiarisé avec ces voix, et avec le TTS en général. Ils en comprennent les bizarreries et les défauts. Et ils s’attendent à l’entendre.

Comment vous préparer à ces projets dans le cadre d’une localisation multimédia ?

En tant que professionnel de la post-production et de la localisation multimédia, il y a plusieurs choses que vous pouvez faire. Gardez à l’esprit qu’il s’agit d’un outil largement utilisé pour l’accessibilité – cela vous aidera à le présenter aux clients qui ne sont pas familiers avec cette technologie et qui pourraient opter par défaut pour des voix-off humaines. Deuxièmement, n’oubliez pas que toutes les langues n’ont pas le même support TTS, vérifiez donc le jeu de langues de votre projet par rapport aux polices vocales existantes. Et troisièmement, n’oubliez pas que même si les délais d’exécution des TTS sont beaucoup plus courts, les productions prennent toujours un certain temps. Le formatage des scripts audio et la création des directives de prononciation peuvent être particulièrement laborieux (et entraîner des retards de projet s’ils ne sont pas effectués correctement pour la TTS), et l’audio nécessite toujours un examen d’assurance qualité. Assurez-vous de prévoir suffisamment de temps pour « enregistrer » l’audio correctement, et de vérifier les fichiers comme vous le feriez avec n’importe quelle autre voix audio. Comme pour les enregistrements humains, un contrôle qualité approfondi effectué par un locuteur natif – que LenseUp fournit sur toutes les productions – est le seul moyen de garantir la qualité et la précision de tout projet de localisation et d’accessibilité multimédia.

5 raisons pour lesquelles la synthèse vocale sera la norme pour l’accessibilité audio