L’intelligence artificielle apporte une précision proche de celle des humains aux applications de reconnaissance automatique de la parole.

Les récentes avancées dans la recherche en matière de deep learning ont amélioré la technologie de reconnaissance automatique de la parole (ASR) de manière si significative qui se rapproche aujourd’hui de la précision humaine. Cela ouvre la voie à de nombreuses autres possibilités et fonctionnalités passionnantes pour l’utilisation de cette technologie.

Par exemple, les interfaces de programmation d’applications (API) de conversion de la parole en texte affichent déjà une précision de 92 % par rapport à une transcription humaine, calculée par le taux d’erreur de mot (WER). Les récentes avancées dans la recherche sur l’apprentissage automatique, telles que Data2vec et Perceiver, visent à améliorer encore la précision et à accroître l’utilité des systèmes ASR.

Alors que les systèmes ASR deviennent plus précis, ils deviennent également plus abordables. Cela augmente leur portée et leur accessibilité. Au cours de cette transition, attendez-vous à voir la technologie ASR pionnière apparaître dans les nouveaux téléviseurs intelligents, les ordinateurs portables et les automobiles, ce qui permettra d’intégrer davantage la technologie dans nos habitudes quotidiennes.

Les fonctions d’intelligence audio vont devenir omniprésentes

Les systèmes ASR d’aujourd’hui vont au-delà de la simple transcription de la parole en texte. Les entreprises bénéficieront de nouvelles fonctionnalités basées sur l’intelligence artificielle parmi lesquelles:

L’analyse des sentiments dans une conversation. Un exemple serait les émotions exprimées lors des interactions entre les clients et leur conseiller dans le secteur des bancaire. Une entreprise pourra utiliser ces données analytiques et les utiliser pour mieux former ses agents, des messages marketing ciblés et améliorer les interactions avec les clients dans les centres d’appels.

La détection d’entités identifie et classe les entités dans un texte. Par exemple, professeur est une entité qui peut être classée comme une profession, tandis que oreille ou main peuvent être classés comme des parties du corps. La détection d’entités peut être utilisée dans le domaine médical pour identifier des conditions et des traitements afin de trier automatiquement les informations relatives aux patients et d’effectuer des analyses statistiques. Les robots vocaux utilisent la détection d’entités pour identifier des personnes ou des entreprises spécifiques, puis déclenchent automatiquement des actions pour personnaliser les interactions.

La diarisation du locuteur identifie des locuteurs distincts dans un fichier audio ou vidéo. Les centres d’appels utilisent la diarisation du locuteur pour identifier les locuteurs et analyser leur comportement afin de faire des prédictions. Par exemple, un podcast peut automatiquement étiqueter une transcription avec les noms des locuteurs pour rendre les transcriptions plus lisibles.

La détection sécuritaire de contenus permet d’identifier et de filtrer les informations potentiellement dangereuses et sensibles, telles que les discours de haine, la violence, les drogues, etc. Les plateformes de podcast en ligne peuvent utiliser la détection de la sécurité du contenu pour la modération du contenu.

La suppression des informations personnelles identifie et supprime les informations personnelles identifiables (PII), telles que les numéros de sécurité sociale, les numéros de carte de crédit et les adresses. Les plates-formes de communication et de télécommunications utilisent la suppression des IPI pour répondre aux exigences et réglementations en matière de sécurité et de confidentialité.

Le résumé audio divise les transcriptions audio ou vidéo en « chapitres » logiques et génère un résumé pour chacun d’eux. Les plateformes de réunion virtuelle utilisent la compression pour créer automatiquement des résumés utiles après chaque réunion. Les centres d’appels peuvent utiliser la synthèse pour faciliter l’examen des conversations. Les étudiants peuvent résumer leurs cours en ligne.

Applications de la reconnaissance vocale en 2022

Vous pouvez vous attendre à trouver des applications ASR dans des applications inattendues, comme les bornes de paiement automatique dans les épiceries. Dans un avenir proche, les interfaces vocales pourraient devenir plus populaires que les dispositifs à écran tactile. Les interfaces vocales pourraient changer la façon dont nous interagissons avec le monde.

Applications grand public

La reconnaissance vocale est une technologie en pleine maturité et les utilisateurs semblent lui faire confiance pour les fonctionnalités les plus basiques comme la recherche ou la lecture de musique. L’adoption des interfaces vocales par les utilisateurs est encore faible pour les applications ayant des implications plus importantes, comme l’achat de biens ou le contrôle d’appareils intelligents,

Recherche vocale

Il s’agit de l’utilisation la plus courante de la reconnaissance vocale. Une autre étude révèle également qu’environ 7 consommateurs sur 10 (71 %) préfèrent utiliser la recherche vocale pour effectuer une requête plutôt que la méthode traditionnelle de la saisie. Grâce à des applications telles que Siri et la recherche vocale de Google, l’utilisation des interfaces vocales est devenue courante.

Conversion de la voix en texte

La reconnaissance vocale permet de travailler les mains libres. Les utilisateurs n’ont plus besoin de taper des e-mails, des rapports et d’autres documents.

Rédaction d’e-mails

Par exemple, vous pouvez utiliser ces fonctions de frappe et de commande vocales dans Google Docs si vous utilisez le navigateur Google Chrome.

Commandes vocales pour les appareils domestiques intelligents

Les applications domestiques intelligentes sont généralement conçues pour effectuer certaines actions lorsque l’utilisateur donne des commandes vocales. Les appareils domestiques intelligents sont des applications de reconnaissance vocale largement utilisées, en particulier si l’on considère ces applications :

Applications commerciales

Service à la clientèle

Il s’agit de l’une des applications d’IA les plus importantes dans le domaine du service clientèle. La reconnaissance vocale est une solution de service de centre d’appels efficace, disponible 24 heures sur 24 et 7 jours sur 7, pour une fraction du coût d’une équipe de représentants du service clientèle.

Réponse vocale interactive (RVI)

Il s’agit de l’une des plus anciennes applications de reconnaissance vocale et permet au client de joindre les bons agents ou de résoudre son problème via des commandes vocales.

Analyse de conversation : La transcription de milliers d’appels téléphoniques entre les clients et les agents permet d’identifier les modèles d’appels et les problèmes communs.

Avant-vente

Il nous est arrivé à tous de passer des appels avec des représentants du service de vente qui nous posaient une série de questions pour déterminer si leur produit nous convenait. Cette procédure peut être automatisée par des robots vocaux.

La biométrie vocale pour la sécurité

La biométrie vocale utilise la voix d’une personne comme caractéristique biologique d’identification unique afin de l’authentifier. La reconnaissance vocale peut également être utilisée pour l’authentification vocale afin de remplacer les processus dans lesquels un utilisateur doit afficher ses informations personnelles pour s’authentifier.

La biométrie vocale améliore l’expérience globale du client, car elle élimine la frustration due à la lourdeur des processus de connexion ainsi qu’à la perte ou au vol des identifiants.

Applications industrielles

Automobile

Les systèmes de reconnaissance vocale embarqués sont devenus une caractéristique standard de la plupart des nouveaux véhicules. Ces systèmes visent à supprimer la distraction que constitue le fait de regarder son téléphone portable pendant la conduite. Grâce à ces systèmes, les conducteurs peuvent utiliser des commandes vocales simples pour passer des appels téléphoniques, sélectionner des stations de radio ou écouter de la musique.

Enseignement

80 % de l’apprentissage des enfants voyants se fait par la vision et constitue leur principale motivation pour explorer l’environnement qui les entoure. La reconnaissance vocale a le potentiel de minimiser les désavantages des étudiants aveugles ou malvoyants.

Il existe également des outils d’apprentissage des langues qui utilisent la reconnaissance vocale pour évaluer la prononciation de la langue de l’utilisateur. L’évaluation de la prononciation est une application pratique de l’apprentissage des langues assisté par ordinateur.

Médias/marketing

Des outils tels que les logiciels de dictée peuvent permettre d’écrire environ 3 000 à 4 000 mots de contenu, notamment des articles, des discours, des livres, des mémos et des courriels, en 30 minutes s’ils connaissent bien le sujet. Bien que ces outils ne fournissent pas encore des résultats 100% précis, ils sont bénéfiques pour les premières ébauches.

Santé

Prise de notes du médecin
Pendant l’examen des patients, les médecins ne doivent pas se soucier de prendre des notes sur les symptômes des patients. Les logiciels de transcription médicale utilisent la reconnaissance vocale pour capturer les notes de diagnostic des patients. Grâce à cette technologie, les médecins peuvent raccourcir le rendez-vous moyen, ce qui leur permet de voir plus de patients pendant leurs heures de travail.

Domaine judiciaire

Le compte rendu judiciaire (rédaction de conversation en temps réel) connait une forte croissance.

Grâce à une précision, une accessibilité et des prouesses analytiques accrues, les produits de reconnaissance vocale s’intègrent rapidement dans l’architecture informatique. De plus, les frameworks open source tels que DeepSpeech rendent la reconnaissance vocale hautement accessible à ceux qui souhaitent l’intégrer à leurs systèmes informatiques et commerciaux.