ASR (Automatic Speech Recognition)

Définition

L’Automatic Speech Recognition (ASR) ou reconnaissance automatique de la parole est une technologie qui permet d’analyser la parole afin de la retranscrire à l’écrit sous la forme d’un texte ou d’un fichier exploitable par un ordinateur.

L’ASR fait partie des nombreuses techniques de traitement de la parole, tout comme le TTS (Text-to-Speech).

Afin de retranscrire les propos tenus à l’oral, l’ASR fonctionne en 4 étapes différentes :

  • Détection de l’activité vocale : la bande son est découpée en différents segments, lesquels correspondent au moment où une personne parle. En clair, le logiciel cherche à identifier les différents temps de parole.
  • Segmentation : l’objectif est d’identifier les différents interlocuteurs. Pour se faire, le logiciel associe les différents segments correspondants au même orateur, en se basant sur certaines subtilités de langage comme l’accent par exemple.
  • Décryptage : Chaque segment audio est associé à une liste de syllabes, également appelées phomènes. À ce stade, le logiciel établit une liste de possibilités.
  • Révision : Parmi la liste des possibilités précédemment établie, le logiciel cherche ce qui, selon lui, a le plus de sens. C’est lors de cette dernière étape que la retranscription se fait.

La reconnaissance automatique de la parole est aujourd’hui communément utilisée car elle permet une transmission de l’information plus rapide qu’en écrivant. L’utilisation des mains et de la vue n’étant plus nécessaire, cette technologie garantit également à son utilisateur un certain confort.

L’ASR fait également partie des technologies d’assistance qui permettent aux aveugles et malvoyants d’avoir accès à l’information.

Avec l’arrivée de nombreux voicebot et callbot dans notre quotidien, la reconnaissance multilocuteur s’est très largement imposée comme étant l’ASR la plus utilisée par le grand public. Il convient néanmoins de rappeler qu’il existe 2 types de reconnaissance automatique de la parole :

  • La reconnaissance multilocuteur fonctionne avec n’importe quelle voix. Cela implique la connexion du logiciel à Internet, dans le but de comparer la requête avec une base de données stockée dans le cloud.
  • La reconnaissance monolocuteur est une solution stockée sur un serveur local. Son utilisation est particulièrement intéressante du point de vue des entreprises. Il est fréquent que certains secteurs dans lesquels s’inscrivent les entreprises aient à utiliser un vocabulaire spécifique. Grâce à la reconnaissance monolocuteur, il est possible de faire évoluer le logiciel afin de lui faire intégrer une nouvelle liste de mots, qu’il parviendra, par la suite, à reconnaître. Pour se faire, il convient d’enregistrer au préalable la voix de l’utilisateur afin que le logiciel s’en serve comme référence.

L’apparition de la reconnaissance vocale de la parole dans la téléphonie a largement contribué à la dynamisation de l’accueil téléphonique des entreprises, en particulier en ce qui concerne les serveurs vocaux interactifs.

Concrètement, favoriser le dialogue machine – humain participe à la modernisation de l’image de votre entreprise, laquelle s’inscrit alors comme totalement en phase avec les innovations digitales du marché. De plus, la reconnaissance vocale de la parole permet de fluidifier la navigation de l’appelant. Disparaissent ainsi les problèmes d’appui sur touche ou encore de difficulté de compréhension des menus. Désormais, l’utilisateur a seulement à énoncer des mots clefs ou motifs précis afin d’être redirigé.

Définitions similaires

Les personnes qui ont consulté cette définition ont également consulté les termes :