Comment en sommes-nous arrivés à commander notre Smartphone par la voix? Pourquoi discutons-nous avec notre téléviseur pour qu’il change de chaine? Comment se fait-il que l’on parle à notre voiture pour baisser le son de la radio? Comment se fait-il que l’on puisse parler à un lapin pour envoyer des informations sur Twitter? C’est grâce à la reconnaissance vocale.
Qu’est-ce que la reconnaissance vocale? Tout d’abord il faudrait mieux dire reconnaissance automatique de la parole (RAP) ou Automatic Speach Recognition alias ASR pour les intimes. Il s’agit d’un système matériel et logiciel qui permet de capter le son de la voix et d’identifier les mots prononcés. Il s’agit donc d’un système informatique qui permet d’analyser la parole captée au moyen d’un microphone pour la transcrire sous la forme d’un texte exploitable par une machine.
Rangée parmi les techniques de traitement de la parole, la reconnaissance de la parole y rejoint la synthèse de la parole, l’identification du locuteur ou la vérification du locuteur. Des domaines en plein essor tant dans les laboratoires de recherches que dans nos produits technologiques de tous les jours. L’ensemble de ces techniques permettent notamment de réaliser des interfaces vocales c’est-à-dire des interfaces homme-machine (IHM) où l’interaction se fait à la voix.
La reconnaissance de la parole doit son existence à divers pans de la science. On peut citer en vrac, le traitement automatique des langues, la linguistique, le traitement du signal, les réseaux neuronaux, l’intelligence artificielle, etc.
Que l’on aime cette techno ou non, que l’on considère qu’elle marche correctement ou qu’elle a encore de gros efforts à faire une chose est sûr c’est que l’acte de parler à un objet n’est pas anodin… et risque de se généraliser!