Illustration synthèse vocale les "voix" de l'autonomie

Synthèses vocales : « Les Voix de l’Autonomie »

2 avril 2019 webmaster 6682 Views 0 Comments aveugle, revue d'écran, synthèse vocale

Les synthèses vocales, voix de synthèse ou encore synthétiseurs font désormais partie de notre quotidien. Elles sont partout, dans les transports, les serveurs vocaux, les GPS, les assistants personnels, les smartphones, etc.

Évolution des synthèses vocales

D’abord très robotiques, elles se rapprochent de plus en plus de la voix humaine.

Premier synthétiseur vocal

Le premier synthétiseur, connu sous le nom de « speaking machine », est inventé en 1791 par Wolfgang von Kempelen. C’est une sorte d’instrument à vent capable de resynthétiser une voix humaine. Au début du 20eme siècle, le laboratoire Bell invente la première synthèse vocale électronique. Leur machine, appelée le Vocoder, est dotée d’un clavier et de pédales pour moduler les effets sonores et resynthétiser la voix. Elle va être utilisée notamment par l’armée US. Elle permettra alors les communications audios transocéaniques. Le Vocoder est aussi adopté par le milieu musical et notamment par le célèbre groupe Daft Punk (Around the World ou Get Lucky).

Plus tard, avec l’arrivée de l’ordinateur dans les années 60, la synthèse vocale devient automatique et gérée par l’ordinateur. Une dizaine d’années plus tard, il est possible de taper un texte sur l’ordinateur afin que ce dernier le vocalise.

Arrivée des synthétiseurs à voix humaine

Aujourd’hui, une synthèse vocale de qualité peut rendre compte des particularités de la voix humaine comme l’intention, la sonorité, l’accent et même l’émotion. Il est maintenant possible de recréer sa propre voix de façon synthétique. Et ceci en seulement quelques heures d’enregistrement (voir My-Own-Voice de Acapela). L’entreprise Candy Voice propose même des voix de synthèse de personnes connues comme Emmanuel Macron ou Georges Clooney.

Synthèse vocale, la « voix » de l’autonomie

En résumé, une synthèse vocale convertit un contenu texte en voix. En anglais, cette technologie est appelée Text-To-Speech.

Accès à l’information et à la communication

C’est un outil d’accès à l’information et à la communication pour de nombreuses personnes en situation de handicap.

Pour cela, les personnes malvoyantes ou aveugles les utilisent afin d’accéder aux informations d’une interface comme un ordinateur, une tablette ou un smartphone. La synthèse vocale intégrée dans un logiciel de lecture d’écran donne accès aux informations de l’interface. Il peut par exemple s’agir du nom et le type de l’élément (ex : « bouton ok »). Elle restitue vocalement le contenu d’un livre numérique, d’un document informatique ou d’un mail. Elle permet de plus d’informer des événements qui surviennent sur l’interface suite à l’action de l’utilisateur ou de prévenir d’une notification (ex : ouverture d’un programme, notification Facebook, etc.).

Intérêt dans les troubles DYS

Dans la même logique d’accès à l’information, une synthèse vocale associée à un logiciel de lecture de documents, permet aux personnes avec une difficulté de lecture (troubles DYS, nouveaux arrivants, etc.…) une aide à la lecture et à la compréhension du texte. Les troubles DYS ou troubles spécifiques du langage et de l’apprentissage parasitent la lecture d’un texte écrit. Ceci entraîne une lenteur pour lire, une altération de la compréhension du texte et une difficulté à mémoriser les informations. C’est source de grande fatigabilité. L’oralisation du texte permet à la personne d’avoir une appréciation globale du contenu. Et de cette manière de le comprendre et de le mémoriser plus facilement au besoin.

Dans ce contexte, certains enfants DYS s’équipent de logiciel de lecture de document à partir du CM2. L’outil permet d’oraliser les consignes, les réponses de l’élève ou de lire une leçon. C’est souvent un véritable soulagement pour les parents, car l’enfant gagne en autonomie pour faire ses devoirs.

Lorsque les troubles persistent à l’âge adulte, l’utilisation d’une synthèse vocale offre la possibilité de gagner en productivité. C’est notamment vrai pour la lecture de long document ou mail, les recherches sur Internet, etc.

Dysphasie, aphasie, maladies neurologiques

Enfin, ces voix de synthèses facilitent la communication à des personnes qui perdent ou qui n’ont pas la possibilité de parler (dysphasie, aphasie). Associée à un appareil d’aide à la communication, le célèbre Astrophysicien Stephen Hawking, atteint de SLA*, utilisait une synthèse vocale pour communiquer. À l’aide d’un contacteur qu’il activait en contractant un muscle de sa joue, il sélectionnait les caractères d’un clavier virtuel affiché sur une tablette, fixée sur son fauteuil roulant. Le texte était alors converti en voix par la synthèse vocale. Doté de ce dispositif dès ses 21 ans, la synthèse vocale disponible alors est assez robotique. Malgré l’amélioration de la qualité des synthétiseurs, il n’a jamais voulu changer sa « voix ». Il considérait en effet qu’elle faisait partie de son identité.

Par ailleurs, la société Acapela a développé depuis quelques années un système qui permet aux personnes risquant de perdre l’usage de la parole de synthétiser leur propre voix. L’objectif est de conserver cette partie essentielle de leur personnalité, lorsqu’elles seront dans l’obligation d’utiliser un appareil d’aide à la communication.

*SLA : sclérose latérale amyotrophique ou maladie de Charcot

Un peu de technique

L’objectif actuel des éditeurs de synthèse vocale est de proposer une voix de synthèse la plus proche possible de la voix humaine. Il faut alors qu’elle rende compte des nuances d’une langue comme l’accent, le rythme, l’intonation. En effet, dans certaines langues comme le mandarin, l’intonation peut déterminer le sens du mot. En français, l’intonation détermine plutôt le sens de la phrase. Par exemple : intonation montante dans une phrase interrogative.

Dans ce but, des acteurs enregistrent des milliers de phrases, afin d’obtenir une importante base de données de phonèmes.

Puis, la première étape d’un moteur de synthèse vocale est le traitement symbolique.

Il s’agit

De transcrire un texte en séquence de phonèmes.
D’identifier la structure grammaticale du texte pour connaitre la prononciation des mots (ex : les poules du couvent couvent), mais aussi la bonne intonation des phrases. La transcription phonétique de certains mots « irréguliers », comme les noms propres, est prédéfinie dans un lexique ou dictionnaire particulier.

La deuxième étape consiste à convertir cette représentation symbolique du texte en son.

Dans notre catalogue

De nombreux produits matériel ou logiciel de notre catalogue incluent une synthèse vocale.

Côté déficience visuelle

On trouve une synthèse vocale :

sur les lecteurs d’écran sur ordinateur ou sur téléphone ;
certains produits OCR* ou machines à lire ;
les téléagrandisseurs vocaux ;
certaines loupes électroniques ;
ainsi que des appareils de la vie quotidienne (balance, calculatrice, montre, etc.).

Les synthèses Nuance Vocalizer sont proposées gratuitement avec les logiciels de la gamme Freedom Scientific : JAWS, Fusion et ZoomText mais aussi avec SuperNova de Dolphin.

Pour l’éditeur Acapela, les synthèse vocales existent soit en pack pour le lecteur d’écran NVDA, soit en formule tout en un avec la clé Infovox incluant le lecteur d’écran NVDA. Infovox donne un accès immédiat en vocal à n’importe quel ordinateur, sans installation.

L’outil Voxiweb propose une interface simplifiée pour naviguer sur Internet. Il intègre une synthèse vocale pour les utilisateurs qui ne sont pas équipés de lecteur d’écran.

Dans le registre des Troubles du langage

ClaroRead ou Alfa Reader sont deux logiciels d’aide à la lecture. ClaroRead s’installe localement sur un ordinateur. Alfa Reader est une solution nomade sur clé USB, qui se branche sur n’importe quel PC, dans une médiathèque, un centre d’examen, etc.

Les produits à reconnaissance de caractères de type IRISCAN permettent de convertir les documents papiers en texte oralisable par une synthèse vocale. Ils se déclinent sous la forme de souris, réglette ou stylo.

*OCR : Optical Caracter Recognition = reconnaissance optique de caractères.

Notes : Les marques mentionnées dans ce document sont la propriété de leurs auteurs respectifs. Les produits ou marques dont il est question ici, le sont uniquement à titre d’exemple, il ne s’agit pas de faire le tour d’un domaine, de manière exhaustive.