Les robots feront-ils partie intégrante de notre vie future-proche ? Pour certains, cela relève du fantasme, pour d’autres, juste une question de temps.
Quoique l'on pense, il est indéniable que l’évolution de la robotique et les perspectives d’interaction avec notre quotidien est un terrain de recherche fascinant.
Le laboratoire de robotique IntRoLab de l’Université de Sherbrooke a développé le robot humanoïde IRL-1 pour ses recherches dans le domaine. Un travail récent de mémoire relate une expérience intéressante d’interaction homme-robot par la voix.
L'interaction par la voix implique à la fois une compréhension du contenu linguistique (les mots prononcés) et le décodage du contenu "paralinguistique" : le volume, le débit, le ton de la voix, des informations qui permettent d’identifier le locuteur (sexe, âge etc.) et son état d’âme, ses émotions. Tous des éléments essentiels dans la compréhension d’un contexte.
Le processus
En premier lieu, il s’agit d’acquérir et pré-traiter le signal sonore. Pour un robot mobile, qui évolue dans un environnement dynamique et qui peut se trouver à une distance non négligeable de la source du son, il s’agit déjà d’un défi. Un détecteur de son doit faire la distinction entre le bruit ambiant, la réverbération et la voix, afin d’améliorer la performance de l’algorithme d’audition artificielle. L’outil (libre) utilisé pour l’expérience est ManyEars.
Il faut ensuite décoder les mots prononcés et les émotions. On recourt à des algorithmes de reconnaissance de la parole, comme Google Speech Api (l’outil utilisé) ou CMU Sphinx, pour extraire des chaines de caractères à partir des mots prononcés.... On utilise ensuite des algorithmes de reconnaissance des émotions. Pour cette expérience, l’auteur s’est appuyé sur le modèle Anchor Models (Attabi et Dumouchel, 2013) et une classification des émotions en trois grandes catégories : neutres, négatives et positives.
Chaines de caractères et émotions sont ensuite interprétés par un programme informatique (dans l’expérience, l’outil Palaver), avec l’aide d'un gestionnaire de dialogue (Disco) pour générer enfin la réponse prononcée par le robot (par un module de synthèse vocal).
Normalement, dans une conversation, chaque mot et phrase prononcés ouvrent une série de réponses possibles, parmi lesquelles il faut choisir afin de poursuivre un dialogue. Cette approche devient vite compliquée à gérer, d’un point de vue technique.
C’est là que l’outil Disco intervient, pour "gérer" les réponses possibles. Comme l’auteur du mémoire l’explique, la particularité de cette expérience de robotique sociale réside précisément dans l’association d’une reconnaissance des émotions par la voix avec un système de gestion de dialogue.
En synthèse :
Les données des émotions
Une partie de ce mémoire est consacrée à la littérature et les différentes approches en termes de catégorisation des émotions. Comme anticipé, l’expérience s’est appuyée sur une distinction en trois catégories : positives, négatives et neutres.
Personnellement, j’ai découvert l’existence de base de données des émotions : les simulées (émotions interprétées par des acteurs), comme l’allemande Berlin Database of Emotional Speech (EMO-DB) ; les bases de données issues de mises en situation comme FAU AIBO, des échantillons sonores d’émotions exprimées par des enfants interagissant avec le chien-robot AIBO de Sony. Et des bases de données d’émotions naturelles, recueillies dans des situations réelles : émissions en direct, des boites noires d’avion etc. comme le Belfast Induced Natural Emotion Database (pour autres exemples, cf. Springer. Emotional Speech Databases).
Dans le contexte de cette étude, la base de données FAU AIBO (des voix d’enfants, en allemand) a été ajustée grâce à une base de données supplémentaire créée ad hoc, pour avoir des adultes s’exprimant en langue française - des voix et émotions de quinze personnes mise dans un contexte de jeu (jouant au jeu «1000 bornes» autour d’une table).
Les résultats
L’expérience du laboratoire visait non seulement à mettre en place une interaction homme-robot par la voix mais également d’étudier l’appréciation de cette interaction par les hommes.
Si l’on compare les essais avec activation/désactivation de la reconnaissance des émotions, les résultats indiquent que l’échange est d’autant plus apprécié lorsque les émotions sont prises en compte.
La reconnaissance des paroles est jugée nettement plus performante que la reconnaissance des émotions et l’efficacité du système augmente lorsqu’on intègre un outil de gestion des dialogues.
En conclusion, la reconnaissance des émotions reste à améliorer, par exemple par le développement d’une grande base de données de voix locales et annotée par un plus grand nombre de personnes (un futur projet collaboratif sur le style de wikipedia ?)….
Entre temps, les premiers robots personnels arrivent sur le marché, comme Pepper, doté d’un système de reconnaissance des émotions à partir de la voix, des traits du visage et de la posture – en vente au Japon.
Illustrations : D. Brodeur, IntRoLab©
Références
D. Brodeur. Interaction humain-robot par la voix avec traitement des émotions du locuteur. Université de Sherbrooke (2016) http://savoirs.usherbrooke.ca/handle/11143/8783
(Dernière consultation : mai 2016)
Voir plus d'articles de cet auteur