Secteur TAL Informatique
ILPGA Université Paris 3
Cours Module L5T52 (Licence 3 TAL Paris 3 - ILPGA), L7T52 (Master TAL P3/P10/INALCO)
Responsable du cours
Cédric Gendrot. cgendrot@univ-paris3.fr
Descriptif du cours
Nom de l'enseignement
Informatique et phonétique
Contenu
Les 8 premières séances sont communes aux cursus Licence SDL Paris 3 et Master TAL Paris 3 / Paris X
2 séances : introduction aux différents types de synthèses (synthèse totale par règles, synthèse par concaténation) – synthèse par concaténation de diphones avec intégration de règles phonétiques.
3 séances : utilisation d’un phonétiseur écrit en Perl (conversion graphèmes -> phonèmes au moyen de règles phonologiques) - Amélioration de la synthèse Text-To-Speech grâce aux Speech Markup languages (XML, SSML, SAPI, JSML).
3 séances : présentation et utilisation de SMIL (Synchronized Multimedia Integration Language). Ce langage, très proche du XML de part sa structure, permet de créer du contenu multimédia sur Internet, mixant texte, son, vidéo... Ces spécifications ont été travaillées par le W3C.
et
4 séances : parallèle entre le TAL sur le texte et la recherche phonétique sur des fichiers sonores. Réaliser un balisage sur le fichier sonore afin de réaliser des requêtes par la suite (Praat et son langage de programmation)
Le détail des cours est présenté sur le site TAL-ILPGA à l'adresse suivante :
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/L5T52-L7T52.htm
Objectifs pédagogiques
Ce cours vise à présenter la synthèse de la parole actuellement utilisée par les serveurs vocaux ainsi que l'intégration de l'audio/vidéo sur les pages Internet. Cette optique phonétique permet de passer en revue différents langages inspirés de XML utilisés pour l'amélioration de la synthèse ou pour la mise en parallèle de contenus multimédia.
Volume horaire semestriel
1h30 par semaine CM/TD
Ressources pour le cours
Contrôle des connaissances
4 devoirs à rendre
Bibliographie
DUTOIT, T. (1997), High-Quality Text-to-Speech Synthesis : an Overview, Journal of Electrical & Electronics Engineering, Australia: Special Issue on Speech Recognition and Synthesis, vol. 17 n°1, pp. 25-37.
Dutoit, T., Pagel, V., Pierret, N., Bataille, F., Van der Vrecken, O. (1996) The MBROLA Project: Towards a Set of High-Quality Speech Synthesizers Free of Use for Non-Commercial Purposes. In Proc. ICSLP'96, Philadelphia, vol. 3, pp. 1393-1396.
Harold E.R., W. S. M. (2001). XML in a nutshell, O'REILLY.
Speech Synthesis Markup Language : SSML (2004) http://www.w3.org/TR/speech-synthesis/
JSpeech Markup Language: JSML (2000) http://www.w3.org/TR/2000/NOTE-jsml-20000605/
