Secteur TAL Informatique

ILPGA Université Paris 3

Cours Module L5T52 (Licence 3 TAL Paris 3 - ILPGA), L7T52 (Master TAL P3/P10/INALCO)

Responsable du cours

Cédric Gendrot. cgendrot@univ-paris3.fr

Descriptif du cours

Nom de l'enseignement

Informatique et phonétique

Contenu

Les 8 premières séances sont communes aux cursus Licence SDL Paris 3  et Master TAL Paris 3 / Paris X

2 séances : introduction aux différents types de synthèses (synthèse totale par règles, synthèse par concaténation) – synthèse par concaténation de diphones avec intégration de règles phonétiques.

3 séances : utilisation d’un phonétiseur écrit en Perl (conversion graphèmes -> phonèmes au moyen de règles phonologiques) - Amélioration de la synthèse Text-To-Speech grâce aux Speech Markup languages (XML, SSML, SAPI, JSML).

3 séances : présentation et utilisation de SMIL (Synchronized Multimedia Integration Language). Ce langage, très proche du XML de part sa structure, permet de créer du contenu multimédia sur Internet, mixant texte, son, vidéo... Ces spécifications ont été travaillées par le W3C.

et

4 séances : parallèle entre le TAL sur le texte et la recherche phonétique sur des fichiers sonores. Réaliser un balisage sur le fichier sonore afin de réaliser des requêtes par la suite (Praat et son langage de programmation)

Le détail des cours est présenté sur le site TAL-ILPGA à l'adresse suivante :

 http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/L5T52-L7T52.htm

Objectifs pédagogiques

Ce cours vise à présenter la synthèse de la parole actuellement utilisée par les serveurs vocaux ainsi que l'intégration de l'audio/vidéo sur les pages Internet. Cette optique phonétique permet de passer en revue différents langages inspirés de XML utilisés pour l'amélioration de la synthèse ou pour la mise en parallèle de contenus multimédia.

Volume horaire semestriel

1h30 par semaine CM/TD

Ressources pour le cours

 

Contrôle des connaissances

4 devoirs à rendre

Bibliographie

DUTOIT, T. (1997), High-Quality Text-to-Speech Synthesis : an Overview, Journal of Electrical & Electronics Engineering, Australia: Special Issue on Speech Recognition and Synthesis, vol. 17 n°1, pp. 25-37.

Dutoit, T., Pagel, V., Pierret, N., Bataille, F., Van der Vrecken, O. (1996) The MBROLA Project: Towards a Set of High-Quality Speech Synthesizers Free of Use for Non-Commercial Purposes. In Proc. ICSLP'96, Philadelphia, vol. 3, pp. 1393-1396.

Harold E.R., W. S. M. (2001). XML in a nutshell, O'REILLY.

Speech Synthesis Markup Language : SSML (2004) http://www.w3.org/TR/speech-synthesis/

JSpeech Markup Language: JSML (2000) http://www.w3.org/TR/2000/NOTE-jsml-20000605/

Liens

Portail TAL - P3 : cours, Tds, outils...

Claroline : ressources complémentaires pour le cours

Rechercher une entrée du TLFi :

 

Rechercher une entrée du XMLittré :