Secteur TAL Informatique
ILPGA Université Paris 3
Cours Module L8T06 "Documents structurés" (Master TAL 1/2) TAL Paris 3 - ILPGA / Paris X / INALCO
Responsable du cours
Fleury Serge. serge.fleury@univ-paris3.fr
Descriptif du cours
Les textes sont des documents structurés. Un article comporte un titre, un ou des auteur(s), des sections, une bibliographie. La présentation permet d'appréhender cette structure (taille des caractères, jeu sur le gras, etc.). Lorsqu'on rend explicite cette structure (par le moyen de balisages en XML), on peut manipuler le texte comme unité structurée (extraire automatiquement les titres pour une table des matières, chercher les paragraphes introductifs, etc.). Le cours présente la manière de rendre explicite et fiable la structure des documents (en les assortissant d'une " grammaire textuelle " dite DTD). Il aborde les transformations réglées de textes qui deviennent possibles.
Bibliographie
P. Bonhomme, " Codage et normalisation de ressources textuelles ", in Ingénierie des langues, J.-M. Pierrel (ed), p. 173-192, Hermès Science, 2000, Paris.
Ressources pour ce cours disponibles sur Agora : L8T06
Voir aussi infra
Ressources pour le cours
Disponibles sur la plateforme AGORA (cours L8T06) (me demander les identifiants)
Liens (archives ou liens externes)
- Présentation de XML : Sur le site dev.nozav.org, au format PDF
- Transparents XML (intro): XML Intro
- Présentation XML (2000) : Transparents de cours
- Transparents Formats de Documents électroniques & SGML : slideSGML
- Transparents XML (2002-2003): SLIDES XML (1)
- Transparents XML (2003-2004): SLIDES XML (2) (Version HTML IE 6+) ou SLIDES XML (2) (Version PDF)
- Transparents DOM-SAX : SLIDES DOM-SAX
- Transparents TP XML : SLIDES TP XML (Version HTML IE 6+)
- Transparents PERL XML : SLIDES PERL XML (Version HTML IE 6+)
- Liens autour d'XML sur le site XML.com
- "The Annotated XML Specification by C.M. Sperberg-McQueen, Jean Paoli, Tim Bray, April 15, 1998, Inside the XML 1.0 Specification" : Spécification XML annotée par Tim Bray & al. sur le site XML.com, on y trouve la spécification annotée ("The Annotated XML 1.0 Specification") et un texte retraçant la mise en oeuvre de cette annotation : http://www.xml.com/pub/a/axml/axmlintro.html
- What is XML? "A Technical Introduction to XML, by Norman Walsh, October 03, 1998", Lien : http://www.xml.com/pub/a/98/10/guide0.html
- What is XSLT? "What is XSLT? by G. Ken Holman, August 16, 2000", Lien : http://www.xml.com/pub/a/2000/08/holman/index.html
- What is XSLT-FO? "What is XSL-FO? by G. Ken Holman, March 20, 2002", Lien : http://www.xml.com/pub/a/2002/03/20/xsl-fo.html
- What is XLink? "What is XLink? by Fabio Arciniegas A., September 18, 2000", Lien : http://www.xml.com/pub/a/2000/09/xlink/index.html
- What is XSL-SCHEMA? "Using W3C XML Schema by Eric van der Vlist, October 17, 2001", Lien : http://www.xml.com/pub/a/2000/11/29/schemas/part1.html
- What is XQuery? "What is XQuery? by Per Bothner, October 16, 2002", Lien : http://www.xml.com/pub/a/2002/10/16/xquery.html
- What is RDF? "What is RDF? by Tim Bray, January 24, 2001", Lien : http://www.xml.com/pub/a/2001/01/24/rdf.html
- What is RSS? "What is RSS? by Mark Pilgrim, December 18, 2002", Lien : http://www.xml.com/pub/a/2002/12/18/dive-into-xml.html
- What are Topic Maps? "What Are Topic Maps? by Lars Marius Garshol, September 11, 2002", Lien : http://www.xml.com/pub/a/2002/09/11/topicmaps.html
- What are XForms? "What Are XForms? by Micah Dubinko, September 11, 2002", Lien : http://www.xml.com/pub/a/2001/09/05/xforms.html
- Manuel XML document établi par Daniel Schneider, Faculté de Psychologie et des Sciences de l'Education, Université de Genève
- Le site personnel de Michel Jacobson
- XML Tutorial (A VOIR ABSOLUMENT)
- Recommandations XML
- Portail XML
- Présentation de la TEI
- Pour télécharger des documents écrits dans la rue GUTemberg:
- "Introduction pratique à SGML" par Michel Goossens
- Outils XML en ligne :
- http://tools.decisionsoft.com/ : "DecisionSoft has developed tools to assist in working with XML. We are making some of these available for use over the web to assist other XML users. xmlpp is a pretty printer designed to format XML that has no mixed content. xmldiff uses xmlpp and diff to display differences between XML files in an easy to read format. We also provide a simple Schema Validator . This will take a single schema plus an instance document and list any errors found whilst validating the document against the schema. We have also developed an on-line version of our XBRL Toolkit Validator . This will take an XBRL Taxonomy and list any errors found during validation. Optionally an XBRL instance may be provided also - it will then be validated against the given Taxonomy. An XBRL Stylesheet generator has been developed. This will read a number of XBRL Taxonomies and a number of label linkbases in order to generate a presentation stylesheet for displaying XBRL instance documents conforming to those taxonomies".
- http://apps.gotdotnet.com/
- http://www.lumrix.net/
- http://www.editml.com/XMLConvServices.aspx
- http://www.hitsw.com/xml_utilites/
Sur le site personnel de Michel Jacobson http://michel.jacobson.free.fr/, cours, ressources et outils en linguistique-informatique. Avec notamment : SoundIndex (image) est un outil qui alie un éditeur de texte structuré en XML avec un éditeur de son.
The XML Revolution (http://www.brics.dk/~amoeller/XML/), Technologies for the future Web, Anders Moller & Michael I. Schwartzbach © 2000 BRICS, University of Aarhus . This 130+ page slide collection provides an introduction and overview of XML, Namespaces, XLink, XPointer, XPath, DSD, XSLT, and XML-QL, including selected links to more information about each topic.
Traduction du standard "Extensible Markup Language (XML) 1.0" sur le site http://babel.alis.com/web_ml/xml/
Un portail XML http://xml.startkabel.nl : liens, outils...
"La TEI simplifiée : une introduction au codage des textes électroniques en vue de leur échange", par Lou Bernard, Oxford University. Ce document est une traduction d'un document paru dans le cahier GUTemberg.
se connecter sur le site de cette revue : on y trouvera nombre d'articles : lien vers cahier GUTemberg. Les publications au format PostScript sont disponibles derrière le lien suivant : Publications PS du cahier GUTemberg.
Ce document au format postscript est paru dans le cahier GUTemberg n°19 Janvier 1995. Pour lire ce document, il convient tout d'abord de le télécharger, puis de disposer d'un logiciel capable de lire ce type de fichier (par exemple GhostScript)
Contrôle des connaissances
Pour ce module, en contrôle continu, il faudra traiter et rédiger le travail réalisé en TD (par groupe de 2) : TD XML, XSLT; XPATH, DOCBOOK, TEI, METADONNEES... Ce TD doit conduire à la réalisation d’un site WEB regroupant les manipulations et résultats produits en réponse aux questions posées dans le cadre de ce TD (les exercices à faire sont décrits dans le poly distribué en cours ou disponible sur AGORA). IMPORTANT : toutes les pages constituant ce site devront être au format XML (avec des feuilles de style XSLT pour paramétrer l’affichage).
Bibliographie
De nombreux documents seront distribués en cours ou seront disponibles sur la plateforme Claroline.
Chalumeau François XML : un langage universel pour la représentation textuelle des données structurées, Biblio Numériques, cours INRIA, ADBS éditions, 2000
Hancke Johann-Christian "XML pour débutants", Compétence Micro – Expérience, Juillet 2002, Ref. : 4402
Michard Alain XML, langage et applications, Editions Eyrolles, 1999
Petrausch Andréas GUIDEXPRESS XML, Editions Micro Application, 2000
Pierrel Jean-Marie Ingénierie des langues Traité IC2 -Série informatique et SI360 pages - 01/10/00 - ISBN : 2-7462-0113-5 HERMES
Ray Erick T., Christopher R. Maden, "Learning XML", édition O'Reilly, ISBN 0-596-00046-4, 2001.
Sandoval Victor SGML - Ecole Centrale de Paris HERMES
Scott Means W., Elliotte Rusty Harold, "XML in a nutshell"(traduction française) O'Reilly
· Pillou, Jean-François. Introduction à XML [En ligne]. http://www.commentcamarche.net/xml/xmlintro.php3?imprim=1 (Page consultée le 30 janvier 2002)
· Cover, Robin. The XML Cover Pages - Home Page [En ligne]. http://xml.coverpages.org (Page consultée le 14 janvier 2002)
· Project Gutenberg. Projet Gutenberg official home site - index -- Free Books On-Line [En ligne]. http://promo.net/pg (Page consultée le 14 janvier 2002)
· The World Wide Web Consotrium. The World Wide Web Consortium [En ligne]. http://www.w3.org (Page consultée le 14 janvier 2002)
· Université Laval. Bibliothèque. Comment citer un document électronique? [En ligne]. http://www.bibl.ulaval.ca/doelec/citedoce.html (Page consultée le 13 janvier 2002)
· xmlhack. XML developer news from XMLhack: by and for the XML community [En ligne]. http://www.xmlhack.com (Page consultée le 11 janvier 2002)
· Bray, Tim et al. Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation 6 October 2000 [En ligne]. http://www.w3.org/TR/2000/REC-xml-20001006 (Page consultée le 12 janvier 2002)
· Brochard, Jonny. XML : concept et mise en oeuvre. Nantes : Éd. ENI, c2001. (En réserve à la bibliothèque)
· Michard, Alain. XML : langage et applications. Paris : Eyrolles, 2000. xv, 499 p. (ISBN: 2-212-09206-7) (En réserve à la bibliothèque)
· The Unicode Consortium. Unicode Home Page [En ligne]. http://www.unicode.org(Page consultée le 14 janvier 2002)
· Clark, James. Associating Style Sheets with XML documents. Version 1.0 [En ligne] http://www.w3.org/TR/xml-stylesheet (Page consultée le 30 janvier 2002)
· W3C. Cascading Style Sheets, level 2: CSS2 Specification. W3C Recommendation 12-May-1998 [En ligne] http://www.w3.org/TR/REC-CSS2 (Page consultée le 11 décembre 2001)
· W3C. Les feuilles de style en cascade, niveau 2: Spécification CSS2. Recommandation du W3c du 12 mai 1998 (traduction française de: Cascading Style Sheets, level 2: CSS2 Specification. W3C Recommendation 12-May-1998) [En ligne] http://www.yoyodesign.org/doc/w3c/css2/cover.html (Page consultée le 19 révrier 2002)
· Consultez la partie 2 Introduction à CSS2 pour un bref tutoriel sur les feuilles de style.
· w3schools. CSS Tutorial [En ligne] http://www.w3schools.com/css/default.asp (Page consultée le 18 février 2002)
