Projet "La vie multilingue des mots sur le web"
Les différentes étapes d'écriture des scripts
de traitement des pages contenant les mots choisis
(retour
page d'accueil du cours)
Rappel : notre parcours de travail... ("en allant vers les scripts d'automatisation")
Figure 0 :
Schéma du projet
 |
| Les marches (les colonnes...) de la gloire !!!! |
Préambule: préparation du parcours
Répertoire et arborescence de travail
La figure ci-dessous donne un exemple de ce que pourrait être l'arborescence des fichiers constituant le projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra :
- le dossier CONTEXTES regroupe les fichiers issus de l'extraction contextuelle par egrep des mots traités dans les fichiers du dossier DUMP-TXT,
- le dossier DUMP-TEXT regroupe les fichiers issus du traitement par lynx sur les pages aspirées du dossier PAGES-ASPIREES,
- le dossier PAGES-ASPIREES regroupe les fichiers issus de l'"aspiration" par wget des urls contenues dans les fichiers situés dans le dossier URLs,
- le dossier PROGRAMMES regroupe l'ensemble des scripts construits pour ce projet,
- le dossier TABLEAUX regroupe l'ensemble des tableaux construits par les scripts, ces tableaux regroupant in fine 4 colonnes : l'url initiale, la page aspirée, le dump textuel, le contexte,
- le dossier URLs regroupe le ou les fichiers contenant les urls à traiter etc.
Figure 1 :
Arborescence de travail
Premier exercice : création de l'arborescence de travail dans un script
En prenant comme modèle l'arborescence de travail décrite dans la figure ci-dessus, écrire un script qui va construire cette arborescence... (solution)
L'arborescence étant créée, déposez vos fichiers d'urls dans le dossier idoine.
Positionnement de travail dans la fenêtre de
commandes
Les scripts utilisés infra
ont été construits de telle sorte que leur
exécution nécessite que l'on se positionne au
préalable à la racine de l'arborescence
précédente (le dossier PROJET-MOT-SUR-LE-WEB).
Dans
l'exemple traité ici, ce dossier se situe sur le bureau du
compte utilisateur (sous Windows). La première commande
passée ci-dessous (la commande cd...)
consiste donc à se déplacer dans
le dossier de travail :
Figure 2 :
Positionnement dans le répertoire de travail
Premier script : créer un tableau de liens
Objectif : Lire un fichier contenant une liste d'URL et produire un fichier HTML contenant un tableau (à 1 colonne) regroupant ces URLs
Figure 3 :
Premier script, un tableau de liens
Figure 4 :
Lancement du premier script
Second script
: créer un tableau de liens avec des liens externes vers les pages visées et des liens internes vers les pages correspondantes aspirées
Objectif : Lire un
fichier contenant une liste d'URL, produire un fichier HTML contenant un tableau (à 2 colonnes) regroupant (1) ces URLs
et (2) les pages aspirées correspondantes. Etablir les liens vers les 2 ressources (URL, page locale).
- 0. Préambule : la commande wget
On commencera par regarder les transparents du cours (slides 78-79).
Figure 5 :
Utilisation de wget...
Dans l'exemple précédent, on utilise wget (puis d'autres commandes) pour récupérer des adresses mails dans une page HTML...
Figure 6 :
Second script, un tableau de liens "actifs"
Figure 7 :
Exécution du second script
- 3. Les outils utilisés :
- 4. Solution alternative :
- Script Perl : solution partiellement équivalente écrite en Perl
Troisième script
: un tableau de liens avec 3 colonnes (URL, fichier
aspiré, dump)
Objectif : Lire un
fichier contenant une liste d'URL, produire un fichier HTML
contenant un tableau (à 3 colonnes)
regroupant (1)
ces URLs, (2)
les pages aspirées
correspondantes,(3)
les DUMPS des pages aspirées obtenus avec lynx. Etablir
les liens vers les 3 ressources (URL, page
locale, dump).
- 0. Préambule : la commande lynx
On commencera par regarder les transparents du cours (slides 83-88).
Figure 8 :
Troisième script, un tableau à 3 colonnes
Quatrième script
: plusieurs
tableaux de liens avec 3 colonnes (URL, fichier aspiré, dump)
Objectif : Lire un
(ou plusieurs) fichier(s) contenant une liste d'URL, produire un
fichier HTML
contenant un (ou plusieurs) tableau(x) (à 3
colonnes chacun) regroupant (1)
ces URLs, (2)
les pages aspirées
correspondantes, (3)
les DUMPS des pages aspirées obtenus avec lynx. Etablir
les liens vers les 3 ressources (URL, page
locale, dump)
Figure 9 :
Quatrième script, plusieurs tableaux à 3 colonnes
Figure 10 :
Exécution du Quatrième script
Cinquième script
: plusieurs
tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes)
Objectif : Lire un
(ou plusieurs) fichier(s) contenant une liste d'URL, produire un
fichier HTML
contenant un (ou plusieurs) tableau(x) (à 4 colonnes
chacun) regroupant (1)
ces URLs, (2)
les pages aspirées
correspondantes, (3)
les DUMPS des pages aspirées obtenus avec lynx, (4) les
contextes obtenus avec egrep. Etablir
les liens vers les 4 ressources (URL, page
locale, dump, contexte)
- 0. Préambule : la commande egrep
On commencera par regarder les transparents du cours (slides 92-104).
Figure 11 :
Cinquième script, plusieurs tableaux à 4 colonnes
Figure 12 :
Exécution du cinquième script
Problèmes d'encodage (et solution...)
Complément ludique : des nuages de mots...
Lectures
- Présentation du projet : transparents du cours.
- Introduction à Unix : transparents du cours.
- Introduction à HTML : on regardera par exemple cette liste des 12 cours gratuits en ligne pour apprendre le langage HTML
- Bash : Manuel Bash en ligne.
- Perl : Tutorial Perl . The tutorial is split into twenty-one sections, although you'll probably find it easier if you start from the beginning, especially if you're new to Perl. Lessons zero to ten deal with the basics, and the rest deal with more advanced topics, like servers, perl's guts, and parsing. Lesson 12 seems particularly popular: it deals with perl under Windows. The tutorial should be in line with modern Perl practices, so hopefully you won't see any more bareword filehandles, two-argument open or -w switches.
- Pour aller plus loin à la suite de ce cours :
Plurital 2008/2009. Cours
Projet Encadré.
J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/