Projet "La vie multilingue des mots sur le web"

Les différentes étapes d'écriture des scripts 

de traitement des pages contenant les mots choisis


(retour page d'accueil du cours)


Rappel : notre parcours de travail... ("en allant vers les scripts d'automatisation")

parcours

Figure 0 : Schéma du projet

Les marches (les colonnes...) de la gloire !!!!

Préambule: préparation du parcours

Répertoire et arborescence de travail

La figure ci-dessous donne un exemple de ce que pourrait être l'arborescence des fichiers constituant le projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra :


arborescence

Figure 1 : Arborescence de travail

Premier exercice : création de l'arborescence de travail dans un script

En prenant comme modèle l'arborescence de travail décrite dans la figure ci-dessus, écrire un script qui va construire cette arborescence... (solution)

L'arborescence étant créée, déposez vos fichiers d'urls dans le dossier idoine.

Positionnement de travail dans la fenêtre de commandes

Les scripts utilisés infra ont été construits de telle sorte que leur exécution nécessite que l'on se positionne au préalable à la racine de l'arborescence précédente (le dossier PROJET-MOT-SUR-LE-WEB). Dans l'exemple traité ici, ce dossier se situe sur le bureau du compte utilisateur (sous Windows). La première commande passée ci-dessous (la commande cd...) consiste donc à se déplacer dans le dossier de travail :

shell

Figure 2 : Positionnement dans le répertoire de travail


Premier script : créer un tableau de liens

Objectif : Lire un fichier contenant une liste d'URL et produire un fichier HTML contenant un tableau (à 1 colonne) regroupant ces URLs



Figure 3 : Premier script, un tableau de liens
lancement

Figure 4 : Lancement du premier script


Second script : créer un tableau de liens avec des liens externes vers les pages visées et des liens internes vers les pages correspondantes aspirées

Objectif : Lire un fichier contenant une liste d'URL, produire un fichier HTML contenant  un tableau (à 2 colonnes) regroupant (1) ces URLs et (2) les pages aspirées correspondantes. Etablir les liens vers les 2 ressources (URL, page locale).

On commencera par regarder les transparents du cours (slides 78-79).



Figure 5 : Utilisation de wget...

Dans l'exemple précédent, on utilise wget (puis d'autres commandes) pour récupérer des adresses mails dans une page HTML...



Figure 6 : Second script, un tableau de liens "actifs"
lancement

Figure 7 : Exécution du second script


Troisième script : un tableau de liens avec 3 colonnes (URL, fichier aspiré, dump)

Objectif : Lire un fichier contenant une liste d'URL, produire un fichier HTML contenant un tableau (à 3 colonnes)  regroupant (1) ces URLs, (2) les pages aspirées correspondantes,(3)  les DUMPS des pages aspirées obtenus avec lynx. Etablir les liens vers les 3 ressources (URL, page locale, dump).

On commencera par regarder les transparents du cours (slides 83-88).



Figure 8 : Troisième script, un tableau à 3 colonnes


Quatrième script : plusieurs tableaux de liens avec 3 colonnes (URL, fichier aspiré, dump)

Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x)  (à 3 colonnes chacun) regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx. Etablir les liens vers les 3 ressources (URL, page locale, dump)



Figure 9 : Quatrième script, plusieurs tableaux à 3 colonnes
lancement

Figure 10 : Exécution du Quatrième script


Cinquième script plusieurs tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes)

Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x) (à 4 colonnes chacun)  regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx, (4) les contextes obtenus avec egrep. Etablir les liens vers les 4 ressources (URL, page locale, dump, contexte)

On commencera par regarder les transparents du cours (slides 92-104).



Figure 11 : Cinquième script, plusieurs tableaux à 4 colonnes
lancement

Figure 12 : Exécution du cinquième script


Problèmes d'encodage (et solution...)


Complément ludique : des nuages de mots...


Lectures


Plurital 2008/2009. Cours Projet Encadré. J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/