Explorer le Répertoire de Données Brutes

Sommaire :

  1. Principe, Accès, Vues Chronologiques et Alphabétiques
  2. Arborescence du Répertoire et Organisation
  3. Tables des Pièces, Dossiers, Adresses Mail Clickables en Ligne
    1. Tables des Pièces, Dossiers, et Courriels au Format PDF
    2. Rechercher des Adresses Courriel et leurs Affiliations
    3. Courriels : Mise en Forme PDF
    4. Listes de Courriels Associés à une Adresse e-mail
  4. Base de Données des Pièces à Télécharger
  5. Pages Web du Site Imprimées Avec les Références Citées

1. Principe, Accès, Vues Chronologiques et Alphabétiques

Les différentes pièces du dossier qui sont accessibles sur internet ne sont que partiellement accessibles à partir de liens sur le site Web. En outre, les liens entre les différentes pièces du dossiers, par exemple concernant un protagoniste, ne sont que partiellement reflétés par les hyperliens qui apparaîssent sur le site Web

Il est possible d'accéder à l'ensemble des pièces via le lien "Données Brutes" (Pièces)" du menu, en bas à gauche, qui conduite à l'adresse internet (URL) : https://malgouyres.org/my-problems/. La présentation par défaut affiche les fichiers et dossiers dans un ordre alphabétique. Il est possible d'obtenir une présentation par date de dernière modification (généralement la date de mise en ligne, à de rares exceptions près, où un mise à jour a été effectuée suite à constatation d'une erreur). Pour celà, il faut clicker sur le lien Last Modified (cliquer une deuxième fois pour inverser l'ordre).

a) Vue alphabétique (majuscules avant)
b) Vue Chronologique
Figure :1. Les modes de présentation des données d'un dossier

L'ordre chronologie permet de surveiller et détecter certains ajouts ou modifications dans les dossiers. Cependant la date de modification d'un dossier correspond à la date du fichier le plus récent (dernière modification) qui se trouve directement dans le dossier. Les modification à l'intérieur d'un sous-dossier du dossier ne sont pas prises en compte. Il est donc possible que des pièces aient été ajoutés dans un sous-dossier d'un dossier, sans que ce dossier ne remonte dans l'ordre chronologique.

Il faut parfois recharger la page pour voir les dernières mises à jour, car la page affichée peut avoir été enregistrée dans le "cache du navigateur" (qui est utilisé pour accélérer la navigation en évitant de télécharger une page déjà visitée plusieurs fois).

2. Arborescence du Répertoire et Organisation

Lorsqu'on clique sur un sous-dossier, on accède au contenu de ce sous dossier, et l'URL dans la barre d'adresse du navigateur se trouve modifiée. L'URL du sous-dossier finit par le nom du sous-dossier en question. Par exemple, en clickant sur le dossier that-is-getting-really-awkward-and-hard-to-swallow dans le répertoire racine https://malgouyres.org/my-problems/, on accède à l'URL :

https://malgouyres.org/my-problems/that-is-getting-really-awkward-and-hard-to-swallow/

Ce dernier dossier contient des captures d'écran sur les réseaux sociaux, qui peuvent être mises en relation avec les fichiers mis en ligne autour des mêmes dates.

L'organisation a été de type sédimentaire, au fur et à mesure que les documents ont été mis en ligne, et n'a pas été restructurée, à la fois pour que les liens restent valables d'une fois sur l'autre et pour qu'on retrouve le fichier de la dernière fois au même endroit. Parfois, pour regrouper les fichiers concernant un sujet dans un même répertoire, des fichiers ont été copiés (plutôt que déplacés, donc) pour être placés dans un autre répertoire. Dans un tel cas, en principe, le nom du fichier est identique dans les deux copies. La probabilité pour que deux fichiers différents aient accidentellement le même nom est faible.

À la date du 21 janvier 2021, un fichier a été ajouté dans chaque répertoire (ce qui a eu pour effet de modifier la date de chaque répertoire à la date de ce jour), qui contient une description schématique de l'arborescence des dossiers et fichiers de ce répertoire. Ce fichier s'appelle Arborescence-du-dossier.txt.

Par exemple, le fichier accessible à l'URL suivante :

https://malgouyres.org/my-problems/hceres-limos-2019/Arborescence-du-dossier.txt

Contient une description schématique du contenu du répertoire qui est accessible à l'URL suivante :

https://malgouyres.org/my-problems/hceres-limos-2019/

Le contenu du fichier Arborescence-du-dossier.txt (généré à la date indiquée dans le fichier, au format texte Unicode, UTF-8) est le suivant :

---------------- CONTENU ET ARBORESENCE D'UN DOSSIER -----------------

Date de génération de cette indexation (certains fichiers ajoutés ultérieurement n'apparaîtront pas) :

23/01/2021 12:34

URL du Dossier : https://malgouyres.org/my-problems/hceres-limos-2019/
Référence du dossier : D40377d71f089827cb51af6163d3dfa95a7557931

------------ Commentaires de la partie produisant les pièces -------------
Néant.
--------------------------------------------------------------------------


.
|-- [20/12/2019 23h58]  AAP_2020_INS2I.pdf
|-- [21/12/2019 17h00]  LIMOS_Programme_HCERES-1.pdf
|-- [20/12/2019 20h25]  mail-hceres-1.pdf
|-- [20/12/2019 20h25]  mail-hceres-2.pdf
|-- [20/12/2019 20h25]  mail-hceres-3.pdf
|-- [20/12/2019 20h25]  mail-hceres-4.pdf
|-- [20/12/2019 20h25]  mail-hceres-5.pdf
|-- [20/12/2019 20h25]  mail-hceres-6.pdf
|-- [20/12/2019 20h25]  mail-hceres-7.pdf
|-- [20/12/2019 20h25]  mail-hceres-8.pdf
|-- [21/12/2019 17h00]  mail-programme-hceres-2019.pdf
|-- [20/12/2019 20h25]  ou-sont-les-mails.png
|-- [23/01/2021 12h25]  projetsTransversaux
|   |-- [20/08/2020 21h00]  projetsTransversaux2.png
|   |-- [20/08/2020 21h00]  projetsTransversaux.png
|-- [20/12/2019 23h45]  sources.zip
|-- [23/01/2021 12h25]  voeux
    |-- [06/01/2020 11h53]  Happy_new_year_indepth_2020.png
    |-- [06/01/2020 11h52]  retour-mail-cnrs-2019.pdf
    |-- [06/01/2020 11h52]  retour-mail-hceres-2019.pdf
    |-- [06/01/2020 12h17]  voeux-directeur-limos.pdf
    |-- [06/01/2020 11h53]  voeux-mathias-bernard-2020.pdf
    |-- [06/01/2020 11h53]  voeux-site-uca.png

2 directories, 21 files

3. Tables des Pièces, Dossiers et Addresses Mail Clickables en Ligne

Liens donnant l'accès aux tables de pièces, de dossiers, de courriels et d'adresses e-mail :

  1. Accès aux tables de données avec fonctions de recherche et options de tri
  2. Des versions exportées (tables au format .xls, mises à jour de temps en temps, sont acessibles dans ce dossier et ces sous-dossiers.

3.a Tables des Pièces, Dossiers, et Courriels au Format PDF

Des listes de dossiers et de pièces sous forme de pages Web sont accessibles par les liens ci-dessous, qui permettent d'afficher tout ou partie des pièces (répertoriées à la date de mise à jour).

Des fonctions de filtrage permettent de ne sélectionner que les pièces dont les noms, les URLs, et les autres métadonnées comme des dates, contiennent certains mots, ou ne contiennent pas certains autres mots (pour éliminer les remontées indésirables).

Ceci permet d'effectuer une première sélection de ces pièces sur ces métadonnées. Celà ne remplace pas, bien sûr, un filtrage sur des métadonnées comme des commentaires entrés manuellement (qui sont pour le moment initialisés à "Néant").

(a) Passez la souris, à gauche, sur la référence d'une pièce pour voir les détails.
Cliquez sur le bouton "Copier dans le presse papier" pour copier le texte.

(b) Exemple d'utilisation pour prendre des notes en collant les informations sur les pièces
d'intérêt dans un fichier avec un bloc note ou un traitement de texte .

(c) Table des courriels mis en forme
(Les courriels sont au format PDF et les pièces jointes dans des archives ZIP).
Figure 2 La version de l'accès à la base de données des pièces sur internet,
avec critères de tri, visualisation des détails, et copiér-coller automatique.

3.b. Rechercher des Adresses Courriel et leurs Affiliations

Une table permet de trouver l'affiliation correspondant à une adresse e-mail, soit en copiant-collant une adresse e-mail correcte dans le champ de filtrage, ou sur une partie de l'affiliation. Notons que l'on peut cherche une adresse mail à partie de son nom d'utilisateur comme prenom.nom, mais pas sur le nom de domaine du serveur (pour éviter l'aspiration par des spammeurs).


(a) Rechercher une adresse par mots d'une affiliation.

(b) Capture d'écran de la hiérarchisation des affiliations.

(c) Exemple de recherche à partir d'une affiliation recensée
dans la hiérarchisation des affiliations (lien sur la page de la table).
Figure 3 Table de recherche d'adresses e-mail et informations associées.

Les affiliations d'une adresse ne sont généralement pas exclusives (une même adresse peut exister dans plusieurs organismes). Il y a deux branches principales :

  • Les listes d'adresses (ou mailing listes) qui sont diffusées sur les sites officiels des institutions, comme l'annuaire des unités du CNRS qui est en libre accès.
  • Les correspondants recencés, qui sont des listes d'adresses collectées à partir des fichiers sources (.eml) de courriels, par le même logiciel qui les mets en forme au format PDF, et extrait les pièces jointes pour les mettre à disposition dans une archive ZIP.

3.c. Courriels : Mise en Forme PDF

Les courriels sont mis en forme dans un document PDF qui comporte plusieurs parties~:

  1. Métadonnées comme l'expéditeur, l'objet, les destinataires et la date ;
  2. Texte du courriel (si non displonible, une tentative est faite par le logiciel pour éliminer le code HTML en conservant le texte) ;
  3. Références (le cas échéant), qui sont les URL qui sont cidées dans le texte du courriel.
  4. Pièces jointes (le cas échéant). Dans czertains dossiers, le téléchargement des pièces jointes sous forme d'archive ZIP a été activé. Dabs tous les cas, les document PDF contient les métadonnées des pièces jointes comme le nom du fichier, la taille en octets, et la signature SHA 512.

Les références internes au site sont acessibles en cliquant sur la référence de la pièce, de même que, le cas échéant, l'archive contenant les pièces jointes.

(a) Courriel mis en forme au format PDF.

(b) Listes des Références et Pièces Jointes.

(c) L'archive ZIP contenant les pièces jointes.

(d) Le fichier source .eml du courriel ouvert dans un éditeur de texte.

(e) Le fichier source .eml du courriel ouvert dans l'application de gestion de courriels Thunderbird.
Figure 4. Les données d'un courriel mises en forme au format PDF.

3.d. Listes de Courriels Associés à une Adresse e-mail

En passant la souris sur la référence d'une pièce jointe, on voit apparaître les détails (et on peut copier dans le presse papier, notammen la référence de l'adresse). Un bouton permet, pour les correspondants recensés, d'accéder à la liste des courriels mis à disposition qui on cette adresse comme expéditeur ou destinataire.


(a) La recherche d'une adresse.

(b) La vue des courriels associés à une adresse.

(c) Sous la liste des courriels se trouve une vue du courriel sélectionné.
Figure 5 Liste des courriels associés à une adresse e-mail.

On peut sélectionner un courriel en cliquant sur sa date ou référence  le courriel s'affiche alors sous la table des courriels. Si on connait la référence de l'adresse e-mail, comme A0ED3AD4B8E77F337556942AB2BEE960F30132A19, on peut accéder directement à la liste des courriels associés avec une URL du type :

https://malgouyres.org/courriels-html/mails/liste-mail-adresse/A0ED3AD4B8E77F337556942AB2BEE960F30132A19.html

L'ergonomie est à améliorer (07/03/2021) lorsqu'il y a beaucoup de courriels pour une même adresse. Pour le moment, le chargement des adresses remy@malgouyres.org ou remy.malgouyres@.... des déconseillé, car la gestion mémoire n'est pas optimale...

4. Base de Données des Pièces à Télécharger

Tels qu'elles ont été entreposées au fur et à mesure, les pièces ont été regroupées en dossiers et sous dossiers. Cette organisation a été faite sur le tas, mais elle contient implicitement des relations entre les pièces d'un même dossier.

Par contre, cette organisation des dossier n'est pas très rationnelle pour explorer efficacement les données par la suite.

Pour cette raison, un réorgenisation des pièces par des références a été faite, pour un accès plus facile en mode "hors ligne". La mémoire de l'arborescence originale se trouve explicitée dans les fichiers Arborescence-du-dossier.txt décrits ci-dessus, qui indiquent également la date de mise à jour des pièces (qui est, sauf rares exceptions, la date de mise en ligne).

Les pièces et les dossiers sont également répertoriées dans des tables de tableur, avec une relation de parenté qui représente encore la hiérarchisation arborescente des pièces et des dossiers. Ces tables peuvent être exploitées pour créer une base de données relationnelle, permettant de réaliser des requêtes de type jointures. On peut par exemple trouver, en travaillant un peu, à partir de la référence d'une pièce, toutes les autres pièces qui se trouvent dans le même dossier sur internet.

Les pièces sont répertoriées dans deux tables, qui sont fournies au format .xls dasn une archive .zip :

  1. La table des dossiers, qui correspondent à des URLs de dossiers sur ce site qui finissent par la lettre "/". Leur référence commence par un "D".
  2. La table des pièces, qui correspondent à des URLs de fichiers sur ce site (documents, images ou médias), dont les noms répondent à des conventions de nommage par extensions (comme .pdf pour des documents au format PDF). La référence des pièces commence par un "F".

Les tables contiennent des informations comme l'URL d'origine.

Enfin, toutes les pièces sont fournies dans des archives ZIP, destinées, une fois extraites, à être regroupées dans un seul dossier dont voici l'arborescence prévue une fois décompressé (pour la version générée à la date du 05/01/2021). La structure de ce dossier vise à faciliter l'accès à une pièce, ou à l'information sur l'arborscence d'un dossier, à partir de lé référence de la pièce ou du dossier.

Références :

Racine du dossier contenant toutes les données de la base

5. Pages Web du Site Imprimées Avec les Références Citées

Les pages Web du site, qui contennent des explications avec des hyperliens, ne constituent pas facilement des "pièces" à proprement parler, du fait de leur nature dynamique et évolutive.

J'a créé un dossier qui contient des versions imprimées (dans des fichiers PDF) de ces pages, qui sont répertoriées comme pièces, et je leur ai adjoint des tables Excel avec les pièces citées, leur URL sur le site, et leur référence dans la base.

Les pages Web contenant des hyperliens et des incrustations de média externes (qui sont hébergés sur d'autres sites Web), j'ai attribué une référence commençant par "E" aux URL citées. Il faut tenir compte de la nature possiblement dynamique de certaines sources, telles que des pages Wikipédia.