Explorer le Répertoire de Données Brutes

Sommaire :

  1. Principe, Accès, Vues Chronologiques et Alphabétiques
  2. Arborescence du Répertoire et Organisation
  3. Tables des Pièces, Dossiers, Adresses Mail Clickables en Ligne
    1. Table des Pièces
    2. Rechercher des Adresses Courriel et leurs Affiliations
  4. Base de Données des Pièces à Télécharger
  5. Pages Web du Site Imprimées Avec les Références Citées

1. Principe, Accès, Vues Chronologiques et Alphabétiques

Les différentes pièces du dossier qui sont accessibles sur internet ne sont que partiellement accessibles à partir de liens sur le site Web. En outre, les liens entre les différentes pièces du dossiers, par exemple concernant un protagoniste, ne sont que partiellement reflétés par les hyperliens qui apparaîssent sur le site Web

Il est possible d'accéder à l'ensemble des pièces via le lien "Données Brutes" (Pièces)" du menu, en bas à gauche, qui conduite à l'adresse internet (URL) : https://malgouyres.org/my-problems/. La présentation par défaut affiche les fichiers et dossiers dans un ordre alphabétique. Il est possible d'obtenir une présentation par date de dernière modification (généralement la date de mise en ligne, à de rares exceptions près, où un mise à jour a été effectuée suite à constatation d'une erreur). Pour celà, il faut clicker sur le lien Last Modified (cliquer une deuxième fois pour inverser l'ordre).

a) Vue alphabétique (majuscules avant)
b) Vue Chronologique
Figure :1. Les modes de présentation des données d'un dossier

L'ordre chronologie permet de surveiller et détecter certains ajouts ou modifications dans les dossiers. Cependant la date de modification d'un dossier correspond à la date du fichier le plus récent (dernière modification) qui se trouve directement dans le dossier. Les modification à l'intérieur d'un sous-dossier du dossier ne sont pas prises en compte. Il est donc possible que des pièces aient été ajoutés dans un sous-dossier d'un dossier, sans que ce dossier ne remonte dans l'ordre chronologique.

Il faut parfois recharger la page pour voir les dernières mises à jour, car la page affichée peut avoir été enregistrée dans le "cache du navigateur" (qui est utilisé pour accélérer la navigation en évitant de télécharger une page déjà visitée plusieurs fois).

2. Arborescence du Répertoire et Organisation

Lorsqu'on clique sur un sous-dossier, on accède au contenu de ce sous dossier, et l'URL dans la barre d'adresse du navigateur se trouve modifiée. L'URL du sous-dossier finit par le nom du sous-dossier en question. Par exemple, en clickant sur le dossier that-is-getting-really-awkward-and-hard-to-swallow dans le répertoire racine https://malgouyres.org/my-problems/, on accède à l'URL :

https://malgouyres.org/my-problems/that-is-getting-really-awkward-and-hard-to-swallow/

Ce dernier dossier contient des captures d'écran sur les réseaux sociaux, qui peuvent être mises en relation avec les fichiers mis en ligne autour des mêmes dates.

L'organisation a été de type sédimentaire, au fur et à mesure que les documents ont été mis en ligne, et n'a pas été restructurée, à la fois pour que les liens restent valables d'une fois sur l'autre et pour qu'on retrouve le fichier de la dernière fois au même endroit. Parfois, pour regrouper les fichiers concernant un sujet dans un même répertoire, des fichiers ont été copiés (plutôt que déplacés, donc) pour être placés dans un autre répertoire. Dans un tel cas, en principe, le nom du fichier est identique dans les deux copies. La probabilité pour que deux fichiers différents aient accidentellement le même nom est faible.

À la date du 21 janvier 2021, un fichier a été ajouté dans chaque répertoire (ce qui a eu pour effet de modifier la date de chaque répertoire à la date de ce jour), qui contient une description schématique de l'arborescence des dossiers et fichiers de ce répertoire. Ce fichier s'appelle Arborescence-du-dossier.txt.

Par exemple, le fichier accessible à l'URL suivante :

https://malgouyres.org/my-problems/hceres-limos-2019/Arborescence-du-dossier.txt

Contient une description schématique du contenu du répertoire qui est accessible à l'URL suivante :

https://malgouyres.org/my-problems/hceres-limos-2019/

Le contenu du fichier Arborescence-du-dossier.txt (généré à la date indiquée dans le fichier, au format texte Unicode, UTF-8) est le suivant :

---------------- CONTENU ET ARBORESENCE D'UN DOSSIER -----------------

Date de génération de cette indexation (certains fichiers ajoutés ultérieurement n'apparaîtront pas) :

23/01/2021 12:34

URL du Dossier : https://malgouyres.org/my-problems/hceres-limos-2019/
Référence du dossier : D40377d71f089827cb51af6163d3dfa95a7557931

------------ Commentaires de la partie produisant les pièces -------------
Néant.
--------------------------------------------------------------------------


.
|-- [20/12/2019 23h58]  AAP_2020_INS2I.pdf
|-- [21/12/2019 17h00]  LIMOS_Programme_HCERES-1.pdf
|-- [20/12/2019 20h25]  mail-hceres-1.pdf
|-- [20/12/2019 20h25]  mail-hceres-2.pdf
|-- [20/12/2019 20h25]  mail-hceres-3.pdf
|-- [20/12/2019 20h25]  mail-hceres-4.pdf
|-- [20/12/2019 20h25]  mail-hceres-5.pdf
|-- [20/12/2019 20h25]  mail-hceres-6.pdf
|-- [20/12/2019 20h25]  mail-hceres-7.pdf
|-- [20/12/2019 20h25]  mail-hceres-8.pdf
|-- [21/12/2019 17h00]  mail-programme-hceres-2019.pdf
|-- [20/12/2019 20h25]  ou-sont-les-mails.png
|-- [23/01/2021 12h25]  projetsTransversaux
|   |-- [20/08/2020 21h00]  projetsTransversaux2.png
|   |-- [20/08/2020 21h00]  projetsTransversaux.png
|-- [20/12/2019 23h45]  sources.zip
|-- [23/01/2021 12h25]  voeux
    |-- [06/01/2020 11h53]  Happy_new_year_indepth_2020.png
    |-- [06/01/2020 11h52]  retour-mail-cnrs-2019.pdf
    |-- [06/01/2020 11h52]  retour-mail-hceres-2019.pdf
    |-- [06/01/2020 12h17]  voeux-directeur-limos.pdf
    |-- [06/01/2020 11h53]  voeux-mathias-bernard-2020.pdf
    |-- [06/01/2020 11h53]  voeux-site-uca.png

2 directories, 21 files

3. Tables des Pièces, Dossiers et Addresses Mail Clickables en Ligne

Table des Pièces

Des listes de dossiers et de pièces sous forme de pages Web sont accessibles par les liens ci-dessous, qui permettent d'afficher tout ou partie des pièces (répertoriées à la date de mise à jour).

Des fonctions de filtrage permettent de ne sélectionner que les pièces dont les noms, les URLs, et les autres métadonnées comme des dates, contiennent certains mots, ou ne contiennent pas certains autres mots (pour éliminer les remontées indésirables).

Ceci permet d'effectuer une première sélection de ces pièces sur ces métadonnées. Celà ne remplace pas, bien sûr, un filtrage sur des métadonnées comme des commentaires entrés manuellement (qui sont pour le moment initialisés à "Néant").

(a) Passez la souris, à gauche, sur la référence d'une pièce pour voir les détails.
Cliquez sur le bouton "Copier dans le presse papier" pour copier le texte.

(b) Exemple d'utilisation pour prendre des notes en collant les informations sur les pièces
d'intérêt dans un fichier avec un bloc note ou un traitement de texte .
Figure 2 La version de l'accès à la base de données des pièces sur internet,
avec critères de tri, visualisation des détails, et copiér-coller automatique.

La fonction de tri par critère (date, nom de pièce, URL de dossier pour grouper les pièces affichées qui se trouvent dans un même dossier) sélectionné par l'utilisateura été mise en place. Elle devrait être complètement dinalisée prochainement. Du coup, il reste deux tables : la page des pièces et la table des dossiers.

Liens donnant l'accès aux listes de pièces et de dossiers :

  1. Liste des pièces avec fonctions de recherche et options de tri
  2. Liste des dossiers avec fonctions de recherche et options de tri

Rechercher des Adresses Courriel et leurs Affiliations

Une table permet de trouver l'affiliation correspondant à une adresse e-mail, soit en copiant-collant une adresse e-mail correcte dans le champ de filtrage, ou sur une partie de l'affiliation. Notons que l'on peut cherche une adresse mail à partie de son nom d'utilisateur comme prenom.nom, mais pas sur le nom de domaine du serveur (pour éviter l'aspiration par des spammeurs).


Figure 3 Exemple de recherche à partir d'une affiliation recensée
dans la hiérarchisation des affiliations.

Liens donnant l'accès aux listes et fonctionnalités de recherche d'adresses courriel :

  1. Liste des adresses mail ayant fait l'objet de mailings larges, et relation avec l'orgine de l'adresse et l'affiliation.

4. Base de Données des Pièces à Télécharger

Tels qu'elles ont été entreposées au fur et à mesure, les pièces ont été regroupées en dossiers et sous dossiers. Cette organisation a été faite sur le tas, mais elle contient implicitement des relations entre les pièces d'un même dossier.

Par contre, cette organisation des dossier n'est pas très rationnelle pour explorer efficacement les données par la suite.

Pour cette raison, un réorgenisation des pièces par des références a été faite, pour un accès plus facile en mode "hors ligne". La mémoire de l'arborescence originale se trouve explicitée dans les fichiers Arborescence-du-dossier.txt décrits ci-dessus, qui indiquent également la date de mise à jour des pièces (qui est, sauf rares exceptions, la date de mise en ligne).

Les pièces et les dossiers sont également répertoriées dans des tables de tableur, avec une relation de parenté qui représente encore la hiérarchisation arborescente des pièces et des dossiers. Ces tables peuvent être exploitées pour créer une base de données relationnelle, permettant de réaliser des requêtes de type jointures. On peut par exemple trouver, en travaillant un peu, à partir de la référence d'une pièce, toutes les autres pièces qui se trouvent dans le même dossier sur internet.

Les pièces sont répertoriées dans deux tables, qui sont fournies au format .xls dasn une archive .zip :

  1. La table des dossiers, qui correspondent à des URLs de dossiers sur ce site qui finissent par la lettre "/". Leur référence commence par un "D".
  2. La table des pièces, qui correspondent à des URLs de fichiers sur ce site (documents, images ou médias), dont les noms répondent à des conventions de nommage par extensions (comme .pdf pour des documents au format PDF). La référence des pièces commence par un "F".

Les tables contiennent des informations comme l'URL d'origine.

Enfin, toutes les pièces sont fournies dans des archives ZIP, destinées, une fois extraites, à être regroupées dans un seul dossier dont voici l'arborescence prévue une fois décompressé (pour la version générée à la date du 05/01/2021). La structure de ce dossier vise à faciliter l'accès à une pièce, ou à l'information sur l'arborscence d'un dossier, à partir de lé référence de la pièce ou du dossier.

Références :

Racine du dossier contenant toutes les données de la base

5. Pages Web du Site Imprimées Avec les Références Citées

Les pages Web du site, qui contennent des explications avec des hyperliens, ne constituent pas facilement des "pièces" à proprement parler, du fait de leur nature dynamique et évolutive.

J'a créé un dossier qui contient des versions imprimées (dans des fichiers PDF) de ces pages, qui sont répertoriées comme pièces, et je leur ai adjoint des tables Excel avec les pièces citées, leur URL sur le site, et leur référence dans la base.

Les pages Web contenant des hyperliens et des incrustations de média externes (qui sont hébergés sur d'autres sites Web), j'ai attribué une référence commençant par "E" aux URL citées. Il faut tenir compte de la nature possiblement dynamique de certaines sources, telles que des pages Wikipédia.