TreeGen : Générateur d’arborescence pour les données de recherche

Author
Affiliation

Équipe de curation des données de recherche

Alliance de recherche numérique du Canada

Published

April 1, 2025

Keywords

Arborescence de fichiers, Gestion des données de recherche, Science ouverte, Partage des données

Qu’est-ce que TreeGen ?

TreeGen est une application conçue pour aider les chercheurs et les curateurs de données à visualiser, décrire et exporter la structure des dossiers et fichiers d’un jeu de données de recherche. Elle offre une interface simple et dynamique pour :

  • Parcourir un répertoire et afficher son contenu sous forme d’arborescence.
  • Ajouter des descriptions textuelles à chaque fichier ou dossier.
  • Filtrer les fichiers cachés ou non pertinents.
  • Exporter la structure documentée en format Markdown ou texte brut.
Note

Nous avons conçu une application de bureau, car certains jeux de données sont trop volumineux pour être traités en ligne.

Premiers pas

Télécharger les fichiers exécutables :

Utilisateurs Windows : Téléchargez et exécutez le fichier .exe dans le dossier dist.
Utilisateurs Mac (M1) : Téléchargez le fichier .app situé dans le dossier dist.

Lancer le script

Prérequis

Facultatif (pour convertir le Markdown en HTML dans l’aperçu) :

Installez les dépendances avec pip :

pip install PyQt5 humanize
# Facultatif :
pip install markdown

Clonez le dépôt

git clone https://github.com/Alliance-RDM-GDR/RDM_FileTree
cd file-tree-generator

Lancez l’application avec :

python TreeGen.py

Comment utiliser l’application

1. Lancer TreeGen

Double-cliquez sur le fichier exécutable ou exécutez le script. La fenêtre principale affiche les instructions et deux volets : l’arborescence des fichiers et la zone d’aperçu/exportation.

2. Sélectionner un dossier

Cliquez sur Select Directory et choisissez le dossier que vous souhaitez documenter. L’arborescence se remplira automatiquement.

3. Ajouter des descriptions

Double-cliquez dans la colonne Description pour annoter/décrire un fichier ou un dossier. Les descriptions sont automatiquement enregistrées dans un fichier caché .descriptions.json.

Tip

Fournissez une description simple du contenu du fichier. Utilisez également des fichiers README ou des codebooks pour documenter le contexte, la méthode et les variables.

4. Utiliser les filtres (facultatif)

  • Barre de recherche : Recherchez un fichier ou un dossier par nom.

  • Extensions à exclure : Entrez des extensions séparées par des virgules (ex. .tmp, .pyc).

  • Exclure les fichiers cachés : Masque les fichiers et dossiers cachés.

5. Exporter l’arborescence

Utilisez les boutons en haut pour exporter :

  • Markdown (.md) : Idéal pour GitHub, fichiers README, documentation de recherche.

  • Texte brut (.txt) : Lisible avec tout éditeur de texte.

Les deux formats incluent :

  • Une arborescence indentée
  • La taille des fichiers
  • Des commentaires issus des descriptions
  • Une section récapitulative

Exemple de sortie

MonJeuDeDonnées
├── data.csv [ 12.3 MB ]
<!-- Contient les résultats bruts de l’expérience -->
├── scripts
│   ├── clean.py [ 2.1 KB ]
│   │   <!-- Script de nettoyage des données -->
│   └── analyze.R [ 3.7 KB ]
└── docs
    └── README.md [ 1.2 KB ]

**Summary:**
- Total folders: 3
- Total files: 4
- Total size: 15.6 MB

À propos / Support

TreeGen est développé et maintenu par l’équipe de curation de données de l’Alliance de recherche numérique du Canada.

Pour toute question ou suggestion, contactez-nous à rdm-gdr@alliancecan.ca.

Logos de deux dépôts de données de recherche canadiens : FRDR (Federated Research Data Repository) et Borealis. Le logo de FRDR présente un motif géométrique de carrés jaunes formant un losange, avec le nom du dépôt en texte noir et or. Le logo de Borealis inclut une représentation artistique des aurores boréales au-dessus des montagnes et d’un lac, avec le nom du dépôt en texte blanc en gras.

Visitez FRDR ou Borealis