Traitement et organisation des données de recherche

un guide à l’usage des chercheurs

Équipe de curation des données du DFDR

Alliance de recherche numérique du Canada

Principes pour la gestion des données de recherche

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Rendre les ensembles de données compréhensibles

Les données de recherche existent sous de nombreuses formats (tableaux, images, vidéos, texte).

Dans tous les cas, il est essentiel que l’ensemble de données ait une structure claire et soit compréhensible par d’autres.

Tip

Essayez de vous mettre à la place d’un observateur externe lorsque vous structurez les données.

Une illustration en noir et blanc représentant une personne frustrée, tenant sa tête et entourée de points d'interrogation. La personne est assise à une table couverte de grandes feuilles de calcul désorganisées, remplies de chiffres et de texte, symbolisant la difficulté à gérer et comprendre les données de recherche.

Les autres ne comprennent généralement pas les données de recherche

1. Utilisez conventions de nommage

Utilisez des conventions de nommage cohérentes qui décrivent fidèlement le contenu des fichiers et permettent l’interrelation entre eux :

  • A1.tif Exp_Souris_Jour_Condition_Marqueur.tif
  • CellsTable.xls Widefield_5x_Cortex_NeuN_Comptes.csv

2. Prioriser formats de fichiers ouverts

Utilisez des formats de fichiers appropriés et ouverts pour améliorer l’accessibilité :

  • .tif pour les images (préserve les métadonnées).
  • .csv pour les tableaux (format non propriétaire).
  • .png ou .svg pour les graphiques (préserve la qualité).
  • .txt ou .pdf pour la documentation (format non propriétaire).

3. Fournir des métadonnées complètes

Utilisez des métadonnées détaillées (fichiers README et dictionnaires de données/codebook) pour contextualiser et décrire les fichiers de recherche.

Un tableau présentant un codebook pour un ensemble de données, avec des colonnes intitulées 'Nom de variable,' 'Description,' 'Type,' et 'Valeurs ou caractéristiques.' Le tableau définit des variables telles que l'identifiant du patient, le sexe, la date de la procédure, le groupe de traitement et les résultats cliniques, en précisant les types de données (numérique, date, caractère) et les significations des valeurs (ex. 1=Femme, 2=Homme). Ce codebook fournit une vue d'ensemble structurée des variables utilisées dans la gestion des données de recherche.

Exemple de codebook (https://domstat.med.ucla.edu/)

4. Mettre en œuvre des flux de travail reproductibles

Mettez en place des flux de travail reproductibles en utilisant le codage (R, Python) pour transformer les données brutes en données destinées à l’analyse.

Tip

Ces pratiques garantissent des ensembles de données organisés, propres et validés.

Gestion des tableaux de données

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Les tableaux sont au cœur des données de recherche

Bien qu’ils soient le type de fichier le plus courant (.xls) pour l’enregistrement et le stockage des données, les tableaux sont les objets les plus mal organisés et inutilisables en recherche.

Exemple de mauvais formatage de données, illustrant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne.

Source : https://dansteer.wordpress.com/

Exemple de mauvais formatage des données, présentant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne. On peut également observer une combinaison de chiffres et de données numériques dans la même feuille.

Avec l’aimable autorisation d’un chercheur

Exemples issus de recherches publiées

Exemple de mauvais formatage de données, présentant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne. On peut également observer une combinaison de chiffres et de données numériques dans la même feuille.

Zhao et al. (2024). Nature Comm. DOI: 10.1038/s41467-024-50836-6

Exemple de mauvais formatage de données, présentant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne. Nous voyons également des codes de couleur qui ne doivent pas être définis dans une feuille de calcul de données.

Balinda et al. (2024). Nature Comm. DOI: doi.org/10.1038/s41467-024-50558-9

Exemples de Crystal Lewis (2024)

Deux tableaux comparant des structures de données. Le tableau de gauche, intitulé 'Pas un rectangle,' présente une structure irrégulière avec un alignement incohérent des noms de variables et des valeurs, rendant son interprétation difficile. Le tableau de droite, intitulé 'Rectangle,' suit un format structuré avec des colonnes clairement définies pour l'ID étudiant, l'âge en mois, le score brut de lecture et le score standardisé de lecture. Cette comparaison met en évidence l'importance d'un format de données bien organisé pour la gestion des données de recherche.

Lewis (2024). DOI: 10.1201/9781032622835-3

Deux tableaux comparant la cohérence des valeurs de colonnes. Le tableau de gauche, intitulé 'Valeurs de colonnes incohérentes,' contient des formats de date variés (ex. '10-12-2023,' 'Oct. 15, 2023,' 'September 15') et des valeurs catégoriques incohérentes pour l'achèvement du sondage ('y,' 'Yes,' 'Y,' 'no'). Le tableau de droite, intitulé 'Valeurs de colonnes cohérentes,' normalise les dates au format 'AAAA-MM-JJ' et unifie les réponses catégoriques en 'y' et 'n.' Cette comparaison illustre les meilleures pratiques pour garantir la clarté et la fiabilité des données.

Lewis (2024). DOI: 10.1201/9781032622835-3

Deux tableaux comparant les formats de variables. Le tableau de gauche, intitulé 'Variable de type caractère,' contient des valeurs d'âge incohérentes : un espace avant '24' fait de cette entrée un texte, '49 years old' ajoute du texte inutile, et '36..0' contient une erreur de formatage. Le tableau de droite, intitulé 'Variable numérique,' stocke correctement les âges sous forme numérique sans espace, texte superflu ou erreurs de formatage. Cette comparaison met en évidence l'importance du nettoyage des données numériques pour une analyse correcte.

Lewis (2024). DOI: 10.1201/9781032622835-3

Deux tableaux comparant la structuration des données. Le tableau de gauche, intitulé 'Deux informations dans une seule variable,' combine le nombre d'incidents et le nombre total d'inscrits en une seule colonne (ex. '55/250'), rendant l'analyse plus difficile. Le tableau de droite, intitulé 'Deux informations dans deux variables,' sépare ces valeurs en colonnes distinctes : 'incident' pour le nombre d'incidents et 'enrollment' pour le nombre d'inscrits. Cette structuration facilite l'analyse et suit les bonnes pratiques de gestion des données.

Lewis (2024). DOI: 10.1201/9781032622835-3

Exemples de Crystal Lewis (2024)

Deux tableaux comparant l'utilisation de valeurs explicites et implicites. Le tableau de gauche, intitulé 'Valeurs non explicites,' omet la répétition des identifiants d'école et des années, supposant qu'ils s'appliquent à plusieurs lignes, ce qui peut causer des erreurs lors du traitement des données. Le tableau de droite, intitulé 'Valeurs explicites,' répète ces informations pour chaque ligne, garantissant une clarté accrue et une meilleure lisibilité pour l'analyse.

Lewis (2024). DOI: 10.1201/9781032622835-3

Deux tableaux comparant l'utilisation explicite et implicite des variables. Le tableau de gauche, intitulé 'Variables non explicites,' utilise la couleur des cellules pour indiquer les conditions de traitement, ce qui peut être mal interprété ou perdu dans l'analyse. Le tableau de droite, intitulé 'Variables explicites,' ajoute une colonne 'treatment' avec des valeurs numériques (0 ou 1) pour indiquer explicitement la condition de traitement. Cette approche garantit une meilleure transparence des données et facilite leur analyse.

Lewis (2024). DOI: 10.1201/9781032622835-3

Construire des tableaux de données accessibles

Un tableau bien structuré affichant des données expérimentales pour différentes souris. Les colonnes incluent 'MouseID,' 'DPI' (jours après la lésion), 'Condition' (MCAO), 'Région' (Contra, Ipsi, Peri), ainsi que les comptages cellulaires pour NeuN, Ki67 et BrdU. La colonne 'MouseID' est surlignée en orange pour la distinguer visuellement. Ce tableau illustre une organisation claire des données, essentielle pour leur analyse en recherche.

Un tableau de données typique au format long organise l’information en lignes et colonnes

Colonnes

  • Variables d’identification : ID animal, point temporel, condition (facteurs ou caractères).
  • Variables d’analyse : score, surface, nombre de cellules, etc. (numérique ou catégoriel).
  • Variables créées lors du traitement (proportions, ratios, etc.).

Lignes

  • Valeurs des variables : entrées pour chaque colonne (variable). Chaque ligne correspond à une observation unique.

Formats de tableaux larges

Un diagramme illustrant la transformation entre les formats de données long et large. Le tableau de gauche représente un format long où chaque ligne contient un 'pays,' une 'année' et une valeur associée. Le tableau de droite montre le format large, où les années sont réparties sur plusieurs colonnes (ex. 'yr1960', 'yr1970', 'yr2010'). La fonction `pivot_wider()` transforme les données en format large, tandis que `pivot_longer()` effectue l'opération inverse, facilitant l'analyse des données longitudinales.

Un tableau de données typique au format large, extrait de Lewis (2024). DOI: 10.1201/9781032622835-3

Dans un tableau au format large, chaque sujet occupe une seule ligne et les variables sont disposées en colonnes distinctes : sujet, Id1, Id2, Var1, Var2, Temps 1, Temps 2, Temps 3.

Tip

Ici, les colonnes représentent des réponses ou prédicteurs dans une régression. Exemple :

Cells_7D ~ Cells_2D + Cells_3D.

Formats de tableaux longs

Diagramme illustrant la transformation de données longitudinales de tableaux séparés en un format long. Les tableaux du haut et du bas représentent les « données de la première vague » et les « données de la deuxième vague », chacune contenant les mesures de l'anxiété (« anx1 » et “anx2”) pour les étudiants identifiés par « stu_id ». Le tableau de droite, intitulé « Long format data », restructure les données en ajoutant une colonne « vague », chaque ligne représentant les mesures d'un étudiant à une vague spécifique. Cette transformation optimise l'ensemble des données pour une analyse longitudinale et un stockage efficace.

Un tableau de données typique au format long, extrait de Lewis (2024). DOI: 10.1201/9781032622835-3

Dans un tableau au format long, chaque sujet occupe plusieurs lignes et possède des observations associées sur différentes lignes :

sujet (répété), Id1, Id2 (répété), Temps (1, 2, 3).

Tip

Utile pour l’analyse des données temporelles, regroupant différentes variables de condition en une seule colonne. Exemple :

Cells ~ PointTemps (1D, 2D, 3D).

Le format long est généralement privilégié pour l’analyse des données.

Le meilleur dans tout ça…

Vous pouvez utiliser R (ou Python) et Quarto pour convertir un tableau du format long au format large, et inversement.

Diagramme illustrant la transformation entre les formats de données long et large en utilisant `pivot_wider()` et `pivot_longer()`. Le tableau de gauche représente des données au format long, où chaque ligne contient un « pays », une “année” et une valeur « métrique » correspondante. Le tableau de droite représente des données au format large, où les valeurs de l'année sont réparties sur plusieurs colonnes (par exemple, “yr1960”, “yr1970”, “yr2010”), chacune contenant la valeur métrique correspondante pour chaque pays. La fonction `pivot_wider()` convertit le format long en format large, tandis que `pivot_longer()` inverse le processus, démontrant ainsi la flexibilité de la mise en forme des données dans R.

Conversion format long à large (https://tavareshugo.github.io/)

Tip

Consultez les tutoriels R et python.

Fournir des métadonnées (fichiers README)

  • Les ensembles de données sont incompréhensibles s’ils ne sont pas accompagnés de dictionnaires de données ou de codebooks (.txt, .md, .csv) décrivant les variables des tableaux de données. Cela peut également prendre la forme d’un fichier README (.txt, .md) qui décrit leur contexte et leur contenu.

Une capture d'écran de métadonnées descriptives pour un ensemble de données sur la réactivité des cellules PDGFR-B+ dans un modèle murin d'ischémie cérébrale. Le texte détaille l'origine des images, les conventions de nommage des fichiers, le contenu des dossiers et les conditions expérimentales. Il explique également le processus de génération des images à partir des fichiers Zenodo, leur traitement avec CellProfiler et fournit des liens vers des articles de recherche et des dépôts OSF pour plus d’informations.

Exemple de fichier README

Gestion des images

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Lors de la gestion des images, veuillez considérer :

Image de microscopie à fluorescence d'une section coronale de cerveau de souris. La section est marquée par des marqueurs d’immunofluorescence

Manrique-Castano et al. (2024). DOI: DOI 10.17605/OSF.IO/3VG8J
  • Convertissez les fichiers propriétaires (ex. .czi) en formats ouverts sans compression (.tif).
  • Partagez les métadonnées techniques (paramètres d’acquisition) et descriptives (contexte et contenu) avec les images.
  • Documentez toutes les procédures appliquées aux images (redimensionnement, soustraction de fond, etc.), par exemple en utilisant un logiciel de codage/script.
  • Réalisez les analyses en utilisant un logiciel de codage/script pour garantir la reproductibilité. Évitez l’analyse manuelle.

Tip

Consultez cette ressource pour plus d’informations sur la gestion et le partage des images.

Convertir les images en formats ouverts

Capture d’écran d’un script macro ImageJ écrit en JavaScript. Le script automatise la conversion des fichiers d’imagerie microscopique `.czi` en format `.tif`. Il demande à l’utilisateur de sélectionner un répertoire, récupère la liste des fichiers `.czi`, et traite chaque fichier en l’ouvrant avec le Bio-Formats Importer. Il extrait ensuite deux canaux d’image et les enregistre séparément en tant que fichiers `.tif` dans un dossier 'Images_Tiff'. Le script garantit un traitement systématique de tous les fichiers et ferme toutes les fenêtres après l’exécution.

Script FIJI pour enregistrer des images .czi en tiff. Extrait de Manrique-Castano et al. (2024). DOI: DOI 10.17605/OSF.IO/3VG8J

Vous pouvez facilement convertir vos fichiers propriétaires (.czi) en formats ouverts (.tif) en utilisant, par exemple, des scripts FIJI (lien).

Caution

Enregistrer des images .czi en .tif avec FIJI entraîne une perte de métadonnées (archivées dans le fichier .czi).

Suivre les métadonnées

Techniques

Exportez les métadonnées techniques des images propriétaires (ex. .czi) en fichiers .txt ou .csv (cela peut être appliqué à toutes les images d’un lot).

Capture d’écran de la visionneuse de métadonnées affichant les métadonnées techniques d’un fichier d’imagerie microscopique `.czi`. Le tableau des métadonnées comprend des clés et des valeurs telles que 'BitsPerPixel' (14), 'DimensionOrder' (XYZCT), et 'PixelType' (uint16). D’autres détails indiquent que l’image contient 4 canaux (SizeC), un seul point temporel (SizeT = 1), des dimensions de 2752x2208 pixels (SizeX, SizeY), et un seul plan Z (SizeZ = 1). Ces métadonnées fournissent des informations essentielles pour le traitement et l’analyse d’images en microscopie de recherche.

Exemple de métadonnées techniques dans FIJI : image -> show info

Descriptives

Générez des fichiers README descriptifs pour expliquer la provenance et les conventions de nommage des images.

Organiser (et partager) les données

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Un paysage de recherche préoccupant

Nous vivons une pandémie de recherche frauduleuse et irréproducible.

Un graphique de The Economist intitulé 'Pants on fire,' illustrant le nombre cumulé d’articles scientifiques biomédicaux rétractés de 1996 à 2023. Le graphique montre une augmentation exponentielle des rétractations, dépassant 15 000 en 2023. Les données proviennent de Retraction Watch et couvrent 4 244 revues évaluées. Ce graphique met en évidence les préoccupations croissantes concernant l'intégrité scientifique et l'augmentation du nombre de publications rétractées au fil du temps.

Augmentation du nombre d’articles rétractés au cours des trois dernières décennies

Ce paysage préoccupant exige que, en tant que chercheurs responsables, nous appliquions de bonnes pratiques de recherche pour partager les données et les procédures d’analyse.

Définir la structure d’un ensemble de données

Un ensemble de données structuré est la clé pour le comprendre et le réutiliser.

Un étalage de poupées russes traditionnelles Matriochkas, également appelées poupées gigognes, peintes dans des couleurs vives.

Source : pexels.com

Un arbre de répertoires structuré représentant un projet de recherche organisé. Les dossiers de premier niveau incluent 'Code,' contenant des scripts R pour le nettoyage et l'analyse des données ('clean_raw_data.r,' 'analysis_1.r,' 'analysis_2.r'); 'Data,' divisé en 'Raw_data' (avec les fichiers bruts 'file_a.raw' et 'file_b.raw') et 'Processed_data' (contenant les fichiers CSV nettoyés 'file_a.csv' et 'file_b.csv'); 'Outputs,' qui comprend des sous-dossiers pour 'Figures' et 'Models'; ainsi qu'un fichier 'README.txt'. Cette organisation suit les bonnes pratiques pour la gestion des données de recherche.

Structure des fichiers

Principes pour structurer un ensemble de données

Définissez une structure pour les données au début (idéal) ou au cours de votre recherche.

À considérer

  • Dossiers/structures de répertoires
  • Réfléchissez aux types/formats de fichiers
  • Établissez des conventions de nommage logiques et descriptives

Dans l’ensemble, assurez-vous que la structure des données est logique et cohérente, compréhensible pour les utilisateurs externes.

Explorer l’arborescence des dossiers

TIER 4.0 est un modèle de projet conçu pour standardiser les ensembles de données.

Téléchargez la structure du projet et adaptez-la à des cas spécifiques.

Une structure de répertoires hiérarchique suivant le protocole TIER 4.0 pour l'organisation des données de recherche. Le dossier racine 'Project/' contient des documents clés tels que 'The Read Me File' et 'The Report.' Le dossier 'Data/' est divisé en 'InputData/' (avec les sous-dossiers 'Input Data Files' et 'Metadata,' incluant 'Data Sources Guide' et 'Codebooks'), 'AnalysisData/' (avec 'Analysis Data Files' et 'The Data Appendix') et 'IntermediateData/'. Le dossier 'Scripts/' comprend des sous-dossiers pour 'ProcessingScripts/', 'DataAppendixScripts/', 'AnalysisScripts/', ainsi que 'The Master Script.' Enfin, le dossier 'Output/' contient 'DataAppendixOutput' et 'Results.' Cette organisation garantit la transparence et la reproductibilité dans la gestion des données de recherche.

Arborescence des dossiers

Données brutes

Un dossier Data_Raw/ peut contenir :

  • Images originales (.tiff, .czi)
  • Fichiers de sortie des appareils de mesure (.txt, .csv)
  • Feuilles d’enregistrement originales (.png, .csv, .xlsx)

Capture d'écran d'un répertoire structuré contenant des données organisées.

Arborescence des dossiers

Données brutes - métadonnées

Incluez des métadonnées/ permettant de comprendre et de réutiliser le contenu des fichiers :

  • Détails méthodologiques et techniques.

  • Codebooks / dictionnaires de données expliquant les variables et unités. Ils peuvent être des fichiers .txt ou .csv, xlxs.

  • Paramètres d’instrumentation et d’acquisition pour les images.

Données d’analyse (traitées)

Un dossier Data_Analysis/ contient des fichiers traités utilisés pour générer les résultats de la recherche.

  • Métadonnées similaires aux données brutes.

  • Fichiers Data_Appendix présentant des statistiques descriptives de base ou des distributions de données.

Capture d'écran d'un répertoire structuré contenant des données traitées organisées.

Arborescence des dossiers

Données intermédiaires (optionnel)

Un dossier Data_Intermediate/ peut contenir des données intermédiaires traitées ou des fichiers prétraités dans le cadre d’un pipeline d’analyse. Par exemple, des “masques” d’image et des classificateurs d’apprentissage automatique utilisés pour un traitement ultérieur des images.

Le script est la voie à suivre

Bien que la plupart des chercheurs soient plus à l’aise avec les interfaces graphiques (GUI), le paysage actuel de la recherche exige l’utilisation de scripts et de code pour garantir la reproductibilité des résultats de recherche.

Un mème humoristique sur le thème de la Guerre des étoiles comparant différents langages de programmation. L'image est divisée en trois sections, chacune montrant un personnage de Star Wars brandissant un sabre laser. À gauche, Luke Skywalker, avec un logo de langage de programmation « R », tient un sabre laser bleu. Au centre, Kylo Ren brandit un sabre laser rouge à garde transversale portant le logo GraphPad. À droite, Mace Windu, associé au logo Python, tient un sabre laser violet. Ce mème dépeint avec humour les rôles perçus des logiciels libres dans le paysage de la recherche.

Tip

Le codage doit être considéré comme une compétence essentielle au même titre que d’autres méthodes de recherche.

Outils pour gérer le code et les scripts

R-Studio/Quarto (R + Python)

Capture d’écran d’une session RStudio affichant un carnet d’analyse de données Quarto.

Écran R-Studio/Quarto

GitHub (Contrôle de version)

Capture d’écran d’un dépôt GitHub nommé 'Stroke_PDGRF-B_Reactivity,' issu d’un fork de 'elalilab/Stroke_PDGRF-B_Reactivity.' Le dépôt est public et contient des répertoires tels que 'Data_Processed' ainsi que plusieurs fichiers Quarto Markdown (`.qmd`) liés à l’analyse de données

Écran GitHub

Avec R-Studio (R et Python), vous pouvez

R-Studio/Quarto (R + Python)

Screenshot of an R-Studio session displaying a Quarto data analysis notebook.

Écran R-Studio/Quarto

Suivez les versions avec un contrôle de version

Capture d’écran d’un dépôt GitHub nommé 'Stroke_PDGRF-B_Reactivity,' issu d’un fork de 'elalilab/Stroke_PDGRF-B_Reactivity.' Le dépôt est public et contient des répertoires tels que 'Data_Processed' ainsi que plusieurs fichiers Quarto Markdown (`.qmd`) liés à l’analyse de données

Écran GitHub

Avec GitHub ou GitLab , vous pouvez :

  • Stocker votre code et vos données en toute sécurité et les partager avec des collaborateurs et le public.

  • Conserver un historique des modifications et versionner votre code (v 1.0, 1.2, 2.0).

  • Lier/rendre votre code sur différentes plateformes (ex. Open Science Framework Repository).

  • Soutenir d’autres chercheurs et contribuer à une culture de science ouverte et reproductible.

Communautés internationales de soutien au codage

Scripts de traitement

Un dossier Scripts_Processing contient du code permettant de transformer les données brutes pour l’analyse :

  • Supprimer des variables (sous-ensemble du jeu de données)
  • Générer de nouvelles variables (effectuer des calculs, calculer des moyennes, etc.)
  • Combiner différentes sources d’informations (fusionner des tableaux ou des fichiers)

Tip

Envisagez d’enregistrer les fichiers intermédiaires générés dans le dossier Data_Intermediate/.

À garder en tête

Les conventions de nommage logiques sont essentielles pour relier les données brutes, les scripts de traitement et les données d’analyse.

Scripts d’analyse

Le dossier Scripts_Analysis contient le code permettant de générer des résultats sous forme de :

  • Images
  • Figures
  • Tableaux
  • Modèles statistiques

Capture d'écran d'un répertoire structuré contenant des données d'analyse organisées.

Arborescence des dossiers

Tip

Ces scripts importent et traitent les données d’analyse.

Un script maître ?

Le dossier Scripts/ peut également contenir un script maître qui exécute tous les autres scripts, créant ainsi un pipeline entièrement automatisé.

Le dossier des résultats

Le dossier Results/ contient les fichiers générés par les scripts d’analyse sous forme de :

  • Images
  • Figures
  • Tableaux
  • Modèles statistiques

Une capture d'écran d'un répertoire structuré contenant des figures/tracés de recherche

Arborescence des dossiers

Rédiger un fichier README

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Fichiers README

Les fichiers README sont des guides pour comprendre les ensembles de données et les tableaux.

Capture d’écran d’un fichier README sur GitHub pour le 'Bootstrap Ruby Gem,' une bibliothèque utilisée dans les applications Ruby on Rails. Le README affiche un badge indiquant que la construction du gem est réussie et que la version 4.1.1 est disponible. Le document fournit des instructions d’installation, expliquant comment ajouter le gem au fichier Gemfile et assurer la compatibilité avec 'sprockets-rails.' Le guide fait référence à différents environnements, notamment Ruby on Rails et d’autres frameworks Ruby. La page contient des extraits de code formatés pour faciliter l’intégration dans un projet Rails.

Source : https://github.com/twbs/bootstrap-rubygem

Il existe des modèles et des ressources pour guider la rédaction des fichiers README : - Créer un fichier README
- Readme.so
- Readme.ai

Contenu d’un fichier README

En général, un fichier README pour un ensemble de données comprend :

  • Un identifiant de l’ensemble de données contenant des informations telles que le titre, les auteurs, la date de collecte des données et les informations géographiques.

  • Une cartographie des fichiers/dossiers définissant le contenu et la hiérarchie des dossiers et sous-dossiers, ainsi que les conventions de nommage.

  • Des informations méthodologiques détaillant les méthodes de collecte/génération des données, les analyses effectuées et les conditions expérimentales.

  • Un ensemble d’instructions et logiciels pour ouvrir, manipuler et reproduire les pipelines de recherche.

  • Des informations sur le partage et l’accès précisant les autorisations et les conditions d’utilisation.

À noter

Un ensemble de données est un objet autonome. Les informations méthodologiques NE DOIVENT PAS être reléguées aux articles de recherche associés.

Liste de contrôle pour une recherche reproductible

Agenda

  1. Principes pour la gestion des données de recherche

  2. Gestion des tableaux de données

  3. Gestion des images

  4. Organiser (et partager) les données

  5. Rédiger un fichier README

  6. Liste de contrôle pour une recherche reproductible

Engagement envers la reproductibilité

Un projet de recherche reproductible répond aux critères suivants :

  1. Les dossiers et fichiers sont organisés de manière structurée avec des formats de fichiers ouverts (ex. CSV, TIFF) et des conventions de nommage cohérentes.

  2. Le traitement et l’analyse des données reposent sur des flux de travail reproductibles. Les résultats (images, tableaux, figures, graphiques) sont partagés comme des artéfacts indépendants.

  3. Les fichiers README et dictionnaires de données permettent de comprendre l’ensemble de données comme un objet autonome, en fournissant le contexte, les méthodes, les étapes de traitement et les variables.

En résumé

Un ensemble de données est un objet de recherche indépendant qui peut être utilisé (et cité) indépendamment de l’article de recherche.

Mieux encore, considérez les articles comme des compléments à votre ensemble de données !

Tip

Consultez cette ressource pour connaître les principes de dépôt des données dans les référentiels.

Ressources et soutien

Matériel de soutien

Une image de code QR qui redirige vers la présentation située dans un dépôt GitHub.

Cette présentation est disponible ici (en anglais ou en français)

Services de soutien

Contactez-nous pour vous assurer que vos données sont bien préparées et peuvent être efficacement partagées avec la communauté.