un guide à l’usage des chercheurs
Alliance de recherche numérique du Canada
Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible
Les données de recherche existent sous de nombreuses formats (tableaux, images, vidéos, texte).
Dans tous les cas, il est essentiel que l’ensemble de données ait une structure claire et soit compréhensible par d’autres.
Tip
Essayez de vous mettre à la place d’un observateur externe lorsque vous structurez les données.

Utilisez des conventions de nommage cohérentes qui décrivent fidèlement le contenu des fichiers et permettent l’interrelation entre eux :
Utilisez des formats de fichiers appropriés et ouverts pour améliorer l’accessibilité :
Utilisez des métadonnées détaillées (fichiers README et dictionnaires de données/codebook) pour contextualiser et décrire les fichiers de recherche.

Mettez en place des flux de travail reproductibles en utilisant le codage (R, Python) pour transformer les données brutes en données destinées à l’analyse.
Tip
Ces pratiques garantissent des ensembles de données organisés, propres et validés.
Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible
Bien qu’ils soient le type de fichier le plus courant (.xls) pour l’enregistrement et le stockage des données, les tableaux sont les objets les plus mal organisés et inutilisables en recherche.


_NatureComm.png)
_NatureComm.png)

Dans un tableau au format large, chaque sujet occupe une seule ligne et les variables sont disposées en colonnes distinctes : sujet, Id1, Id2, Var1, Var2, Temps 1, Temps 2, Temps 3.
Tip
Ici, les colonnes représentent des réponses ou prédicteurs dans une régression. Exemple :
Cells_7D ~ Cells_2D + Cells_3D.
Dans un tableau au format long, chaque sujet occupe plusieurs lignes et possède des observations associées sur différentes lignes :
sujet (répété), Id1, Id2 (répété), Temps (1, 2, 3).
Tip
Utile pour l’analyse des données temporelles, regroupant différentes variables de condition en une seule colonne. Exemple :
Cells ~ PointTemps (1D, 2D, 3D).
Le format long est généralement privilégié pour l’analyse des données.
Vous pouvez utiliser R (ou Python) et Quarto pour convertir un tableau du format long au format large, et inversement.

Tip
Consultez les tutoriels R et python.

Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible

Tip
Consultez cette ressource pour plus d’informations sur la gestion et le partage des images.

Vous pouvez facilement convertir vos fichiers propriétaires (.czi) en formats ouverts (.tif) en utilisant, par exemple, des scripts FIJI (lien).
Caution
Enregistrer des images .czi en .tif avec FIJI entraîne une perte de métadonnées (archivées dans le fichier .czi).
Exportez les métadonnées techniques des images propriétaires (ex. .czi) en fichiers .txt ou .csv (cela peut être appliqué à toutes les images d’un lot).

Générez des fichiers README descriptifs pour expliquer la provenance et les conventions de nommage des images.

Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible
Nous vivons une pandémie de recherche frauduleuse et irréproducible.

Ce paysage préoccupant exige que, en tant que chercheurs responsables, nous appliquions de bonnes pratiques de recherche pour partager les données et les procédures d’analyse.
Un ensemble de données structuré est la clé pour le comprendre et le réutiliser.


Définissez une structure pour les données au début (idéal) ou au cours de votre recherche.
À considérer
Dans l’ensemble, assurez-vous que la structure des données est logique et cohérente, compréhensible pour les utilisateurs externes.
TIER 4.0 est un modèle de projet conçu pour standardiser les ensembles de données.
Téléchargez la structure du projet et adaptez-la à des cas spécifiques.

Un dossier Data_Raw/ peut contenir :

Incluez des métadonnées/ permettant de comprendre et de réutiliser le contenu des fichiers :
Détails méthodologiques et techniques.
Codebooks / dictionnaires de données expliquant les variables et unités. Ils peuvent être des fichiers .txt ou .csv, xlxs.
Paramètres d’instrumentation et d’acquisition pour les images.
Un dossier Data_Analysis/ contient des fichiers traités utilisés pour générer les résultats de la recherche.
Métadonnées similaires aux données brutes.
Fichiers Data_Appendix présentant des statistiques descriptives de base ou des distributions de données.

Un dossier Data_Intermediate/ peut contenir des données intermédiaires traitées ou des fichiers prétraités dans le cadre d’un pipeline d’analyse. Par exemple, des “masques” d’image et des classificateurs d’apprentissage automatique utilisés pour un traitement ultérieur des images.
Bien que la plupart des chercheurs soient plus à l’aise avec les interfaces graphiques (GUI), le paysage actuel de la recherche exige l’utilisation de scripts et de code pour garantir la reproductibilité des résultats de recherche.
Tip
Le codage doit être considéré comme une compétence essentielle au même titre que d’autres méthodes de recherche.



Manipuler des tableaux de données et variables avec R et le package Tidyverse.
Traiter des fichiers et données de cytométrie en flux avec R et FlowCore de BioConductor.
Analyser des données de RNA-seq avec R et DESeq2 de BioConductor.
Effectuer des modélisations statistiques avancées avec brms.
Et bien plus encore…

Avec GitHub ou GitLab , vous pouvez :
Stocker votre code et vos données en toute sécurité et les partager avec des collaborateurs et le public.
Conserver un historique des modifications et versionner votre code (v 1.0, 1.2, 2.0).
Lier/rendre votre code sur différentes plateformes (ex. Open Science Framework Repository).
Soutenir d’autres chercheurs et contribuer à une culture de science ouverte et reproductible.
Un dossier Scripts_Processing contient du code permettant de transformer les données brutes pour l’analyse :
Tip
Envisagez d’enregistrer les fichiers intermédiaires générés dans le dossier Data_Intermediate/.
Les conventions de nommage logiques sont essentielles pour relier les données brutes, les scripts de traitement et les données d’analyse.
Le dossier Scripts_Analysis contient le code permettant de générer des résultats sous forme de :

Tip
Ces scripts importent et traitent les données d’analyse.
Le dossier Scripts/ peut également contenir un script maître qui exécute tous les autres scripts, créant ainsi un pipeline entièrement automatisé.
Le dossier Results/ contient les fichiers générés par les scripts d’analyse sous forme de :

Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible
Les fichiers README sont des guides pour comprendre les ensembles de données et les tableaux.

Il existe des modèles et des ressources pour guider la rédaction des fichiers README : - Créer un fichier README
- Readme.so
- Readme.ai
En général, un fichier README pour un ensemble de données comprend :
Un identifiant de l’ensemble de données contenant des informations telles que le titre, les auteurs, la date de collecte des données et les informations géographiques.
Une cartographie des fichiers/dossiers définissant le contenu et la hiérarchie des dossiers et sous-dossiers, ainsi que les conventions de nommage.
Des informations méthodologiques détaillant les méthodes de collecte/génération des données, les analyses effectuées et les conditions expérimentales.
Un ensemble d’instructions et logiciels pour ouvrir, manipuler et reproduire les pipelines de recherche.
Des informations sur le partage et l’accès précisant les autorisations et les conditions d’utilisation.
À noter
Un ensemble de données est un objet autonome. Les informations méthodologiques NE DOIVENT PAS être reléguées aux articles de recherche associés.
Agenda
Principes pour la gestion des données de recherche
Gestion des tableaux de données
Gestion des images
Organiser (et partager) les données
Rédiger un fichier README
Liste de contrôle pour une recherche reproductible
Un projet de recherche reproductible répond aux critères suivants :
Les dossiers et fichiers sont organisés de manière structurée avec des formats de fichiers ouverts (ex. CSV, TIFF) et des conventions de nommage cohérentes.
Le traitement et l’analyse des données reposent sur des flux de travail reproductibles. Les résultats (images, tableaux, figures, graphiques) sont partagés comme des artéfacts indépendants.
Les fichiers README et dictionnaires de données permettent de comprendre l’ensemble de données comme un objet autonome, en fournissant le contexte, les méthodes, les étapes de traitement et les variables.
Un ensemble de données est un objet de recherche indépendant qui peut être utilisé (et cité) indépendamment de l’article de recherche.
Mieux encore, considérez les articles comme des compléments à votre ensemble de données !
Tip
Consultez cette ressource pour connaître les principes de dépôt des données dans les référentiels.

Contactez-nous pour vous assurer que vos données sont bien préparées et peuvent être efficacement partagées avec la communauté.

Traitement et organisation des données de recherche - Équipe de curation des données du DFDR