Dépôt des données de recherche

Guide à l’usage des chercheurs

Daniel Manrique-Castano, Ph.D

Alliance de Recherche Numérique du Canada

Pourquoi le partage des données est-il important?

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Pourquoi partageons-nous et réutilisons-nous des données?

Il existe plusieurs raisons de partager des données de recherche :

  • Éviter les expériences inutiles et coûteuses en utilisant les résultats de recherches précédentes.

  • Valider résultats : vérification indépendante des résultats scientifiques.

  • Adapter les données pour les appliquer à de nouvelles questions de recherche, seules ou en combinaison avec d’autres jeux de données, ou encore pour en extraire du matériel éducatif.

  • S’appuyer sur recherche précédent pour accélérer la découverte scientifique et la méta-analyse sur la base de données brutes et de recherches reproductibles.

Politique des trois organismes sur la gestion des données de recherche

Le gouvernement du Canada fait la promotion de la gestion des données de recherche (GDR) au moyen d’une politique conjointe des trois organismes.

Cette politique vise à mettre en place des plans de gestion des données (PGD) et des pratiques de partage des données de recherche pour maximiser les retombées.

Le partage de données est une responsabilité professionnelle

Le partage des données n’est PAS UNIQUE pour répondre aux exigences des organismes de financement et des revues. Il s’agit d’une responsabilité éthique et professionnelle des chercheuses et chercheurs envers la reproductibilité de la science et réutilisabilité des données scientifiques.

La recherche a donc besoin :

  • De chercheuses et chercheurs compétents formés à la GDR et à l’analyse de données.

  • D’approches normalisées pour le partage de données brutes et la codification des analyses en soutien aux résultats de recherche.

  • De chercheuses et chercheurs qui font de la transparence et des pratiques exemplaires un devoir d’intégrité.

Avantages pour les différentes parties prenantes

Pour les chercheurs :

flowchart LR
A[Efficacité] --> B[Collaboration] 
B --> C[Reproductibilité]

Pour les éditeurs :

graph LR
A[Examen rigoureux] --> B[Validation] 
B --> C[Science ouverte]

Pour des organismes de financement:

flowchart LR
A[Transparence] --> B[Responsabilisation] 
B --> C[Rendement du capital investi]

Enjeux actuels avec les données

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Les données peuvent être éparpillées

Un ordinateur portable avec un écran noir posé sur une table en bois dans un café. Une tasse de café sur une soucoupe est placée à côté. En arrière-plan, une fenêtre avec un grillage laisse entrevoir des plantes à l'extérieur.

Ordinateur d’étudiants et de post-doctorants

Un gros plan d'un commutateur réseau avec plusieurs câbles Ethernet branchés. Les câbles orange et bleus sont soigneusement organisés et connectés au commutateur. Une étiquette avec le texte 'NorthC' est visible dans le coin supérieur droit de l'appareil.

Réseau d’instituts

Une vue sereine du ciel rempli de nuages blancs et moelleux s'étendant à l'horizon. La partie supérieure de l'image présente un dégradé de bleu, passant du foncé au clair à mesure qu'il rejoint les nuages.

Le nuage (Google drive)

Un centre de calcul haute performance avec plusieurs baies de serveurs noires étiquetées 'imgIX.' La salle est équipée de systèmes de gestion des câbles suspendus et d'infrastructures de refroidissement. L'environnement est propre et organisé, avec un câblage bien disposé et du matériel informatique de pointe.

Grappe de calcul haute performance

Les données ne sont pas partagées

Déclaration de disponibilité des données

“Les données brutes étayant les conclusions de cet article seront mises à disposition par les auteurs, sans réserve.”

Une capture d'écran d'un extrait d'article de Nature intitulé 'Many researchers say they'll share data — but don't.' L'extrait indique que seulement 14 % des auteurs contactés ont répondu aux demandes de données par e-mail, et seulement 6,7 % ont effectivement partagé leurs données. L'article est écrit par C Watson et a été publié en 2022.

Les chercheurs ne partagent pas leurs données

Enjeux courants avec les dépôts de données

Les données partagées sont le plus souvent :

  • Exemptes de métadonnées ou de fichiers README suffisamment complets pour en expliquer le contexte, les méthodes et la structuration.

  • Désorganisées et donc impossibles à réutiliser.

  • Traitées comme un simple complément aux articles scientifiques.

Principes du partage de données

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Faire des données une ressource utile et autonome

Réalisations attendues lors du partage des données :

  • Chaque jeu de données doit pouvoir fonctionner indépendamment.

  • Les jeux de données doivent être repérables et compréhensibles.

  • Les jeux de données doivent pouvoir être réutilisés par d’autres personnes.

Principes FAIR

Découvrabilité

  • Identifiants pérennes
  • Métadonnées riches
  • Indexation dans une ressource interrogeable

Accessibilité

  • Formats de fichiers ouverts
  • Exigences logicielles

Interopérabilité

  • Langage soutenu, standardisé et courant
  • Référence à d’autres données (et métadonnées)

Réutilisabilité

  • Contexte approprié et provenance détaillée
  • Attributs exacts et descriptifs
  • Licence et droits d’utilisation clairs

Règles générales pour le partage des données

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Règles générales pour le partage des données

  1. Fournir un titre descriptif un résumé et une liste de mots-clés appropriés pour le jeu de données.

  2. Rédiger un fichier README avec des métadonnées.

  3. Définir une structure de jeu de données et des conventions de dénomination cohérentes.

1. Fournir un titre descriptif, un résumé et une liste de mots-clés.

Titre du jeu de données

Le titre doit refléter la nature et le contenu du jeu de données.

Exemple 1

Titre original: PiPaw2.0

Meilleur titre: Home cage based motor learning platform PiPaw2.0

Exemple 2

Titre original: Foliar Functional Trait Mapping

Meilleur titre: Foliar Functional Trait Mapping of a mixed temperate forest using imaging spectroscopy

Exemple 3

Titre original: Covariation in Width and Depth in Bedrock Rivers Data Archive

Meilleur titre: Data archive for width and depth covariation within the bedrock Fraser Canyon, British Columbia, Canada

Caution

Le titre du jeu de données NE DOIT PAS équivaloir au titre de l’article scientifique.

Description (résumé)

La description de l’ensemble de données doit contenir suffisamment d’éléments pour permettre de comprendre sa nature, son origine et son contenu.

Exemple 1

Description original: This dataset provides climate data (19 bioclimate variables as defined by worldclim) that were generated using the Biosim 11 software at a spatial resolution of 9 km across Canada between 1980-2020.

Meilleur description: This dataset provides climate data (19 bioclimate variables as defined by worldclim) that were generated using the Biosim 11 software at a spatial resolution of 9 km across Canada between 1980-2020. Please refer to https://www.worldclim.org/data/bioclim.html for information about the variables. The dataset contains: the annual mean temperature, mean diurnal range, isothermality, temperature seasonality, maximum temperature of warmest month, minimum temperature of coldest month, temperature annual range, mean temperature of wettest quarter, mean temperature of driest quarter, mean temperature of warmest quarter, mean temperature of coldest quarter, annual precipitation, precipitation of wettest month, precipitation of driest month, precipitation seasonality (coefficient of variation), precipitation of wettest quarter, precipitation of driest quarter, precipitation of warmest quarter, precipitation of coldest quarter.

Exemple 2

Description original: Exposure to neuromodulatory chemicals in the polychaete marine worm, Capitella teleta, has been used to assess changes in locomotory behavior in adult and juvenile life stages.Worms were exposed to nicotine, fluoxetine, apomorphine, and phenobarbital and had their distance moved, maximum velocity, time to/at the edge of the arena, and time to first move measured.

Meilleur description: The presence of compounds such as pharmaceuticals and pesticides act as neurochemicals in aquatic organisms. This repository contains the raw data from a study investigating the effects of neuromodulatory chemicals in the marine polychaete worm Capitella teleta. We investigated the effects of nicotine, fluoxetine, apomorphine and phenobarbital, which are known to interact with acetylcholine, serotonin, dopamine and GABA pathways. We measured locomotory behavior using a high throughput multi-well plate assay, using parameters such as total distance moved, time spent moving, time spent at the edge and maximum velocity. We also performed RNA extraction and sequencing with juvenile and adult worms to determine if genes in the pathway were expressed. We share gene sequences, alignments, motif searching, and phylogenetic analysis files for each receptor (with acetylcholine, serotonin, dopamine and GABA) and videos, together with raw .fasta files for RNA sequencing and R code for processing/analysis.

Caution

Utilisez de nombreux mots-clés pour augmenter la découvrabilité de l’ensemble de données.

Mots-clés

Pour déterminer les mots-clés pertinents, se poser la question suivante :

Quels termes utiliserait quelqu’un pour essayer de trouver des données comme les miennes?

2. Rédiger un fichier README, le guide ultime des jeux de données

Le fichier README est une guide pour comprendre le jeu de données et en favoriser la réutilisation.

Sur le site https://github.com/twbs/bootstrap-rubygem

Les utilisatrices et utilisateurs du DFDR peuvent utiliser nos modèles text et [web] pour générer des fichiers README à joindre à leur soumission.

Autres ressources pertinentes :
- Créer un fichier README
- Readme.so
- Readme.ai

Contenu d’un fichier README

En règle générale, un fichier README comprend les éléments suivants :

  • Identifiants du jeu de données comprenant le titre, les autrices et auteurs, la date de collecte, l’information géographique, etc.

  • Une carte des dossiers et fichiers présentant l’arborescence et le contenu des dossiers.

  • Une description de la nomenclature des fichiers.

  • La méthodologie employée pour recueillir ou produire les données et pour les analyser.

Caution

Le jeu de données est un objet indépendant. Les méthodes et outils de collecte de données [NE DOIVENT PAS]{style=« color:red ; »} être relégués à l’article de recherche.

  • Les instructions et les logiciels nécessaires pour ouvrir et manipuler les données.

  • Des renseignements sur le partage et l’accès précisant les permissions et les modalités d’utilisation.

3. Établir la structure de le jeu de données

Un jeu de données structuré est la clé pour le comprendre et le réutiliser.

Un étalage de poupées russes traditionnelles Matriochkas, également appelées poupées gigognes, peintes dans des couleurs vives.

Tiré de pexels.com

Un arbre de répertoires structuré représentant un projet de recherche organisé. Les dossiers de premier niveau incluent 'Code,' contenant des scripts R pour le nettoyage et l'analyse des données ('clean_raw_data.r,' 'analysis_1.r,' 'analysis_2.r'); 'Data,' divisé en 'Raw_data' (avec les fichiers bruts 'file_a.raw' et 'file_b.raw') et 'Processed_data' (contenant les fichiers CSV nettoyés 'file_a.csv' et 'file_b.csv'); 'Outputs,' qui comprend des sous-dossiers pour 'Figures' et 'Models'; ainsi qu'un fichier 'README.txt'. Cette organisation suit les bonnes pratiques pour la gestion des données de recherche.

Structure du fichier

Principes de structuration d’un jeu de données

Il est préférable d’établir un schéma structuré pour les donné au début du projet, mais il peut aussi convenir de le faire pendant.

Réfléchissez à

  • Structuration des dossiers.
  • Les types et formats de fichiers.
  • Une nomenclature logique et descriptive.

Dans l’ensemble, veillez à ce que la structure de l’ensemble de données soit logique et cohérente, et compréhensible pour les utilisateurs externes.

Exploration de la hiérarchie des dossiers

Le modèle systémique TIER 4.0 est un modèle de projet visant à normaliser les jeux de données.

Télécharge la structure du projet et l’adapter à des cas spécifiques.

Une structure de répertoires hiérarchique suivant le protocole TIER 4.0 pour l'organisation des données de recherche. Le dossier racine 'Project/' contient des documents clés tels que 'The Read Me File' et 'The Report.' Le dossier 'Data/' est divisé en 'InputData/' (avec les sous-dossiers 'Input Data Files' et 'Metadata,' incluant 'Data Sources Guide' et 'Codebooks'), 'AnalysisData/' (avec 'Analysis Data Files' et 'The Data Appendix') et 'IntermediateData/'. Le dossier 'Scripts/' comprend des sous-dossiers pour 'ProcessingScripts/', 'DataAppendixScripts/', 'AnalysisScripts/', ainsi que 'The Master Script.' Enfin, le dossier 'Output/' contient 'DataAppendixOutput' et 'Results.' Cette organisation garantit la transparence et la reproductibilité dans la gestion des données de recherche.

Hiérarchie des dossiers

Ensembles de données contenu

Une structure de répertoires hiérarchique suivant le protocole TIER 4.0 pour l'organisation des données de recherche. Le dossier racine 'Project/' contient des documents clés tels que 'The Read Me File' et 'The Report.' Le dossier 'Data/' est divisé en 'InputData/' (avec les sous-dossiers 'Input Data Files' et 'Metadata,' incluant 'Data Sources Guide' et 'Codebooks'), 'AnalysisData/' (avec 'Analysis Data Files' et 'The Data Appendix') et 'IntermediateData/'. Le dossier 'Scripts/' comprend des sous-dossiers pour 'ProcessingScripts/', 'DataAppendixScripts/', 'AnalysisScripts/', ainsi que 'The Master Script.' Enfin, le dossier 'Output/' contient 'DataAppendixOutput' et 'Results.' Cette organisation garantit la transparence et la reproductibilité dans la gestion des données de recherche.

Arbre de dossiers

Les données partagées comprennent:

  • Données brutes
  • Données intermédiaires et d’analyse
  • Scripts de traitement et d’analyse
  • Résultats
  • Fichiers README et livres de code

Tip

Consultez cette ressource pour connaître les principes de traitement et d’organisation des données de recherche.

Attention aux tableaux mal formatés

Bien qu’il s’agisse du type de fichier (.xls) le plus courant pour enregistrer/stocker des données, les tableaux sont les objets les plus mal organisés et inutilisables dans le domaine de la recherche.

Exemple de mauvais formatage de données, illustrant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne.

Sur https://dansteer.wordpress.com/

Exemple de mauvais formatage des données, présentant une feuille de calcul avec des cellules combinées et des variables différentes dans la même colonne. On peut également observer une combinaison de chiffres et de données numériques dans la même feuille.

Avec l’aimable autorisation du chercheur

Partager des tableaux bien formatés

Un tableau bien structuré affichant des données expérimentales pour différentes souris. Les colonnes incluent 'MouseID,' 'DPI' (jours après la lésion), 'Condition' (MCAO), 'Région' (Contra, Ipsi, Peri), ainsi que les comptages cellulaires pour NeuN, Ki67 et BrdU. La colonne 'MouseID' est surlignée en orange pour la distinguer visuellement. Ce tableau illustre une organisation claire des données, essentielle pour leur analyse en recherche.

Un tableau de données de format long typique organise les informations en lignes et en colonnes

Colonnes

  • Variables d’identification : animal ID, Time point, condition (facteurs ou caractères).
  • Variables d’analyse : score, surface, nombre de cellules, etc.
  • Variables créées lors du traitement (proportions, ratios, etc.).

Lignes

  • Valeurs variables Valeurs des variables : entrées pour chaque colonne (variable). Chaque ligne correspond à une observation unique.

Le script est la voie à suivre

Bien que la plupart des scientifiques soient plus à l’aise avec les interfaces utilisateurs graphiques, le domaine de la recherche requiert de nos jours l’utilisation de scripts et de codes d’analyse pour assurer la reproductibilité des résultats.

Un mème humoristique sur le thème de la Guerre des étoiles comparant différents langages de programmation. L'image est divisée en trois sections, chacune montrant un personnage de Star Wars brandissant un sabre laser. À gauche, Luke Skywalker, avec un logo de langage de programmation « R », tient un sabre laser bleu. Au centre, Kylo Ren brandit un sabre laser rouge à garde transversale portant le logo GraphPad. À droite, Mace Windu, associé au logo Python, tient un sabre laser violet. Ce mème dépeint avec humour les rôles perçus des logiciels libres dans le paysage de la recherche.

Tip

La programmation devrait être considérée comme une compétence essentielle,au même titre que les autres méthodes de recherche.

À retenir

Les conventions de dénomination logique sont essentielles pour relier les données brutes, les scripts de traitement et les données d’analyse.

Liste de vérification pour la soumission de données

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Déposer des données

Lorsque vous partagez des données, assurez-vous que l’ensemble de données présente les caractéristiques suivantes :

  • Les dossiers et les fichiers sont clairement structurés.

  • Les fichiers et les dossiers ont des conventions de dénomination cohérentes.

  • Les formats de fichiers ouverts (par exemple, CSV, TIFF) facilitent l’ouverture et la réutilisation des données.

  • Le fichier README contient suffisamment d’informations pour comprendre la nature, le contenu et l’origine des données.

Foire aux questions

Quand dois-je commencer à organiser mes données en vue de leur partage?

Nous recommandons d’appliquer les pratiques exemplaires de GDR dès le début et tout au long du processus de recherche. il est difficile de commencer à organiser des données après des années de gestion chaotique.

Quand puis-je partager mes données?

Vos données peuvent être partagées à tout moment du processus de recherche. Il n’est pas nécessaire d’attendre la publication de l’article scientifique.

Que faire si mon jeu de données ne correspond pas aux protocoles comme TIER 4?

Ce qui compte, c’est que votre jeu de données soit soigneusement consigné et organisé de manière logique, , et qu’il suive une nomenclature facile à comprendre pour les personnes qui souhaiteraient le réutiliser.

Foire aux questions

Mes données peuvent-elles être citées?

Bien sûr! Votre jeu de données se verra attribuer un DOI et pourra être cité indépendamment de votre article scientifique. Même que, si vous le publiez avant l’article, vous pourrez le citer dans votre propre bibliographie.

Comment les autres peuvent-ils utiliser mon jeu de données?

La réponse dépend de la license que vous choisissez. Nous recommandons une licence CC-BY 4.0, qui permet un large éventail de réutilisations.

Où puis-je partager mes données?

Vous pouvez publier vos données dans des dépôts spécialisés ou généralistes comme le Dépôt fédéré de données de recherche (DFDR) ou Borealis.

En bref

Un jeu de données est un objet de recherche indépendant qui peut être utilisé (et cité) indépendamment de l’article de recherche.

Mieux encore, considérez les articles comme des compléments à votre jeu de données !

Dépôts généralistes canadiens

Agenda

  1. Pourquoi le partage des données est-il important?

  2. Enjeux actuels avec les données

  3. Principes du partage de données

  4. Règles générales pour le partage des données

  5. Liste de vérification pour la soumission de données

  6. Dépôts généralistes canadiens

Dépôt fédéré de données de recherche (DFDR)

Le Dépôt fédéré de données de recherche (DFDR) est une plateforme nationale aidant les chercheuses et chercheurs canadiens à découvrir, à préserver et à partager des données de recherche.

Ses objectifs :

Améliorer la découverte (en partenariat avec Lunaris).

Promouvoir la science ouverte et la réutilisation des données de recherche.

Assurer la préservation à long terme des données de recherche.

Le DFDR s’adresse aux chercheurs canadiens

Le DFDR rassemble une foule de disciplines et de types de données en une infrastructure robuste de gestion et de diffusion des données de recherche au Canada.

Avantages du DFDR

Le DFDR assure la préservation, l’accessibilité et l’utilisabilité à long terme des jeux de données, par l’intermédiaire de son équipe de curation et de préservation.

Le DFDR favorise la conformité aux exigences des organismes de financement en lien avec le libre accès aux données (et les plans de gestion des données de recherche).

Le DFDR est compatible avec les grands jeux de données, ce qui en fait le dépôt idéal pour la recherche à forte intensité de données.

Le DFDR accompagne les chercheuses et chercheurs dans l’application des pratiques exemplaires de gestion des données.

Le DFDR appuie les équipes de recherche et les établissements

Le DFDR bénéficie de personnel qualifié qui guide les équipes de recherche et les établissements pour assurer la pertinence et la conformité avec les principes FAIR des jeux de données versés.

Borealis

Borealis est un dépôt de données de recherche canadien appuyé par des bibliothèques universitaires, des établissements de recherche et l’Alliance de recherche numérique du Canada.

Caractéristiques :

Fondé sur un logiciel libre de Dataverse et hébergé par le Scholars Portal des bibliothèques de l’Université de Toronto.

Doté d’une authentification unique pour les établissements canadiens (Fédération canadienne d’accès).

Indexé dans DataCite et Google pour le repérage, et dans Lunaris pour la découverte.

Réseau Borealis au Canada

Une carte du Canada montrant les emplacements des clusters Borealis formant le réseau canadien. Les points sont répartis à travers le pays, avec une concentration dans les régions de l'est et de l'ouest, ainsi que quelques-uns dans les zones centrales et nordiques.

Réseau Borealis au Canada

Collections Borealis

  • Chaque établissement ou groupe a une collection générale.

  • Les jeux de données sont déposés dans des collections ou des sous-collections.

  • Certains établissements fournisseurs aux chercheuses et chercheurs leurs propres sous-collections.

Un diagramme illustrant la structure hiérarchique des collections de données. À gauche, une collection contient plusieurs ensembles de données étiquetés Dataset 1, Dataset 2 et Dataset ... À droite, une autre collection contient une sous-collection, qui inclut à son tour Dataset 1 et Dataset 2.

Les jeux de données de Borealis sont organisés par collections

Outils Borealis

Aperçu des fichiers permettant de survoler le contenu directement dans le navigateur.

Outil d’exploration des données permettant de visualiser les variables dans des fichiers tabulaires (p. ex. SPSS, Excel, CSV).

Intégration avec GitHub à l’aide de GitHub actions.

Une capture d'écran de l'interface du dépôt de données Borealis affichant un ensemble de données d'Angus Reid Global, 2014. L'ensemble de données est intitulé Drone Awareness and Perceptions: A Three Country Study 2014. L'image montre une visualisation de la répartition des revenus avec un diagramme à barres et un tableau correspondant. Les catégories du tableau incluent des groupes de revenus tels que <$50K, $50-99K, $100K+, et DK/REF, avec leurs nombres respectifs et leurs pourcentages. L'interface comprend des options pour la tabulation croisée, les statistiques résumées et le téléchargement des données.

Visualiseur de tableaux Borealis

Logos de deux dépôts de données de recherche canadiens : FRDR (Dépôt Fédéré de Données de Recherche) et Borealis. Le logo de FRDR présente un motif géométrique de carrés jaunes formant un losange, avec le nom du dépôt en texte noir et or. Le logo de Borealis comprend une représentation artistique des aurores boréales au-dessus de montagnes et d'un lac, avec le nom du dépôt en texte blanc en gras.

Consulter le DFDR or Borealis

Ressources et soutien

Une image de code QR qui redirige vers la présentation située dans un dépôt GitHub.

Cette présentation est disponible ici (anglais ou français)

Services d’appui:

Communiquez avec nous pour vérifier que vos données sont bien préparées et pourront être partagées efficacement avec la communauté de recherche.

  • Courriel: rdm-gdr@alliancecan.ca
  • https://www.frdr-dfdr.ca/repo/