flowchart LR A[Efficacité] --> B[Collaboration] B --> C[Reproductibilité]
Guide à l’usage des chercheurs
Alliance de Recherche Numérique du Canada
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Il existe plusieurs raisons de partager des données de recherche :
Éviter les expériences inutiles et coûteuses en utilisant les résultats de recherches précédentes.
Valider résultats : vérification indépendante des résultats scientifiques.
Adapter les données pour les appliquer à de nouvelles questions de recherche, seules ou en combinaison avec d’autres jeux de données, ou encore pour en extraire du matériel éducatif.
S’appuyer sur recherche précédent pour accélérer la découverte scientifique et la méta-analyse sur la base de données brutes et de recherches reproductibles.
Le gouvernement du Canada fait la promotion de la gestion des données de recherche (GDR) au moyen d’une politique conjointe des trois organismes.
Cette politique vise à mettre en place des plans de gestion des données (PGD) et des pratiques de partage des données de recherche pour maximiser les retombées.
Le partage des données n’est PAS UNIQUE pour répondre aux exigences des organismes de financement et des revues. Il s’agit d’une responsabilité éthique et professionnelle des chercheuses et chercheurs envers la reproductibilité de la science et réutilisabilité des données scientifiques.
De chercheuses et chercheurs compétents formés à la GDR et à l’analyse de données.
D’approches normalisées pour le partage de données brutes et la codification des analyses en soutien aux résultats de recherche.
De chercheuses et chercheurs qui font de la transparence et des pratiques exemplaires un devoir d’intégrité.
flowchart LR A[Efficacité] --> B[Collaboration] B --> C[Reproductibilité]
graph LR A[Examen rigoureux] --> B[Validation] B --> C[Science ouverte]
flowchart LR A[Transparence] --> B[Responsabilisation] B --> C[Rendement du capital investi]
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Déclaration de disponibilité des données
“Les données brutes étayant les conclusions de cet article seront mises à disposition par les auteurs, sans réserve.”
Les données partagées sont le plus souvent :
Exemptes de métadonnées ou de fichiers README suffisamment complets pour en expliquer le contexte, les méthodes et la structuration.
Désorganisées et donc impossibles à réutiliser.
Traitées comme un simple complément aux articles scientifiques.
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Réalisations attendues lors du partage des données :
Chaque jeu de données doit pouvoir fonctionner indépendamment.
Les jeux de données doivent être repérables et compréhensibles.
Les jeux de données doivent pouvoir être réutilisés par d’autres personnes.
Découvrabilité
Accessibilité
Interopérabilité
Réutilisabilité
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Fournir un titre descriptif un résumé et une liste de mots-clés appropriés pour le jeu de données.
Rédiger un fichier README avec des métadonnées.
Définir une structure de jeu de données et des conventions de dénomination cohérentes.
Le titre doit refléter la nature et le contenu du jeu de données.
Titre original: PiPaw2.0
Meilleur titre: Home cage based motor learning platform PiPaw2.0
Titre original: Foliar Functional Trait Mapping
Meilleur titre: Foliar Functional Trait Mapping of a mixed temperate forest using imaging spectroscopy
Titre original: Covariation in Width and Depth in Bedrock Rivers Data Archive
Meilleur titre: Data archive for width and depth covariation within the bedrock Fraser Canyon, British Columbia, Canada
Caution
Le titre du jeu de données NE DOIT PAS équivaloir au titre de l’article scientifique.
La description de l’ensemble de données doit contenir suffisamment d’éléments pour permettre de comprendre sa nature, son origine et son contenu.
Description original: This dataset provides climate data (19 bioclimate variables as defined by worldclim) that were generated using the Biosim 11 software at a spatial resolution of 9 km across Canada between 1980-2020.
Meilleur description: This dataset provides climate data (19 bioclimate variables as defined by worldclim) that were generated using the Biosim 11 software at a spatial resolution of 9 km across Canada between 1980-2020. Please refer to https://www.worldclim.org/data/bioclim.html for information about the variables. The dataset contains: the annual mean temperature, mean diurnal range, isothermality, temperature seasonality, maximum temperature of warmest month, minimum temperature of coldest month, temperature annual range, mean temperature of wettest quarter, mean temperature of driest quarter, mean temperature of warmest quarter, mean temperature of coldest quarter, annual precipitation, precipitation of wettest month, precipitation of driest month, precipitation seasonality (coefficient of variation), precipitation of wettest quarter, precipitation of driest quarter, precipitation of warmest quarter, precipitation of coldest quarter.
Description original: Exposure to neuromodulatory chemicals in the polychaete marine worm, Capitella teleta, has been used to assess changes in locomotory behavior in adult and juvenile life stages.Worms were exposed to nicotine, fluoxetine, apomorphine, and phenobarbital and had their distance moved, maximum velocity, time to/at the edge of the arena, and time to first move measured.
Meilleur description: The presence of compounds such as pharmaceuticals and pesticides act as neurochemicals in aquatic organisms. This repository contains the raw data from a study investigating the effects of neuromodulatory chemicals in the marine polychaete worm Capitella teleta. We investigated the effects of nicotine, fluoxetine, apomorphine and phenobarbital, which are known to interact with acetylcholine, serotonin, dopamine and GABA pathways. We measured locomotory behavior using a high throughput multi-well plate assay, using parameters such as total distance moved, time spent moving, time spent at the edge and maximum velocity. We also performed RNA extraction and sequencing with juvenile and adult worms to determine if genes in the pathway were expressed. We share gene sequences, alignments, motif searching, and phylogenetic analysis files for each receptor (with acetylcholine, serotonin, dopamine and GABA) and videos, together with raw .fasta files for RNA sequencing and R code for processing/analysis.
Caution
Utilisez de nombreux mots-clés pour augmenter la découvrabilité de l’ensemble de données.
Pour déterminer les mots-clés pertinents, se poser la question suivante :
Quels termes utiliserait quelqu’un pour essayer de trouver des données comme les miennes?
Le fichier README est une guide pour comprendre le jeu de données et en favoriser la réutilisation.
Les utilisatrices et utilisateurs du DFDR peuvent utiliser nos modèles text et [web] pour générer des fichiers README à joindre à leur soumission.
Autres ressources pertinentes :
- Créer un fichier README
- Readme.so
- Readme.ai
En règle générale, un fichier README comprend les éléments suivants :
Identifiants du jeu de données comprenant le titre, les autrices et auteurs, la date de collecte, l’information géographique, etc.
Une carte des dossiers et fichiers présentant l’arborescence et le contenu des dossiers.
Une description de la nomenclature des fichiers.
La méthodologie employée pour recueillir ou produire les données et pour les analyser.
Caution
Le jeu de données est un objet indépendant. Les méthodes et outils de collecte de données [NE DOIVENT PAS]{style=« color:red ; »} être relégués à l’article de recherche.
Les instructions et les logiciels nécessaires pour ouvrir et manipuler les données.
Des renseignements sur le partage et l’accès précisant les permissions et les modalités d’utilisation.
Un jeu de données structuré est la clé pour le comprendre et le réutiliser.
Il est préférable d’établir un schéma structuré pour les donné au début du projet, mais il peut aussi convenir de le faire pendant.
Réfléchissez à
Dans l’ensemble, veillez à ce que la structure de l’ensemble de données soit logique et cohérente, et compréhensible pour les utilisateurs externes.
Le modèle systémique TIER 4.0 est un modèle de projet visant à normaliser les jeux de données.
Télécharge la structure du projet et l’adapter à des cas spécifiques.
Les données partagées comprennent:
Tip
Consultez cette ressource pour connaître les principes de traitement et d’organisation des données de recherche.
Bien qu’il s’agisse du type de fichier (.xls) le plus courant pour enregistrer/stocker des données, les tableaux sont les objets les plus mal organisés et inutilisables dans le domaine de la recherche.
Bien que la plupart des scientifiques soient plus à l’aise avec les interfaces utilisateurs graphiques, le domaine de la recherche requiert de nos jours l’utilisation de scripts et de codes d’analyse pour assurer la reproductibilité des résultats.
Tip
La programmation devrait être considérée comme une compétence essentielle,au même titre que les autres méthodes de recherche.
Les conventions de dénomination logique sont essentielles pour relier les données brutes, les scripts de traitement et les données d’analyse.
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Lorsque vous partagez des données, assurez-vous que l’ensemble de données présente les caractéristiques suivantes :
Les dossiers et les fichiers sont clairement structurés.
Les fichiers et les dossiers ont des conventions de dénomination cohérentes.
Les formats de fichiers ouverts (par exemple, CSV, TIFF) facilitent l’ouverture et la réutilisation des données.
Le fichier README contient suffisamment d’informations pour comprendre la nature, le contenu et l’origine des données.
Quand dois-je commencer à organiser mes données en vue de leur partage?
Nous recommandons d’appliquer les pratiques exemplaires de GDR dès le début et tout au long du processus de recherche. il est difficile de commencer à organiser des données après des années de gestion chaotique.
Quand puis-je partager mes données?
Vos données peuvent être partagées à tout moment du processus de recherche. Il n’est pas nécessaire d’attendre la publication de l’article scientifique.
Que faire si mon jeu de données ne correspond pas aux protocoles comme TIER 4?
Ce qui compte, c’est que votre jeu de données soit soigneusement consigné et organisé de manière logique, , et qu’il suive une nomenclature facile à comprendre pour les personnes qui souhaiteraient le réutiliser.
Mes données peuvent-elles être citées?
Bien sûr! Votre jeu de données se verra attribuer un DOI et pourra être cité indépendamment de votre article scientifique. Même que, si vous le publiez avant l’article, vous pourrez le citer dans votre propre bibliographie.
Comment les autres peuvent-ils utiliser mon jeu de données?
La réponse dépend de la license que vous choisissez. Nous recommandons une licence CC-BY 4.0, qui permet un large éventail de réutilisations.
Où puis-je partager mes données?
Vous pouvez publier vos données dans des dépôts spécialisés ou généralistes comme le Dépôt fédéré de données de recherche (DFDR) ou Borealis.
Un jeu de données est un objet de recherche indépendant qui peut être utilisé (et cité) indépendamment de l’article de recherche.
Mieux encore, considérez les articles comme des compléments à votre jeu de données !
Agenda
Pourquoi le partage des données est-il important?
Enjeux actuels avec les données
Principes du partage de données
Règles générales pour le partage des données
Liste de vérification pour la soumission de données
Dépôts généralistes canadiens
Le Dépôt fédéré de données de recherche (DFDR) est une plateforme nationale aidant les chercheuses et chercheurs canadiens à découvrir, à préserver et à partager des données de recherche.
Ses objectifs :
Améliorer la découverte (en partenariat avec Lunaris).
Promouvoir la science ouverte et la réutilisation des données de recherche.
Assurer la préservation à long terme des données de recherche.
Le DFDR s’adresse aux chercheurs canadiens
Le DFDR rassemble une foule de disciplines et de types de données en une infrastructure robuste de gestion et de diffusion des données de recherche au Canada.
Le DFDR assure la préservation, l’accessibilité et l’utilisabilité à long terme des jeux de données, par l’intermédiaire de son équipe de curation et de préservation.
Le DFDR favorise la conformité aux exigences des organismes de financement en lien avec le libre accès aux données (et les plans de gestion des données de recherche).
Le DFDR est compatible avec les grands jeux de données, ce qui en fait le dépôt idéal pour la recherche à forte intensité de données.
Le DFDR accompagne les chercheuses et chercheurs dans l’application des pratiques exemplaires de gestion des données.
Le DFDR appuie les équipes de recherche et les établissements
Le DFDR bénéficie de personnel qualifié qui guide les équipes de recherche et les établissements pour assurer la pertinence et la conformité avec les principes FAIR des jeux de données versés.
Borealis est un dépôt de données de recherche canadien appuyé par des bibliothèques universitaires, des établissements de recherche et l’Alliance de recherche numérique du Canada.
Caractéristiques :
Fondé sur un logiciel libre de Dataverse et hébergé par le Scholars Portal des bibliothèques de l’Université de Toronto.
Doté d’une authentification unique pour les établissements canadiens (Fédération canadienne d’accès).
Indexé dans DataCite et Google pour le repérage, et dans Lunaris pour la découverte.
Chaque établissement ou groupe a une collection générale.
Les jeux de données sont déposés dans des collections ou des sous-collections.
Certains établissements fournisseurs aux chercheuses et chercheurs leurs propres sous-collections.
Aperçu des fichiers permettant de survoler le contenu directement dans le navigateur.
Outil d’exploration des données permettant de visualiser les variables dans des fichiers tabulaires (p. ex. SPSS, Excel, CSV).
Intégration avec GitHub à l’aide de GitHub actions.
Communiquez avec nous pour vérifier que vos données sont bien préparées et pourront être partagées efficacement avec la communauté de recherche.
Dépôt des données de recherche - Équipe de curation des données du DFDR