Création de livres de code pour les données de recherche

Author
Affiliation

Équipe de curation des données de recherche

Alliance de recherche numérique du Canada

Published

April 1, 2025

Keywords

Codebook, Data dictionary, Research Data Management, Open Science, Data sharing

Dictionnaires de données (codebooks)

Également appelés dictionnaires de données, les codebooks sont essentiels pour décrire le contenu, la structure et l’organisation d’un jeu de données. Ils permettent d’assurer une documentation adéquate et facilitent la compréhension ainsi que la réutilisation des données par d’autres chercheurs, notamment à des fins d’analyse et d’interprétation.

Composantes clés d’un dictionnaire de données

Un dictionnaire de données, en tant qu’artefact documentaire (sur un tableau), vise à définir de manière aussi précise que possible les variables d’un jeu de données. Il convient de prendre en compte les éléments suivants :

  • Nom de la variable : Identifiant unique de la variable dans la table de données (ex. EMPLOY1 ou VAR001).

  • Libellé de la variable : brève description disciplinaire de la variable (ex. “Statut d’emploi”).

  • Type de variable : précise la nature de la variable, par exemple numérique, entière, textuelle ou booléenne.

  • Plages ou niveaux : valeurs possibles ou niveaux associés à la variable (ex. “0-100”, “Niveaux = A1, A2, A3”).

  • Valeurs manquantes : indique les valeurs manquantes (le cas échéant) pour chaque variable.

  • • Unités de mesure : Unités de mesure associées à la variable (ex. “centimètres”, “mètres carrés”).

Tip

Selon la discipline, d’autres attributs peuvent être ajoutés afin de rendre le jeu de données pleinement compréhensible. Crystal Lewis propose plusieurs exemples de dictionnaires de données.

Comment créer un codebook

La création d’un dictionnaire de données constitue une bonne pratique de recherche et devrait être intégrée tout au long du processus de recherche. Il est recommandé d’en conserver une structure aussi simple que possible. L’outil Web de génération de codebooks permet de produire un dictionnaire de données au format CSV à partir d’un jeu de données donné.

Exemple de livre de code

Variable Libellé Type Plage-Niveaux Valeurs manquantes Unités
Stage Stade expérimental Facteur 1, 2, 3, 4
Intervention Groupe d’intervention Facteur G1, G2, G3
Âge Âge du participant Numérique 18-26 1 Années
Sexe Sexe biologique Facteur Homme, Femme
Score Score cognitif Numérique 1-20 AU
Engagement en faveur de la science reproductible :

Les dictionnaires de données jouent un rôle essentiel dans la transparence de la recherche, la reproductibilité des résultats et la préservation à long terme des données.

Logos de deux dépôts de données de recherche canadiens : FRDR (Federated Research Data Repository) et Borealis. Le logo de FRDR présente un motif géométrique de carrés jaunes formant un losange, avec le nom du dépôt en texte noir et or. Le logo de Borealis inclut une représentation artistique des aurores boréales au-dessus des montagnes et d’un lac, avec le nom du dépôt en texte blanc en gras.

Visitez FRDR ou Borealis