Traitement d’images biomédicales et partage de flux de travail reproductibles

Guide à l’usage des chercheurs

L’équipe de curation du DFDR

Digital Research Alliance of Canada

Comprendre la bio-imagerie

Agenda

  1. Comprendre la bio-imagerie

  2. Planification et acquisition d’images

  3. Collecte des métadonnées de l’image

  4. Organiser et partager les données d’images

  5. Partage de flux de travail reproductibles

Un diagramme illustrant différents types de techniques d’imagerie biologique et leurs applications. La section supérieure, intitulée 'Sample Imaging' (imagerie d’échantillons), comprend des icônes représentant divers domaines de recherche tels que la biologie moléculaire, la génétique, la microbiologie et l’anatomie. En dessous, trois modalités d’imagerie sont représentées : 'Electron microscopy' (microscopie électronique en bleu clair), 'Light microscopy' (microscopie optique en bleu foncé) et 'Human bioimaging' (imagerie biomédicale en rouge foncé), indiquant leurs domaines d’application. En bas, 'Image data analysis' (analyse des données d’imagerie) est mentionné, soulignant l’aspect computationnel du traitement des images. Le diagramme met en évidence le rôle de l’imagerie dans plusieurs disciplines de recherche.

Les images contiennent d’innombrables données

Illustration humoristique en noir et blanc représentant une séance de thérapie. Un patient est allongé sur un divan et exprime ses préoccupations à un thérapeute qui prend des notes. Le patient a une bulle de pensée montrant une énorme vague étiquetée 'DATA' sur le point de s'écraser sur une petite silhouette impuissante. Le dessin illustre de manière humoristique la sensation d'être submergé par une grande quantité de données, un défi courant en recherche et en science des données. Le dessin est signé Henning Falk.

Henning Falk (2022) - NumFOCUS

La bio-imagerie est entrée dans le domaine des big data qui comprennent des ensembles de données de plus en plus complexes. Nous sommes confrontés à de nombreux défis, notamment le traitement des données et la gestion appropriés, ainsi que la création et le partage de flux de travail d’analyse d’images reproductibles.

Cyle de vie de BioImage

Un diagramme circulaire illustrant le cycle de vie de la gestion des données de recherche en bioimagerie (RDM), intitulé 'Core Facility: Infrastructure and Bioimaging RDM Support.' Au centre, une icône représentant un chercheur symbolise l’utilisateur interagissant avec les différentes étapes du flux de travail. Le cycle de vie est divisé en segments : 'Acquisition d’image' (violet), 'Stockage et accès aux fichiers d’image' (jaune), 'Traitement et analyse des bioimages' (vert), 'Publication des données' (bleu), 'Archivage et stockage à long terme' (gris clair) et 'Planification, recherche et réutilisation des données' (gris). Autour du cercle extérieur, divers éléments d’infrastructure de soutien sont représentés, notamment le stockage cloud, le stockage en système de fichiers, le transfert efficace de données, les formats, les standards, les outils, les systèmes de permission, la sécurité des données, l’accès web, la connectivité et l’intégration des données. Le diagramme met en évidence une approche structurée de la gestion et du soutien des données de recherche en bioimagerie.

Cyle de vie de BioImage Schmidt, et al. 2024

Les bio-images ont un potentiel de découverte scientifique qui va au-delà de leur objectif d’acquisition initial lorsqu’elles sont traitées conformément aux principes FAIR (Schmidt, et al. 2024; voir Wilkinson, et al. 2016).

Planification et acquisition d’images

Agenda

  1. Comprendre la bio-imagerie

  2. Planification et acquisition d’images

  3. Collecte des métadonnées de l’image

  4. Organiser et partager les données d’images

  5. Partage de flux de travail reproductibles

Aperçu général

Le stockage conventionnel basé sur un système de fichiers atteint rapidement ses limites. Avant que les données ne soient générées, les chercheurs doivent réfléchir à la manière dont elles seront stockées, déplacées, documentées et analysées pendant (et après) la durée de vie du projet.

Capture d’écran de l’Explorateur de fichiers Windows dans la section 'Ce PC,' affichant les périphériques de stockage et l’espace disque disponible. L’image met en évidence deux zones clés : (1) l’option de navigation 'Ce PC' dans le panneau de gauche, et (2) la section 'Périphériques et lecteurs,' montrant plusieurs disques durs et partitions, dont certains presque pleins, représentés par des barres de stockage rouges. Cette image illustre les défis de gestion de l’espace disque et les avertissements de saturation sous Windows.

Directions actuelles :

  • Exploiter les plans de gestion des données de recherche (PGD)
  • Le stockage dans le nuage et les plateformes (par exemple OMERO) deviendront une OBLIGATION.
  • Nécessité de formats standardisés (NGFFs).

Planification des expériences d’imagerie

Hadware pour l’imagerie

  • Appareil d’imagerie (lumière, confocal, électronique)
  • Définir les paramètres d’imagerie - adaptés à l’analyse d’images

Stockage des images

  • Taille de l’image - Gigaoctets ou téraoctets
  • Complexité de l’image - Plans focaux simples ou multiples, images en direct ou à intervalles réguliers

Comment allez-vous traiter vos images ?

Lorsque vous planifiez une expérience d’imagerie, envisagez l’approche la plus appropriée en fonction de vos capacités de traitement et d’analyse des données.

Acquisition de données

  • configuration et étalonnage d’instrument et paramètres d’imagerie (taille, profondeur de bits, saturation, etc.).
  • Donner la priorité aux formats de fichiers ouverts (.TIFF) par rapport aux formats propriétaires (.CZI).
  • Enregistrement des métadonnées.

Les paramètres d’acquisition sont essentiels

Pendant l’imagerie, il est nécessaire d’envisager un compromis entre les paramètres nécessaires pour répondre à la question de recherche (grossissement, taille, profondeur de bits) et la puissance de traitement disponible (stockage, puissance de calcul).

Quels paramètres dois-je utiliser pour répondre à ma question de recherche ?

Une image de microscopie à fluorescence d’une coupe coronale de cerveau de souris affichée dans une visionneuse d’images. L’image est issue d’un fichier `.czi` et présentée sous forme de TIFF 8 bits avec une taille de 23 Mo. Le signal de fluorescence apparaît en vert, mettant en évidence des structures spécifiques au sein du tissu cérébral. Les métadonnées affichées dans la visionneuse indiquent des dimensions de 9086.62 x 7290.43 microns, correspondant à une résolution de 2752 x 2208 pixels. Ce type d’imagerie est couramment utilisé en recherche en neurosciences pour visualiser l’expression des protéines, les structures cellulaires ou les régions anatomiques.

Image 8 bits - Avec la permission de Daniel Manrique-Castano

L'image montre la même chose qu'à gauche pour une profondeur de 16 bits.

Image 16 bits - Avec la permission de Daniel Manrique-Castano

Considérez que…

Une illustration humoristique sur le thème de la science, combinant du texte et un dessin de microscope. Sur le côté gauche, un texte en gras noir indique 'BRO, DO YOU EVEN SCOPE?' avec une illustration d’un microscope optique en dessous. Sur le côté droit, sur un fond bleu clair, le texte met en avant l'importance de la formation en microscopie : 'Un microscope est aussi bon que la personne qui l’utilise. La qualité des expériences peut être améliorée grâce à la formation.' Les mots 'microscope' et 'qualité des expériences' sont mis en évidence en bleu. L’image souligne avec humour l’importance d’une bonne formation pour obtenir des résultats de recherche de haute qualité en microscopie.

Transformer les formats de fichiers

Après avoir acquis des images originales en formats propriétaires (c’est-à-dire .CZI ou .LIF), les chercheurs peuvent utiliser différents outils pour ouvrir et transformer les images en formats ouverts (.TIFF).

Capture d’écran de la page de téléchargement de Bio-Formats 8.1.0, un outil logiciel permettant de lire et de convertir les formats de fichiers d’imagerie en sciences de la vie. L’arrière-plan contient une image de microscopie à fluorescence de cellules marquées en bleu, vert et jaune. Le titre principal, 'Bio-Formats 8.1.0 Downloads,' est affiché en grandes lettres blanches. Bio-Formats est un outil essentiel pour les chercheurs travaillant avec des données de microscopie multidimensionnelles.

Bio-Formats de Open Microscopy Environment (compatible avec FIJI)

Capture d’écran de la page de publication du package 'python-bioformats 4.1.0.' La page a un fond bleu et affiche en évidence le nom et la version du package. En dessous, un extrait de commande montre comment installer le package avec pip : 'pip install python-bioformats,' avec un bouton de copie à côté. Ce package permet aux utilisateurs Python de travailler avec Bio-Formats, une bibliothèque permettant de lire et de traiter des données d’imagerie de recherche.

Bio-Formats de Python

Le format OME.TIFF

Format développé par l’Open Microscopy Environment (OME) sur la base de la spécification TIFF. OME-TIFF incorpore des métadonnées OME-XML :

  • Des métadonnées OME-XML.
  • Supporte des données multidimensionnelles et multi-images (voir exemples).
  • Prend en charge les données complexes multidimensionnelles et à fort contenu à l’aide de BigTiff, en raison des limites du format TIFF (jusqu’à 4 Go).
  • Possibilité de répartir les données sur plusieurs fichiers (voir exemple).

Format de fichier de nouvelle génération OME-Zarr

Une illustration schématique d'une pyramide d’images, un concept utilisé en traitement d’image et en bioimagerie. La pyramide représente différents niveaux de résolution d’une même image, avec un échantillon de tissu cérébrale coloré en rose affiché à chaque niveau. La base de la pyramide correspond à la 'Résolution complète, Surface complète,' tandis que les niveaux intermédiaire et supérieur représentent '1/2 résolution, 1/4 de la surface' et '1/4 résolution, 1/16 de la surface,' respectivement. Cette visualisation met en évidence la manière dont les images sont stockées à plusieurs échelles pour optimiser le traitement et l’analyse en imagerie de lames entières et en microscopie multi-résolution.

Pyramide de l’image

Message à emporter

La planification stratégique et la gestion des données, les plateformes et formats adaptés à l’informatique en nuage et le soutien institutionnel garantissent des données d’imagerie extensibles, accessibles et réutilisables.

Collecte des métadonnées de l’image

Agenda

  1. Comprendre la bio-imagerie

  2. Planification et acquisition d’images

  3. Collecte des métadonnées de l’image

  4. Organiser et partager les données d’images

  5. Partage de flux de travail reproductibles

Aperçu général

Des métadonnées de haute qualité sont essentielles pour que les données d’imagerie soient FAIR.

Une œuvre d'art numérique abstraite et vibrante représentant un visage humain fragmenté, mêlé à des formes géométriques, des textures colorées et des éléments technologiques. La composition inclut un grand œil expressif entouré de traînées de couleurs, de circuits et de lignes entrecroisées. D'autres éléments, tels qu'une bouche stylisée et des structures courbées en forme de rubans, renforcent l'esthétique surréaliste.

Image de DevianArt

Défis actuels :

  • Un écosystème fragmenté dépourvu de normes claires en matière de métadonnées qui conduit à une documentation incohérente.
  • Les journaux scientifiques et les institutions manquent de lignes directrices uniformes.

Un tableau structuré présentant les différents modules de métadonnées nécessaires pour une documentation normalisée des données bio-imagerie. Le tableau comprend plusieurs sections : 'Étude,' 'Composant de l'étude,' 'Échantillon biologique,' 'Spécimen,' 'Acquisition d'image,' 'Données d'image,' 'Corrélation d'image,' et 'Données analysées.' Chaque ligne spécifie un attribut (ex. : type d'étude, méthode d'imagerie, entité biologique), une description de son importance, la méthode de saisie des données (texte, ontologie, extraction des données) et les ontologies associées (telles que EDAM-BIOIMAGING, FBbi, OME et EFO). Ce tableau met en évidence les éléments de métadonnées essentiels pour garantir la reproductibilité, l’interopérabilité et le partage structuré des données en recherche bio-imagerie.

Télécharger le modèle

Utiliser le vocabulaire contrôlé

Utiliser le vocabulaire contrôlé (ontologies) pour spécifier les objets, leurs catégories et relations.

Nom Ontologie
Organismes NCBI
Gènes NCBI
Protéines Uniprot
Méthodes d’imagerie FBBI
Facteurs d’exp. EFO

Enregistrer les métadonnées des appareils d’imagerie

Capture d'écran de l'application Micro Meta App, un outil de gestion des métadonnées de microscopie. La section supérieure affiche la bannière de l'application avec le titre 'MICRO META APP' et le slogan 'Microscopy Metadata for the Real World.' En dessous, deux sections principales permettent aux utilisateurs de 'Gérer l’instrument' et 'Gérer les paramètres,' offrant des options pour documenter les composants matériels et les paramètres d’acquisition. La moitié inférieure de l’image montre des vues détaillées de l’interface, incluant des composants de microscope étiquetés tels que les objectifs, les caméras, les filtres et les réglages laser, mettant en évidence des champs de métadonnées comme le fabricant, le gain, le grossissement et la profondeur de bits.

MicroMeta App

Visitez le site MicroMeta App et l’article de recherche associé

Methods J2 PlugIn

Capture d’écran d’un document texte généré à l’aide de l’outil MethodsJ2 basé sur les entrées utilisateur et un fichier matériel de l’application Micro-Meta App. Le document décrit la configuration d’imagerie, y compris un microscope inversé Zeiss Axiovert 200M configuré pour la microscopie épifluorescence en champ large, contrôlé avec le logiciel Zen. Le texte précise les composants optiques, les paramètres d’imagerie tels que la taille des voxels (0,14 μm) et les détails de l’excitation par fluorescence utilisant une source lumineuse LED X-Cite 120 avec divers filtres d’excitation/émission et miroirs dichroïques. La section des remerciements crédite l’Advanced BioImaging Facility (ABIF) de McGill et Joel Ryan pour leur assistance.

Exemple de le dé pôtde MethodsJ2

Le plugin MethodsJ2 Fiji génère du texte pour le matériel et les méthodes de microscopie en extrayant des informations des métadonnées (fichier MicroMeta App). Visitez ici le dépôt GitHub ou l’article de recherche associé.

OMERO : L’un des meilleurs choix

OMERO intègre MDEmic (MetaData Editor for microscopy), un outil qui permet d’explorer et d’éditer facilement les métadonnées des images.

Métadonnées à prendre en considération

Nous devons aller vers :

  • Meilleure consolidation des normes de métadonnées.
  • Développement d’outils pour la collecte automatisée des métadonnées (y compris la collaboration avec les fabricants de microscopes).
  • Infrastructures de recherche et soutien de BioImaging pour un enregistrement des métadonnées adéquat.

Organiser et partager les données d’images

Agenda

  1. Comprendre la bio-imagerie

  2. Planification et acquisition d’images

  3. Collecte des métadonnées de l’image

  4. Organiser et partager les données d’images

  5. Partage de flux de travail reproductibles

Les images peuvent se trouver à plusieurs endroits

Un ordinateur portable avec un écran noir posé sur une table en bois dans un café. Une tasse de café sur une soucoupe est placée à côté. En arrière-plan, une fenêtre avec un grillage laisse entrevoir des plantes à l'extérieur.

Ordinateur d’étudiants et de post-doctorants

Un gros plan d'un commutateur réseau avec plusieurs câbles Ethernet branchés. Les câbles orange et bleus sont soigneusement organisés et connectés au commutateur. Une étiquette avec le texte 'NorthC' est visible dans le coin supérieur droit de l'appareil.

Réseau d’instituts

Une vue sereine du ciel rempli de nuages blancs et moelleux s'étendant à l'horizon. La partie supérieure de l'image présente un dégradé de bleu, passant du foncé au clair à mesure qu'il rejoint les nuages.

Le nuage (Google drive)

À terme, les images biomédicales (big data) peuvent représenter téraoctets ou pentaoctets, ce qui dépasse la plupart des solutions standard de partage de fichiers.

Tip

Le stockage efficace des images nécessite une infrastructure, l’optimisation des flux de traitement et des protocoles de partage normalisés.

Considérations relatives aux solutions de stockage

Pour choisir la modalité de stockage, pensez qu’en tant que chercheurs, nous ne voulons pas simplement stocker l’ensemble de données quelque part, nous voulons le rendre accessible et utilisable.

Nous voulons que nos images soient

  • Trouvables (identifiants persistants, indexées dans une ressource consultable)
  • Accessibles (Exigences logicielles, Formats de fichiers ouverts)
  • Interopérable (métadonnées riches, paramètres normalisés)
  • Réutilisable (métadonnées descriptives, licence et droits d’utilisation clairs)

Où puis-je partager mes images ?

Une collection de logos représentant divers dépôts de données de recherche, y compris OSF, Dryad, FRDR, DFDR, BioStudies, Zenodo et Borealis. Ces dépôts soutiennent la science ouverte en offrant des plateformes de partage et de conservation des données.

Exemples de référentiels généralistes

Caractéristiques de certains référentiels généralistes

Référentiels d’images spécialisés

Autres solutions

Ces instances sont installées dans un espace dédié du réseau (core facility) pour un stockage et un partage à long terme.

Caractéristiques des images partagées

  • Images brutes et traitées (les opérations de traitement ne doivent pas altérer l’image originale).
  • Formats de fichiers ouverts non compressés et sans perte.
  • OME-TIFF conserve les métadonnées d’origine (.czi).
  • Le format PNG (images avec annotations) est préférable.
  • Conventions d’appellation précises et descriptives lisibles par machine (par exemple, Subject_Group_Area_Marker) : Utilisez des facteurs de regroupement pour nommer les images.
  • Création de fichiers README pour contextualiser et décrire le contenu et les méthodes utilisées dans l’ensemble de données.
  • Utiliser les licences CC-BY ou CC0.

Tip

“We strongly discourage author statements that images ‘are available upon request’, as this has been shown to be inefficient”(Schmied et al. 2023)

Partage de flux de travail reproductibles

Agenda

  1. Comprendre la bio-imagerie

  2. Planification et acquisition d’images

  3. Collecte des métadonnées de l’image

  4. Organiser et partager les données d’images

  5. Partage de flux de travail reproductibles

Traitement et analyse d’images

Dans tout processus de recherche, l’analyse des images doit être :

Objectif

Illustration d'un livre avec une loupe placée dessus. Le livre a une couverture jaune avec une étiquette en haut, et la loupe a un bord rouge avec une lentille bleue, symbolisant la recherche, l'analyse ou l'étude.

Fiable

Gros plan sur un mousqueton métallique avec le mot 'RELIABILITY' gravé dessus. Le mousqueton est solidement fixé avec un mécanisme de verrouillage doré et attaché à une sangle en tissu robuste, symbolisant la solidité, la sécurité et la fiabilité.

De https://nexxis.com.au/

Reproductible

Illustration d'un chercheur en blouse blanche peignant sur une toile, qui contient une image de lui-même peignant sur une toile dans une boucle récursive infinie. L'arrière-plan est rouge, créant un contraste saisissant. L'œuvre symbolise la réplication scientifique, les processus auto-référentiels et la nature itérative de la recherche.

De https://med.stanford.edu/

L’analyse d’images du point de vue de la RDM

Du point de vue de la RDM, l’analyse des images biomédicales implique idéalement :

  • L’accès à de grands ensembles de données
  • Des enregistrements du traitement de l’image (code, scripts)
  • Partage des résultats (images, tableaux, graphiques)

Tip

Des conventions de dénomination et fichiers README précis et descriptifs contenant des métadonnées ou des livres de code sont essentiels pour garantir l’intégrité des pipelines d’analyse.

Approche modulaire pour l’analyse d’images

Un flux d’analyse modulaire divise les principales tâches d’analyse d’images en sous tâches indépendantes.

flowchart LR
A[Détection des nucléus] --> B[Quantification] 
B --> C[Analyse spatiale]

Tip

La modularité permet de construire des flux d’analyse complexes à partir de composants indépendants qui peuvent fonctionner ensemble. Cela favorise la réutilisation de modules indépendants.

Hiérarchie des tâches d’analyse d’images

Niveau bas (connaissances techniques)

Transformer des images en d’autres images ou données :

  • Prétraitement (par exemple, déconvolution, élimination du bruit)
  • Détection et segmentation d’objets (par exemple, cellules, organites intracellulaires)
  • Suivi des particules/objets

Niveau haut (connaissances disciplinaires)

Transformer les résultats des tâches de bas niveau en informations ayant une signification biologique :

  • Visualisation des données
  • Ajustement de modèles statistiques
  • Inférence statistique et mesures de l’incertitude

Flux de travail pour l’analyse d’images

Donner la priorité aux logiciels ouverts/gratuits

Il existe des dizaines d’options ouvertes/gratuites pour analyser les images de recherche et partager des flux de travail reproductibles :

Une grande ressource pour l’analyse d’images : BioImage

BioImage.IO est un référentiel de modèles d’IA piloté par la communauté qui donne accès à des modèles d’IA pré-entraînés avec une pléthore de partenaires logiciels ouverts/gratuits.

Capture d'écran du BioImage Model Zoo, montrant plusieurs modèles d'IA pour la segmentation et l'analyse des bio-images. Chaque modèle comprend une vignette, un titre, une description, des étiquettes et un nombre de téléchargements. Certains modèles sont spécialisés dans la segmentation des noyaux, des cellules et des mitochondries en utilisant différentes techniques d'apprentissage profond. L'interface comporte des icônes pour la compatibilité, la licence et d'autres fonctionnalités.

De Bioimage

Flux d’analyse d’images

Pourquoi utiliser un code ?

“La souris est antisociale. L’interface graphique est antisociale. Qu’est-ce que cela signifie ? Vous avez un problème à résoudre, et vous le résolvez avec une interface graphique. Qu’est-ce que vous avez ? Un problème résolu. Mais lorsque vous le résolvez avec une interface de ligne de commande dans un environnement de script, vous avez un artefact. Et tout à coup, cet artefact peut être partagé avec quelqu’un”Jeffrey Snover

Utilisez le CODE et non la souris !

Aperçu général

Tip

  • Garder une trace de toutes les modifications et procédures d’analyse effectuées sur les images.
  • Organiser et lier les fichiers (en utilisant des conventions de dénomination) tout au long du traitement afin d’éviter les erreurs.
  • Sélectionner les résultats finaux ou intermédiaires à partager en tenant compte d’aspects tels que l’espace de stockage et la conservation à long terme.

Publication des résultats d’analyse

Le partage des objets de recherche dans des référentiels publics et actifs de gestion de la recherche, comme l’Open Science Framework (OSF), est une excellente stratégie pour promouvoir une science ouverte et reproductible. Veuillez envisager de partager les images d’illustration, les figures et les tableaux utilisés dans la publication.

Tip

En général, il s’agit d’images/figures de faible résolution (.png) qui ne sont pas utilisées pour l’analyse mais pour l’illustration de rapports de recherche (thèses, articles).

Exemples d’images de résultats

Cliquez pour voir des exemples des images et figures de résultats publiés

Les données ne sont généralement pas partagées

Les mentions “Les données sont disponibles sur demande”figurant dans les publications se révèlent souvent peu fiables dans la pratique (Schmidt et al., 2024)

Principe de la science ouverte

Partager les données aussi ouvertement que possible et les garder aussi fermées que nécessaire.

Le partage des données est une responsabilité professionnelle

Le dépôt d’un ensemble de données dans un référentiel n’est PAS SEULEMENT un exercice visant à répondre aux exigences des organismes de financement et des revues scientifiques. C’est une responsabilité éthique et professionnelle des chercheurs de garantir la reproductibilité de la recherche, ainsi que l’accès et la réutilisation des données de recherche.

Par conséquent, la recherche doit évoluer vers:

  • Des chercheurs compétents en gestion et l’analyse des données.
  • Des approches normalisées pour partager les données brutes et le code d’analyse pour étayer les résultats de la recherche.
  • Des chercheurs qui s’engagent à la transparence et aux meilleures pratiques de recherche pour garantir l’intégrité.

Logos de deux dépôts de données de recherche canadiens : FRDR (Dépôt Fédéré de Données de Recherche) et Borealis. Le logo de FRDR présente un motif géométrique de carrés jaunes formant un losange, avec le nom du dépôt en texte noir et or. Le logo de Borealis comprend une représentation artistique des aurores boréales au-dessus de montagnes et d'un lac, avec le nom du dépôt en texte blanc en gras.

Visitez FRDR ou Borealis

Ressources et soutien

Une image de code QR qui redirige vers la présentation située dans un dépôt GitHub.

Cette présentation est disponible ici (en anglais ou en français)

Services de soutien :

Contactez-nous pour vous assurer que vos données sont bien préparées et qu’elles peuvent être partagées efficacement avec la communauté des chercheurs.

  • Courriel : rdm-gdr@alliancecan.ca
  • https://www.frdr-dfdr.ca/repo/