La réutilisation des données scientifiques accélérera la découverte, facilitera la reproduction des résultats et fructifiera au maximum les sommes injectées dans la recherche
[Ottawa, ON]
CANARIE, un des piliers de l’infrastructure numérique qui soutient la recherche, l’éducation et l’innovation au Canada, a dévoilé aujourd’hui les neuf équipes dont le projet a été retenu dans le cadre du premier appel de son programme Gestion des données de recherche (GDR), annoncé en mai 2018. Ainsi subventionnées, ces équipes élaboreront des logiciels et des outils qui aideront les scientifiques canadiens à épouser des pratiques exemplaires afin de mieux gérer les résultats de leurs travaux.
La manière dont on gère les données a des répercussions sur toutes les étapes de la recherche, de la planification et de l’exécution d’un projet à l’enregistrement des données lors de leur création et de leur exploitation, mais aussi leur préservation à long terme, une fois le projet achevé. De bonnes pratiques en gestion des données de recherche (GDR) garantiront la protection de ces dernières pendant le projet et par la suite, ce qui satisfera aux exigences de plus en plus strictes sur les plans de la déontologie et de la reproductibilité des résultats.
Au terme des consultations de janvier 2018, organisées par CANARIE, la profession GDR a identifié la nature des recherches à subventionner en priorité.
« Partout dans le monde, le Canada est réputé pour son excellence en science. S’ils veulent demeurer concurrentiels, nos chercheurs doivent avoir accès à l’informatique de pointe et aux méga données. Grâce à CANARIE, des équipes de recherche des quatre coins du pays inventent de nouveaux moyens pour consulter, stocker et partager les jeux de données colossaux qui déboucheront sur des découvertes susceptibles de changer la vie des Canadiens pour le mieux. », a déclaré l’honorable Kirsty Duncan, ministre des Sciences et des Sports.
« CANARIE est fier d’appuyer financièrement ces équipes, car elles aideront le Canada à gérer plus efficacement ses données scientifiques », a déclaré Mark Wolff, directeur de la technologie de CANARIE. « De solides pratiques en GDR ne feront pas qu’optimiser le rendement des sommes investies dans la science. Elles auront de profondes répercussions sur la découverte en simplifiant l’accès aux données découlant de la recherche. »
Ce financement s’inscrit dans les 105 millions de dollars que le gouvernement canadien a débloqués pour que CANARIE poursuive ses activités durant son mandat de 2015 à 2020.
Équipes dont le projet a été retenu
Les projets dont la description suit seront financés en vertu du premier appel à projets du programme GDR et concourront à répondre aux priorités cernées par la profession, en l’occurrence l’enrichissement et la découverte des [méta]données, les dépôts fédérés et l’interopérabilité, les dépôts particuliers à un domaine, le dépôt et la préservation des données, la conservation, la persistance des identifiants et la possibilité de citation, la consultation et l’analyse des données, la protection et la sécurité de ces dernières ainsi que le respect des principes FAIR que sont la trouvabilité, l’accessibilité, l’interopérabilité et la réutilisabilité.
- Dépôt canadien réparti de données médicales en « omique » (CanDIG CHORD) – piloté par Guillaume Bourque, Université McGill
CanDIG est un projet national visant à faciliter l’analyse coopérative des données en génomique humaine disséminées au pays. Il autorisera une intendance complète de ces données ainsi que leur consultation d’une manière à la fois vérifiable et contrôlable. Le projet CHORD engendrera un service national fédéré pour les données de nature délicate en génomique et en santé. Grâce à lui, les membres du secteur canadien de la santé accèderont plus facilement aux technologies et aux services que CanDIG et ses partenaires internationaux de la Global Alliance for Genomics and Health ont entrepris de mettre en place.
- Dataverse pour le milieu de la recherche canadien – piloté par Kate Davis, Université de Toronto
Dataverse (DV) est une plateforme ouverte de dépôt des données scientifiques élaborée par l’Institute for Quantitative Social Science de l’Université Harvard. De nombreux Canadiens, Américains et Européens ont contribué à mettre au point cette plateforme avant de l’adopter. Au départ, celle-ci était destinée aux chercheurs en sciences sociales détenant des fichiers de petite à moyenne envergure, mais l’architecture de Dataverse sera adaptée afin que le logiciel réponde aux besoins d’un grand nombre de chercheurs du Canada grâce à de meilleures capacités évolutives, au dépôt des fichiers volumineux, à la conservation des flux opérationnels et à son intégration aux services canadiens de stockage et d’authentification.
- DuraCloud – relier les dépôts de données aux installations de stockage pour leur préservation– piloté par Corey Davis, du Council of Prairie and Pacific Research Libraries, ainsi que par Stephen Marks et Kate Davis, de l’Université de Toronto
Les chercheurs canadiens disposent de nombreux services de stockage qui conviennent à la préservation à long terme du contenu numérique, les données de recherche notamment. Le projet DuraCloud réunira plusieurs de ces services grâce au logiciel qu’a développé et que maintient la Fondation DuraSpace. De cette manière, les chercheurs canadiens accéderont à divers services de stockage au moyen de la même interface.
- Dépôt FAIR d’annotations, de corpus et de schémas (FRACS) – piloté par André Lapointe, CRIM
Les applications misant sur l’intelligence artificielle (IA) doivent accéder à une quantité massive de données. Pour que les chercheurs des universités canadiennes haussent l’échelle de leurs projets IA et puissent concurrencer les applications du secteur privé, il est indispensable de coupler les jeux volumineux de données à des annotations détaillées. En effet, les données annotées facilitent l’entraînement des modèles que les algorithmes d’apprentissage machine valideront par la suite.
Le projet FRACS simplifiera la gestion des jeux de données massifs en facilitant les annotations, leur stockage, leur recherche, leur manipulation et leur partage.
- Recherche fédérée de données géospatiales au Canada – piloté par by Eugene Barsky, Evan Thornberry et Paul Lesack, Université de la Colombie-Britannique
Les dépôts de recherche de données se fient depuis toujours à la recherche textuelle. Cependant, on souhaite de plus en plus avoir accès aux éléments géographiques des recherches, le trajet emprunté lors des migrations, par exemple, ou la répartition du rendement des cultures, les images infrarouges des satellites, la distribution des artefacts sur un site archéologique, voire le cheminement de l’eau qui s’écoule. Ce projet créera un logiciel évolutif de source ouverte avec lequel on pourra chercher et découvrir les données géospatiales au Canada grâce à une interface spécialement conçue pour les cartes. De cette manière, l’utilisateur découvrira les ressources géospatiales d’une façon plus intuitive dans l’espace.
- Utilité de l’identifiant pour suivre les données dans leur évolution (MINTED) – piloté par Reyna Jenkyns, Ocean Networks Canada (ONC), Université de Victoria
L’ONC exploite des observatoires océaniques et des services dynamiques de dépôt de données reconnus dans le monde entier. Bien qu’on admette de plus en plus l’utilité et la nécessité de la citation des données, ainsi que le prouve la formulation des principes FAIR, les plateformes et les outils existants ne répondent qu’aux besoins des jeux de données statiques ou rarement actualisés.
Le projet MINTED appliquera les pratiques exemplaires de la citation des jeux de données dynamiques, les identifiants d’objet numérique (DOIs) et l’identifiant ORCID des chercheurs à l’infrastructure numérique du réseau Oceans 2.0 d’ONC.
- Radiam : logiciel de gestion des données actives en recherche – piloté par Kevin Schneider, Université de la Saskatchewan
Souvent, les données scientifiques susceptibles de servir dans un autre domaine que celui qui les a produites sont disséminées entre de nombreux dispositifs, outils et plateformes de stockage. Savoir qu’un tel jeu de données existe, donc le découvrir, est un exploit en soi. Radiam proposera un index des données de recherche au niveau des métadonnées du projet, peu importe la façon dont elles ont été enregistrées. Le logiciel facilitera la recherche et la citation des jeux de données scientifiques en conservant non seulement l’emplacement de ces dernières, mais aussi les métadonnées ordinaires et particulières associées au projet.
- Gestion des données de recherche durant leur vie utile avec Islandora – piloté par Donald Moses et Rosemary Le Faive, Université de l’Île-du-Prince-Édouard (UIPE)
En collaboration avec l’Université Simon Fraser et la Fondation Islandora, l’UIPE bâtira un service de gestion des données de recherche et l’intégrera à la plus récente version d’Islandora appelée CLAW. Islandora est un cadriciel de source ouverte élaboré pour aider les organisations à gérer, découvrir et partager les actifs numériques par la collaboration, en recourant à une approche fondée sur les pratiques exemplaires et la normalisation. Le projet permettra l’intégration des systèmes d’identification, de métadonnées, d’authentification, de stockage et de diffusion dans l’optique des principes FAIR et du cycle de vie des données de recherche.
- Portail sécurisé de recherche de données, de consultation et de collaboration – piloté par Elizabeth Theriault, de l’Ontario Brain Institute, et Moyez Dharsee, d’Indoc Research
L’Ontario Brain Institute (OBI) et Indoc Research ont créé Brain-CODE, une plateforme extensible en neuro-informatique conçue pour gérer la collecte, la préservation, l’analyse et le partage des données de diverse nature sur divers troubles du cerveau.
Pour répondre aux besoins en GDR des chercheurs qui étudient les troubles du cerveau et d’autres maladies, l’équipe du projet développera un portail de données sous forme de logiciel avec lequel les chercheurs pourront saisir, chercher et visualiser sans difficulté et de façon sécuritaire les données sur les patients, de même qu’accéder à des sources d’aide et de formation. Le projet satisfera les besoins des équipes qui utilisent Brain-CODE, mais aussi à ceux des institutions collaboratrices et du milieu de la recherche médicale, en général.
Les projets financés en vertu du premier appel du programme GDR seront achevés d’ici avril 2020.
Renseignements
Ela Yazdani
Directrice, Communications
CANARIE
[email protected] | 613-943-5432
Un mot sur CANARIE
CANARIE renforce le leadership du Canada en science et en technologie en exploitant une infrastructure numérique qui facilite la recherche et l’innovation de calibre mondial.
CANARIE et ses douze partenaires provinciaux et territoriaux forment le Réseau national de recherche et d’éducation du Canada, un réseau ultrarapide qui connecte les chercheurs, les enseignants et les innovateurs du pays les uns aux autres, et leur permet d’accéder à leurs homologues, aux données et aux technologies de la planète entière.
Outre son réseau, CANARIE finance et promeut la création de logiciels scientifiques réutilisables qui accélèrent la découverte, de même que les initiatives nationales en gestion des données de recherche. L’organisme dispense des services de gestion des identités aux établissements d’enseignement supérieur et propose des ressources de pointe en réseautique et en infonuagique en vue d’intensifier la commercialisation dans le secteur canadien de la technologie.
Fondé en 1993, CANARIE est une société sans but lucratif principalement financée par le gouvernement du Canada.
Pour en savoir plus, visitez www.canarie.ca