Facilitate Open Science Training for European Research Etablir un plan de gestion des données dans le cadre d’un projet européen Aurore Cartier Magalie Moysan Nathalie Reymonet Plan de l’intervention 1. Les enjeux d’une bonne gestion : le cycle de vie de la données 2. Les outils d’une bonne gestion : le plan de gestion de données 3. Rédiger un plan de gestion de données • Structures et attendus • Outils et guides en ligne • Compétences et acteurs Les enjeux d’une bonne gestion Le cycle de vie de la donnée La donnée est une information factuelle enregistrée sur un support, produite ou collectée, selon divers procédés au cours d’un processus. Qu’est ce qu’une donnée de recherche ? Produit Equipe de recherche Partenaire Types de données Définitions Valeur et spécificité Exemples Données d’observation (Observational datas) Données obtenues en temps réel Souvent uniques et irremplaçables Données atmosphériques, d’enquêtes, échantillons, neuro-image Données expérimentales (Experimental datas) Données obtenues en laboratoire à partir d’équipements spécifiques Reproductibles mais à des coûts dissuasifs Séquence de génome, chromatographie, spectres RMN Données de simulation (Simulation datas) Données générées à partir de modèles test Métadonnées et modèles ont une valeur supérieure aux résultats Modèles climatiques, modèles économiques Données dérivées ou compilées (Derived or compiled data) Données obtenues par compilations ou traitement des données brutes Reproductibles mais à des coûts dissuasifs Texte et data mining, bases de données compilées, modèles 3D Données de référence ou données canoniques (Reference or canonical datas) Collections statiques ou organiques de jeux de données validées Données publiées ou qui ont fait l’objet d’une curation Banque de données sur le génome, structure chimiques, portail de données spatiale Données publiées Données retenues Données traitées Données produites Données exploitées pour l’élaboration des résultats Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne Données analysées, agrégées, compilées, transformées Données primaires produites ou collectées au cours de la recherche Perte d’information importante au cours du processus de publication Que deviennent les données aujourd’hui ? Les enjeux de la diffusion et de la conservation des données Générer de nouvelles sources pour la recherche Réduire les coûts de production des données Valoriser la production scientifique de l’établissement Fiabiliser les résultats de recherche Données non reproductibles Détectables / citables Fiables et intelligibles Accessibles RéutilisablesInteropérables Quelles attentes pour les données dans H2020 ?  Identifiant pérenne (DOI, Handle)  Indexées  En ligne sur le web  Gratuites  Validées  Décrites , documentées  Normalisées  Entrepôts ouverts  Protocoles moissonnables  Licence libres  Formats non propriétaires  Archivage pérenne Métadonnées 9Documenter les données pour les rendre réutilisables Description des données Création Stockage Diffusion Archivage Vérification des résultats Partage des données Authenticité des données Accès à long terme Le cycle de la donnée Les initiatives internationales pour l’ouverture des données • Politiques d’ouverture des données • Université d’Harvard (Etats-Unis) • Université d’Edimbourg (Royaume-Uni) • Université de Göttingen (Allemagne) • Université de Leiden (Pays-Bas) • Data management plans • U.S. National Science Foundation (Etats-Unis) • U.S. Department of Energy (Etats-Unis) • U.K. Research Councils (Royaume-Uni) • The Netherlands Organisation for Scientific Research (Pays-Bas) Les outils d’une bonne gestion Le plan de gestion de données dans Horizon 2020 Les attendus de l’Open research data pilot  produire un plan de gestion des données • Draft à remettre dans les 6 mois suivant l’acceptation du projet • anticiper la dissémination des données générées au cours de la recherche • Prévoir des mises à jour au minimum à mi-parcours et au rapport final  déposer les données dans un entrepôt de données • Concerne les données et métadonnées nécessaires à la validation des résultats présentés dans les publications • les autres données et métadonnées mentionnées dans le plan de gestion de données  documenter les résultats • Fournir les informations et outils nécessaires à la validation et à la réutilisation des résultats et jeux de données déposées • Préciser les conditions et les perspectives d’utilisation et de réutilisation des données déposées A data management plan describes the data management life cycle for all data sets that will be collected, processed or generated by the research project. It is a document outlining how research data will be handled during the research project, and even after the project is completed, describing what data will be collected, processed or generated and following what methodology and standards, whether and how data will be shared and/or made open, and how it will be curated and preserved.“ Le plan de gestion de données (DMP) dans Horizon 2020 Définition Guidelines on Data Management in Horizon 2020 • décrire le cycle de gestion et de vie des données produites, collectées ou générées tout au long du projet de recherche. • anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une conservation et diffusion future des données. Le plan de gestion de données (PGD) ou « data management plan » (DMP) Un plan de gestion de données est un document formel précisant la manière dont seront produites, traitées, décrites, diffuser et conserver les données au cours et à l’issue du projet. Il permet de : Les étapes de rédaction d’un DMP Le DMP formalise au sein d’un document unique, prospectif et évolutif, des informations utiles au suivi du projet et à la bonne gestion des résultats obtenus, auparavant dispersées entre divers acteurs ou documents. Le DMP dans le montage des réponses aux appels à projet  Where relevant, applicants must provide a short, general outline of their policy for data management […]  The described policy should reflect the current state of consortium agreements regarding data management and be consistent with those referring to exploitation and protection of results.  The data management section can be considered also as a checklist for the future and as a reference for the resource and budget allocations related to data management. Project’s proposal submission and evaluation Guidelines on Data Management in Horizon 2020 Exemple de prévision de DMP Rédiger un DMP Structures et attendus Les principaux champs d’un DMP • Section 1 : Informations relatives au projet • Section 2 : Responsabilité des données : répartition des rôles • Section 3 : Ressources nécessaires à la mise en œuvre du PGD • Section 4 : Jeux de données • 4.1 Description du jeu de données • 4.2 Stockage, accès et sécurité des données – au cours du projet • 4.3 Métadonnées : documentation et organisation des données • 4.4 Dissémination des jeux de données – à l’issue du projet • Section 5 : Sélection et archivage – obligatoire que les données soient diffusées ou non Valable pour l’ensemble du projet Valable pour l’ensemble du projet Propre à chaque jeu de données Un jeu de données est un ensemble de données techniquement homogènes ou intellectuellement cohérentes.  Objectifs : informer sur le contexte administratif et scientifique du projet de recherche auquel est lié le PGD  Principaux champs :  Identifiant de l’appel à projets  Thématiques,  Objectifs du projet A l’échelle du projet Section 1 : les informations relatives au projet Section 2 : responsabilité des données  Objectifs : identifier la ou les personne(s) qui seront en charge l’application et de la mise à jour du DMP tout au long du projet  Principaux champs :  Responsable des données  Propriété des données (renvoi vers Accord de consortium) Objectifs : Estimez les compétences, ressources et coûts nécessaires à la mise en œuvre du DMP : gestion, curation, formation et archivage Principaux champs :  Matériel  Personnel  Formation  Coûts A l’échelle du projet Section 3 : ressources nécessaires Section 5 : Sélection et archivage des données  Objectifs : sélectionner et prévoir l’archivage à long terme des données ayant vocations à être conservées  Principaux champs :  Sort  Sélection  Volume  Durée de conservation préconisée A l’échelle du jeu de données (dataset) Section 4.1 : Description des données Section 4.2 : Stockage, accès et sécurité des données (au cours du projet)  Objectifs : présenter le type de données du jeu qui seront produites et reçues dans le cadre du projet  Principaux champs :  Identifiant et nature du jeu de données  Réutilisation de données existantes  Méthode(s) de production  Format des données  Objectifs : préciser modalités d’hébergement, de sauvegarde et d’accès aux données pendant la phase active du projet  Principaux champs :  Support et volumétrie prévisionnelle  Type d’hébergement  Garantie de confidentialité, intégrité, traçabilité et disponibilité des données  Gestion des accès  Condition d’échange et de partage A l’échelle du jeu de données (dataset) Section 4.3 : Métadonnées Section 4.4 : Dissémination (à l’issue du projet)  Objectifs : préciser la manière dont seront décrites et organisées les données produites ou reçues au cours du projet  Principaux champs :  Standards et formats des métadonnées  Modes de production et responsabilités  Arborescence et règle de nommage  Documentation associée  Objectifs : préciser les modalités et les éventuelles précautions éthiques, juridiques et techniques selon lesquelles les données seront diffusées  Principaux champs :  Principe général de diffusion  Licence et potentiel de réutilisation  Choix de dépôt et de dissémination des données  Identification des jeux de données sensibles  Dérogation aux principes de diffusion et mesures de protection  Période d’embargo Dépôt et partage des données : politiques et infrastructures Pratiques disciplinaires Organismes de financement Établissements de recherche Éditeurs Partage des données inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement) Financements conditionnés par le respect de certaines règles relatives à la gestion et au partage des données Politiques institutionnelles définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données Obligation de dépôt dans une archive ouverte des données sur lesquelles reposent les conclusions d’un article + data journals Chercheurs Initiatives personnelles de mise à disposition de la communauté scientifique de ses données F o rm a ti o n a u x c o rr e s p o n d a n ts E u ro p e - S P C Trouver le bon entrepôt: Les exceptions à la diffusion des données Le chercheur peut justifier de la non-diffusion globale (opt-out) ou partielle de ses données pour diverses raisons : • Si le projet ne collecte ou ne génère aucune donnée • En cas d’incompatibilité avec l’exploitation industrielle et commerciale • En cas d’incompatibilité avec des questions de sécurité • Pour protéger des données personnelles • Si la diffusion des données risque de compromettre l’objectif du projet • Pour toute autre raison légitime faisant l’objet d’une explication Ces exceptions ne dispensent pas de l’élaboration d’un plan de gestion des données… … afin de rester cohérent avec son projet de recherche ! Exemple d’exception de diffusion Candidature Production et documentation des données Curation Dissémination et conservation dans les projets H2020 27 Rédiger un DMP Outils et guides en ligne Le DMP Online du Digital Curation Center Le DMP Tool de la California Digital Library de l’Université de Californie Guide d’accompagnement des Universités : Paris Descartes et Paris Diderot URL : http://www.univ-paris-diderot.fr/DocumentsFCK/recherche/Realiser_un_DMP_V1.pdf Ce document contient : • Un rappel synthétique des exigences H2020 en matière de gestion et d’ouverture des données • Une présentation des acteurs et échéances intervenant dans la rédaction du DMP • Un modèle de DMP sous forme de grille avec exemples à l’appui Tutoriels de l’ INIST-CNRS URL : http://www.inist.fr/?-Tutoriels-multimedias-H2020- L’institut de l’information scientifique et technique (INIST) du CNRS propose des tutoriels sur le libre accès aux résultats de recherche dans Horizon 2020.  Tutoriel 1 : principes généraux  Tutoriel 2 : DMP – Présentation générale  Tutoriel 3 : DMP – Description des données  Tutoriel 4 : Standards et métadonnées  Tutoriel 5 : DMP – Partage des données  Tutoriel 6 : DMP – Archivage des données  Tutoriel 7 : Déposer ses données dans un entrepôt Rédiger un DMP Compétences et acteurs Compétences et savoir-faire nécessaires pour la rédaction d’un DMP  Connaître les enjeux du droit et de la propriété intellectuelle en matière de production et de diffusion des données  Repérer les principaux standards et formats de métadonnées disciplinaires pour la description des données  Identifier les besoins en matière de gestion, stockage et sécurité des données et les coûts associés  Pouvoir anticiper les coûts éligibles pour la mise en open access des publications et des données et leur conservation  Connaître les principaux entrepôts d’archives ouvertes de publications et de données et leur fonctionnement  Anticiper les coûts et besoins de la conservation pérenne des données, ses coûts et acteurs Coordinateur DMP et chercheurs Ingénieurs- projets (Europe) Services informatique Référents IST Archivistes Section 1 : Informations sur le projet Section 2 : Responsabilité des données Section 3 : Ressources nécessaires Section 4.1 : description des données Section 4.2 Au cours du projet stockage, accès et sécurité Section 4.3 Métadonnées Documentation et organisation Section 4.4 Dissémination Partage, diffusion et réutilisation Section 5 Archivage, Sélection et conservation V1 : reprise des éléments de la proposal V1 : reprise partielle des éléments de l’accord de consortium V1 : appui sur des standards disciplinaires V1 : reprise des éléments de la proposal V2 : révision et mappings éventuels V2 : mise à jour à l’issue du projet : embargos, entrepôts, licences, données sensibles… Rédaction du DMP Mise à jour du DMP Projet Dataset Projet Merci pour votre attention Aurore Cartier – aurore.cartier@parisdescartes.fr Magalie Moysan – magalie.moysan@univ-paris-diderot.fr Nathalie Reymonet - nathalie.reymonet@univ-paris-diderot.fr Références bibliographiques 38 • ANRT, CURIF. Séminaire conjoint « HORIZON 2020 : les enjeux et les conditions du succès » (25 juin 2014) • European Commission . Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 (déc. 2013) http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa- pilot-guide_en.pdf • European Commission. Guidelines on Data Management in Horizon 2020 (déc. 2013) http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa- data-mgt_en.pdf • Open Access in Horizon 2020 - EC funded projects. Briefing paper for Project Coordinators . https://www.openaire.eu/guide-for-project-coordinators-in-horizon-2020/document-details • Commission européenne. Recommandation de la commission du 17.7.2012 relative à l'accès aux informations scientifiques et à leur conservation (17.7.2012) C(2012) 4890 final http://medoanet.sciencesconf.org/conference/medoanet/pages/recommendation_access_and_pre servation_scientific_information_fr_copie.pdf • OCDE. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics (2007) http://www.oecd.org/fr/science/sci-tech/38500823.pdf • Commission européenne. La charte européenne du chercheur (2005) http://ec.europa.eu/euraxess/pdf/brochure_rights/eur_21620_en-fr.pdf