Réaliser un plan de gestion de données Ce document a été conçu afin d’accompagner les chercheurs et chargés de projets lors de la rédaction de plans de gestion de données (Data Management Plans, DMP). Sa structure s’appuie sur le modèle proposé par la Commission européenne dans le cadre d’Horizon 2020 et divers modèles de plans de gestion de données existants tels que celui de la National Science Foundation (NSF) ou de l’Interuniversity Consortium for Political and Social Research (ICPSR). Les champs requis par la Commission européenne sont signalés par un astérisque. Les exemples mentionnés dans ce document sont issus de guides existants. Ce document constitue un guide de rédaction et non une liste de champs obligatoires. V[1] 9 janvier 2015 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 2 / 30 Conception et réalisation : Aurore CARTIER (Service Commun de la Documentation, université Paris Descartes), Magalie MOYSAN (Bureau des archives, université Paris Diderot) et Nathalie REYMONET (Direction d’Appui à la Recherche et à l’Innovation (DARI), université Paris Diderot) A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 3 / 30 Les données de la recherche : définitions Les données de la recherche recouvrent un périmètre large, dont la définition peut varier selon les approches des acteurs, les institutions, les financeurs ou encore les contextes nationaux, donnant lieu à une pluralité de définitions dont voici quelques exemples ci-dessous.  Définition de l’OCDE Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche1.  Définition de la section « Aurore »2 de l’Association des archivistes français Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche.  Introduction des données de la recherche dans le Code de la recherche La loi sur l’enseignement supérieur et la recherche de juillet 2013 modifie l’article L 112-1 du Code de la recherche en introduisant la notion d’« organisation de l’accès libre aux données scientifiques »3.  Définition de la Commission européenne pour Horizon 2020 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ; 2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata4. Si les exigences de la Commission européenne sont à l’origine du présent outil, ce dernier a été conçu comme un canevas pouvant répondre aux exigences d’autres financeurs et à d’autres projets impliquant une gestion des données avec archivage. C’est la raison pour laquelle la définition des données de la recherche sur laquelle s’appuie ce travail a été volontairement élargie et s’attache davantage à la notion de « donnée » qu’à sa dimension « recherche » dont la définition peut varier selon la nature et le périmètre des projets concernés comme des acteurs impliqués. En conséquence, le présent document considère les données de la recherche comme un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’un processus de recherche. 1 OCDE. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics (2007) 2 Section Aurore (Archives des universités, rectorats, organismes de recherche et mouvements étudiants) de l’Association des archivistes français, définition en cours de révision 3 Loi n° 2013-660 du 22 juillet 2013 relative à l'enseignement supérieur et à la recherche, NOR: ESRJ1304228L 4 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, v. 1.0, 11 décembre 2013, p. 14 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 4 / 30 Introduction au Data Management Plan (DMP) Un Data Management Plan (DMP) ou plan de gestion de données est un document formalisé explicitant la manière dont seront obtenues, documentées, analysées, disséminées et utilisées les données produites au cours et à l’issue d’un processus ou d’un projet de recherche. Le DMP s’appuie sur le cycle de vie des données/documents et décrit les choix réalisés en termes de normes de métadonnées5, formats des bases de données, méthodes et sécurité d’accès, durées d’archivage, ainsi que les coûts associés à la gestion des données. Une mention particulière doit être apportée aux données venant en appui des publications et qui doivent à ce titre rester disponibles et accessibles au plus grand nombre6. L’établissement de data management plans est de plus en plus demandé dans les appels à projets financés sur fonds publics, notamment européens. Le guide de la Commission européenne sur l’open access des publications et des données dans Horizon 2020 en fournit la définition suivante : “A data management plan is a document outlining how the research data collected or generated will be handled during a research project, and after it is completed, describing what data will be collected/generated and following what methodology and standards, whether and how this data will be shared and/or made open, and how it will be curated and preserved.” 7 L’objectif est ainsi de documenter la manière dont seront produites ou collectées les données au cours et à l’issue d’un processus de recherche, en s’attachant notamment à définir comment elles seront décrites, partagées, protégées puis conservées. La vocation d’un DMP n’est pas de contraindre la pratique par l’exigence de nouveaux éléments mais plutôt de formaliser au sein d’un document unique, prospectif, descriptif et évolutif, un ensemble d’éléments et d’informations, auparavant dispersés entre divers acteurs et divers documents, éléments utiles au suivi du projet et à la bonne gestion des résultats obtenus. 5 Métadonnées : les métadonnées sont un ensemble de données structurées décrivant des ressources physiques ou numériques. Elles sont classiquement divisées en métadonnées descriptives, administratives ou de structure (http://openaccess.inist.fr). 6 CNRS, DIST. Schéma d'orientation stratégique de l'information scientifique et technique (Nov. 2013) 7 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 (Dec. 2013), p. 10 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 5 / 30 Focus : Open Access et Data Management Plan dans les appels à projets Horizon 2020 L’open access des publications L’open access des publications désigne le libre accès à l'information scientifique, défini comme un accès gratuit, immédiat, permanent, en ligne, aux articles publiés dans les revues à comité de lecture8. Avec son programme cadre « Horizon 2020 », la Commission européenne fait de l’open access un principe général pour les publications scientifiques : elle rend obligatoire la publication en open access « en respect des intérêts légitimes des participants ». Il s’agit donc de rendre les publications scientifiques accessibles sans barrière financière, juridique ou technique. Les bénéficiaires s’engagent ainsi à respecter l’article 29.2 de la convention de subvention (grant agreement)9. Ils disposent toujours de la possibilité de publier leurs résultats de recherche auprès de revues à comité de lecture, mais le cas échéant, doivent le faire en open access selon différentes modalités : soit directement dans des revues en open access (gold open access) soit en déposant, parallèlement ou sous réserve d’embargo, leurs publications dans un serveur d’archives ouvertes (green open access)10. L’open access des données  Le périmètre de l’Open research data pilot La Commission européenne lance un projet pilote intitulé “Open research data pilot” pour encourager et optimiser la gestion et la réutilisation des données de recherche générées par les projets qu’elle finance11. L’utilisation d’un plan de gestion de données est obligatoire pour les projets participant au pilote, en dehors d’exceptions justifiées. Les autres projets de recherche peuvent intégrer le pilote s’ils le souhaitent. Une version initiale du plan de gestion de données doit être remise dans les six premiers mois suivant l’acceptation du projet. Le DMP peut alors être un document succinct d’une à deux pages mais devra être mis à jour au cours et à l’issue du projet. Les responsables des projets financés par Horizon 2020 doivent prévoir la diffusion et la mise à disposition, en libre accès, des données de la recherche produites ou collectées dans le cadre de ces projets. Cette libre diffusion participe d’un cercle vertueux visant à améliorer la qualité 8 Open access : Budapest Open Access Initiative (2001), http://www.opensocietyfoundations.org/openaccess 9 Each beneficiary must ensure open access (free of charge, online access for any user) to all peer-reviewed scientific publications relating to its results. Multi-beneficiary General Model Grant Agreement, Version 1.0 (11 December 2013) 10 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, p.6 11 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, p. 8-11 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 6 / 30 des données, réduire la duplication des efforts de recherche, accélérer le progrès scientifique et contribuer à la lutte contre la fraude scientifique12. Le projet pilote recouvre les thématiques suivantes du programme Horizon 2020 : 12 Commission européenne. Recommandation de la commission du 17.7.2012 relative à l'accès aux informations scientifiques et à leur conservation (17.7.2012) C(2012) 4890 final Conseil européen de la recherche (ERC) Actions Marie Sklodowska-Curie Technologies futures et émergentes (FET) Infrastructures de recherche : - Développer de nouvelles infrastructures ... - Intégrer et ouvrir les IR d’intérêt européen - infrastructures électroniques - Soutien à l’innovation... EXCELLENCE SCIENTIFIQUE D ’a p rè s M ES R et C o m m is si o n PRIMAUTÉ INDUSTRIELLE Technologie de l’information et de la communication (TIC) Technologies clés génériques (KET) Espace Innovation dans les PME Accès au financement à risque DÉFIS SOCIETAUX Santé, bien-être, vieillissement Sécurité alimentaire, bioéconomie… Energies sûres, propres, efficaces : - Villes et communautés intelligentes Transports intelligents, verts, intégrés Climat, environnement, matières premières Sociétés inclusives et novatrices et capables de réflexion Sociétés sûres Diffusion de l’excellence et élargissement de la participation Science pour et avec la société Institut européen d’innovation et technologie (IET) Centre commun de recherche / Joint Research Center (JCR) Les 3 piliers du programme Horizon 2020 et le périmètre de l’Open research data pilot A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 7 / 30  Les conditions de l’Open research data pilot Les bénéficiaires s’engagent à :  accepter l’article 29.3 (“Open access to research data”) de la convention de subvention les engageant à déposer certaines des données (et métadonnées correspondantes) produites au cours du projet dans un réservoir ouvert de données (research data repositories) et à leur associer une licence libre permettant leur exploitation et leur réutilisation.13  produire dans les 6 premiers mois du projet de recherche un plan de gestion de données qui est appelé à être vérifié, revu et complété tout au long du projet14 : des versions plus élaborées du DMP pourront être livrées au cours du projet, au moins à mi-parcours et au rapport final15. Des exceptions à l’article 29.3 sont prévues, notamment si les données produites sont des données sensibles (données personnelles, données devant faire l’objet d’une exploitation industrielle, etc.). Ces exceptions sont négociées avec la Commission européenne au moment de la rédaction de la convention de subvention (Grant agreement). Attention : les projets qui ne donnent pas lieu à diffusion des données doivent également comporter un plan de gestion. Le DMP concerne l’ensemble des données, y compris celles qui n’ont pas vocation à être diffusées. Pour atteindre son objectif d’ouverture des données, la Commission européenne met des moyens à la disposition des équipes de recherche : éligibilité au remboursement des coûts16 ; mise à disposition d’un réservoir ouvert de données (Zenodo) ; outil numérique d’aide à la rédaction des plans de gestion (en cours de finalisation).17 13 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, v. 1.0, 11 décembre 2013, p. 14 ; Commission européenne, Guidelines on Data Management in Horizon 2020, v. 1.0, 16 décembre 2013, p. 3 14 “Since DMPs are expected to mature during the project, more developed versions of the plan can be included as additional deliverables at later stages.”, European Commission. Guidelines on Data Management in Horizon 2020, p. 3. 15 European Commission. Guidelines on Data Management in Horizon 2020, p. 3 16 “Costs relating to the implementation of the pilot will be eligible. Specific technical and professional support services will also be provided (e- Infrastructures WP)”, European Commission. Guidelines on Data Management in Horizon 2020, p. 11 17 EUDAT. Data access and management in the EUDAT collaborative data infrastructure (2014) A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 8 / 30 Le schéma ci-dessous, produit par la Commission européenne, présente l’open access des publications et des données de la recherche dans le contexte de la dissémination et de l’exploitation des résultats18 : OA in context: dissemination & exploitation of research results 18 European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, p.4 Source: European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020, p.4 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 9 / 30 Source : A. Cartier, M. Moysan, N. Reymonet, d’après les Guidelines on Data Management in Horizon 2020, de la Commission européenne. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data- mgt_en.pdf Les étapes de rédaction et de validation du DMP dans le cadre d’Horizon 2020 Le DMP est un livrable requis par la Commission européenne. Il s’inscrit donc dans un calendrier précis. Sa rédaction et sa mise en œuvre reviennent à l’équipe de recherche lauréate, aidée des ingénieurs-projets européens et des professionnels de l’information scientifique et technique (IST). Eléments de calendrier pour la réalisation d’un Data Management Plan dans H2020 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 10 / 30 DMP : acteurs et services ressources La rédaction de data management plans est une pratique née dans les pays anglo-saxons qu’il nous semble important d’adapter aux structures et acteurs français pour la rendre applicable. Si la rédaction d’un DMP relève davantage de la compilation et de la formalisation d’informations préexistantes que d’une démarche totalement inédite, force est de reconnaître qu’elle reste relativement coûteuse en temps pour les équipes de recherche. C’est pourquoi, à travers ce guide, notre démarche est non seulement de proposer une liste de champs applicables mais également d’identifier au sein de nos établissements d’enseignement supérieur et de recherche, les différents acteurs susceptibles d’accompagner les chercheurs dans la rédaction de leur DMP. La rédaction d’un DMP fait en effet appel à diverses compétences bien souvent présentes au sein de nos universités mais généralement disséminées entre plusieurs acteurs, voire plusieurs services qui n’étaient pas, jusqu’ici, nécessairement habitués à travailler ensemble. Le schéma ci-dessous est une proposition de workflow pour la réalisation d’un data management plan appliqué au contexte des projets Horizon 2020 visant à indiquer, pour chaque étape du processus d’élaboration, les personnes ressources sur ces questions. A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 11 / 30 Les interlocuteurs ressources pour la rédaction et la mise en œuvre d’un plan de gestion de données en milieu universitaire A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 12 / 30 Références utilisées - Agence des droits fondamentaux de l’Union européenne. Manuel de droit européen en matière de protection des données, 2014. http://fra.europa.eu/fr/publication/2014/manuel-de-droit-europeen-en-matiere-de-protection-des- donnees - Agence nationale de la sécurité des systèmes d’information. Expression des besoins et identification des objectifs de sécurité (EBIOS®), http://www.securite-informatique.gouv.fr/gp_article82.html - Budapest Open Access Initiative (2001) : http://www.opensocietyfoundations.org/openaccess - CNRS, DIST. Schéma d'orientation stratégique de l'information scientifique et technique (nov. 2013) http://www.cnrs.fr/dist/docs/131119-orientation.pdf - Commission européenne. Recommandation de la commission du 17.7.2012 relative à l'accès aux informations scientifiques et à leur conservation (17.7.2012) C(2012) 4890 final http://medoanet.sciencesconf.org/conference/medoanet/pages/recommendation_access_and_prese rvation_scientific_information_fr_copie.pdf - Commission européenne /European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa- pilot-guide_en.pdf - Commission européenne /European Commission. Guidelines on Data Management in Horizon 2020 http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa- data-mgt_en.pdf - EDUCAUSE ACTI Data Management Working Group. Developping an institutional research data management plan service (jan. 2013) https://net.educause.edu/ir/library/pdf/ACTI1301.pdf - EUDAT. Data access and management in the EUDAT collaborative data infrastructure (2014) http://www.eudat.eu/system/files/Open-Access-and-Data.pdf - ICPSR. Guidelines for Effective Data Management Plans http://www.icpsr.umich.edu/files/datamanagement/DataManagementPlans-All.pdf - Institut national de recherche agronomique. Rapport du groupe de travail sur la gestion et le partage des données (juin 2012) http://www.pfl-cepia.inra.fr/uploads/gdp_docs/Rapport-GestionDonnees- web.pdf - NSF. Data Management Plan Requirements. http://www.nsf.gov/eng/general/dmp.jsp - OCDE. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics (2007) http://www.oecd.org/fr/science/sci-tech/38500823.pdf - UC San Diego. Data management plan de Laurie Smith http://rci.ucsd.edu/_files/DMP%20Example%20Laurie%20Smith.pdf - UC San Diego. Data management plan d’Elsa Cleland http://idi.ucsd.edu/_files/DMP%20Example%20Cleland. A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 13 / 30 CONTACTS Coordination Sorbonne Paris Cité : Plan de gestion de données / Data Management Plan - Aurore Cartier aurore.cartier@parisdescartes.fr - Magalie Moysan magalie.moysan@univ-paris-diderot.fr - Nathalie Reymonet nathalie.reymonet@univ-paris-diderot.fr A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 14 / 30 Plan de gestion de données / Data management plan (DMP) Ce modèle de DMP, bilingue, est composé de plusieurs parties :  En-tête  Section 1 : Informations sur le projet  Section 2 : Responsabilité des données  Section 3 : Ressources nécessaires à la mise en œuvre du DMP : ces champs sont communs à l’ensemble du projet.  Section 4 : Jeux de données L’ensemble des sections ci-dessous doivent être dupliquées pour chaque jeu de données c’est- à-dire un ensemble de données techniquement homogène ou intellectuellement cohérent identifié comme tel. o Section 4.1 : Description du jeu de données o Section 4.2 : Au cours du projet - Stockage, accès et sécurité des données o Section 4.3 : Métadonnées : documentation et organisation des données o Section 4.4 : A l’issue du projet : dissémination des jeux de données  Section 5 : Sélection et archivage se réalisent à l’échelle du projet, aussi cette partie concerne l’ensemble des données produites, qu’elles aient été diffusées ou non. Les champs signalés par un astérisque* doivent être obligatoirement renseignés dans le cadre du pilote d’Horizon 2020 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 15 / 30 Nom du champ Descriptif du champ Exemples 0 – En-tête / 0 - Header Version du DMP, date DMP version, date Ex. : V2, 21 juillet 2014 Date de la première version Date of the first version Ex. : 11 février 2014 1 - Informations sur le projet / 1- Informations on the project Cette section a pour vocation de renseigner administrativement sur le projet auquel ce DMP est lié, de le présenter et de le décrire succinctement. This section aims to provide administrative information about the project to which this DMP is linked and to present and briefly describe it. Identifiant de l’appel à projets Identification of the project call Ex. : H2020-FETOPEN-2014-2015-RIA Thématique Topic Ex. : FETOPEN-1-2014 Référence de la convention de financement Grant agreement number Ex. : 225260 Programme de recherche Research program Précise le programme de l’appel à projets. Ex. : Technologies futures et émergentes (FET) Acronyme du projet Project acronym Ex. 1 : TREASURE Ex. 2 : IPOD A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 16 / 30 Titre du projet Project title Ex. : Etudes structurale et fonctionnelle des pompes à efflux OprN/MexE/MexF et OprM/MexC/MexD impliquées dans la résistance aux antibiotiques chez Pseudomonas aeruginosa Objectifs du projet Goals of the project Description de la nature du projet, ses objectifs et son déroulement. Permet de comprendre le contexte et les types de données qui seront produites ou collectées au cours du projet. Ex. : l’objectif du projet est d’identifier les déterminants de la survie chez les patients porteurs du VIH et sous antirétroviraux. Mots-clefs du projet Keywords Reprendre les mots-clefs de la proposition. Ex. : digital humanities, history, geography, … Coordinateur/Bénéficiaire Coordinator/Recipient Nom de l’institution, tel qu’il est connu par le financeur. Ex. 1 : Université Paris Diderot-Paris 7 Ex. 2 : Université Paris Descartes Responsable scientifique du projet Project leader Nom, prénom et mél. Ex. : Anne Leclerc Anne.leclerc@univ-paris-diderot.fr Affiliation et unité de rattachement du responsable scientifique Administrative affiliation of the project leader Unité de rattachement du coordinateur du projet. Ex. 1 : Université Paris Diderot, UMR 7086 Ex. 2 : Université Paris Descartes, U1153 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 17 / 30 Nom du champ Descriptif du champ Exemples 2- Responsabilité des données /2 - Responsibility for the data Cette section vise à identifier la ou les personne(s) qui seront en charge de la mise en œuvre et de la mise à jour du DMP tout au long du projet, ainsi que la propriété intellectuelle des données liées au projet de recherche. This section provides information about the person(s) who will be responsible for implementing and updating the DMP throughout the project, and the intellectual property of them. Nom du responsable de la gestion des données au cours du projet de recherche Name of the person in charge of data management during the project Le responsable du plan de gestion de données est impliqué dans le pilotage du projet de sa création à son aboutissement. Il est responsable du plan de gestion, de sa rédaction, de son suivi et de son éventuelle modification au cours du projet de recherche. Il peut être différent du responsable scientifique. Dans le cas d’un projet associant des partenaires sur d’autres sites ou dans d’autres institutions, les responsabilités entre les partenaires doivent être précisées ici. Ex. : Albert Dupont albert.dupond@univ-paris-diderot.fr Propriété des données Data property A qui appartiennent les données produites et/ou réutilisées ? Quels droits régissent vos bases de données et leurs contenus ? Comment se répartit la propriété intellectuelle sur les données ? etc. La propriété des données est fixée par l’accord de consortium définissant le rôle des partenaires du projet. La négociation des termes de l’accord en amont du projet et du DMP est essentielle car elle conditionne en partie les modalités de partage et de dissémination ultérieures des données. Ex.1 : Résultats Propres : les Résultats seront la propriété du Partenaire qui a réalisé (ou fait réaliser par un sous-traitant, sans financement des autres Parties) les études/travaux qui sont à l'origine des Résultats. Le partenaire propriétaire des Résultats Propres sera seul juge de l'opportunité et du choix de leurs modes de protection et d'utilisation. Ex.2 : Résultats Communs : Si les Résultats ont été générés par les études/travaux de plus d'un Partenaire (ou développés par un sous-traitant, financé conjointement par deux ou plusieurs Partenaires), chaque Partenaire aura une part égale de copropriété sur ces Résultats. A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 18 / 30 19 ICPSR, op. cit. p. 10 Nom du champ Descriptif du champ Exemples 3 - Ressources nécessaires à la mise en œuvre du DMP / 3 - Resources needed to implement the DMP Estimez les compétences nécessaires à la mise en œuvre du DMP : gestion, curation (sélection, nettoyage, normalisation et enrichissement des données), conservation à long terme et les coûts associés. Estimate the skills needed to implement the DMP: management, curation (selection, cleaning, normalization and data enrichment), long-term conservation and associated costs. Matériel Hardware Estimez les espaces de stockage nécessaires au cours du projet et leur coût, ainsi que le coût de la plateforme d’archivage à l’issue du projet. Personnel Staff Estimez le temps nécessaire à la gestion et la curation des données en ETP et le coût correspondant. Un ETP de [n]% a été budgété pour couvrir la gestion, la documentation et la curation des données. Formations Training Estimez le coût des formations à la curation à prévoir. Montant financier* Costs Estimez le montant global de la mise en œuvre du DMP. The [repository] has estimated their additional cost to archive the data is [insert euro amount]. This fee appears in the budget for this application as well. 19 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 19 / 30 Les sections 4.1 à 4.4 ci-dessous sont réplicables pour chaque jeu de données identifié pour le projet Nom du champ Descriptif du champ Exemples 4 - Jeux de données / 4 - Datasets Selon le projet, un jeu de données peut recouvrir des réalités différentes. En effet, un ou plusieurs jeu(x) de données peuvent être lié(s) au projet de recherche, et désigner : i) un lot techniquement homogène, ou ii) un lot intellectuellement cohérent même si celui-ci est composé de lots techniquement hétérogènes. Depending of the project, a dataset may cover different realities. In fact, a unique or multiple datasets may be linked to the research project and represent a technically uniform batch of data or an intellectually consistent one, potentially made of technically heterogeneous samples. Nombre de jeu(x) de données Number of datasets Cette partie précise le nombre de jeux de données qui seront produits et/ou reçus dans le cadre du projet. This part aims to present the number of datasets that will be produced and/or received in connection with the project. Ex. : Datasets will be defined as all data generated by the proposed project Ex. : Datasets will be defined by each workpackage there are from A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 20 / 30 20 L’astérisque signale les champs à remplir obligatoirement dans le cadre du programme Horizon 2020. 21 UC San Diego. Data management plan de Laurie Smith, p. 1 (Site de l’université de San Diego : http://rci.ucsd.edu/dmp/examples.html) Nom du champ Descriptif du champ Exemples 4.1 - Description des données – Jeu de données n°…/ 4.1 - Data description – Dataset #… Cette section a pour vocation de présenter le jeu de données qui sera produit et/ou reçu dans le cadre du projet. This section aims to generally present the type of data that will be produced and/or received in connection with the project Identifiant et nom du jeu de données* 20 Reference and name of data set Ce champ donne l’identification et/ou le nom du jeu de données décrit ci-après. Nature des données* Nature of data Ce champ précise le type de données qui seront produites ou utilisées dans le cadre du projet : données d’enquête, échantillons, code logiciel, corpus de texte, photographies, etc. Ex. : Data and biological materials to be generated by the proposed project will mainly consist of images (e.g. confocal and transmission electron micrographs)21 Réutilisation de données existantes Reuse of existing data Ce champ précise si le projet s’appuie sur la réutilisation de données ou jeux de données déjà existants et éventuellement produits par d’autres équipes de recherche. Ex. : Ce projet s’appuie sur des enquêtes qualitatives préexistantes, qui ont été numérisées et mises à disposition de la communauté. Ex. : Nous avons utilisé les données de 4 enquêtes cas-témoins réalisées par notre équipe depuis 1998. Méthode de production des données* Method of production of data Ce champ vient préciser le processus de production ou d’élaboration des données utilisées : instrument de mesure, enquête, analyse, observation, compilation, simulation, etc. Indiquez s’il s’agit de données produites au cours du projet, de réutilisation de données préexistantes ou des deux. Indiquez les normes qualité utilisées le cas échéant. Ex. 1 : Les données ont été recueillies par questionnaire, puis intégrées dans une base de données Epidata, version 3.0. Ex. 2 : Les données ont été collectées suivant la norme ISO/CEI 17025 sur les « exigences générales concernant la compétence des laboratoires d’étalonnages et d’essais ». A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 21 / 30 22 UC San Diego. Data management plan de Laurie Smith, op. cit. 23 ICPSR. Guidelines for Effective Data Management Plans, p. 6 Formats des données* (formats originels ou de conversion) Data standard Indiquez les formats des données. Dans le cas où les données feraient l’objet de conversions, une simple mention du format d’origine est suffisante ; en revanche il est préférable de documenter a minima la correspondance (mapping) entre les formats. Une description détaillée des formats de conversion est obligatoire dans le contexte du DMP. Dans la mesure du possible, privilégiez des formats ouverts ou largement utilisés afin de faciliter le partage. Ex. 1 : All data will be stored in digital form, either in the format in which it was originally generated (i.e. Metamorph files, for confocal images; Spectrum Mill files, for mass spectra with results of mass spectra analyses stored in Excel files; tiff file s for gel images; Filemaker Pro files for genetics records), or will be converted into a digital form via scanning to create tiff or jpeg files (e.g. western blots or other types of results).22 Ex. 2 : Quantitative survey data files generated will be processed and submitted to the [repository] as SPSS system files with DDI XML documentation. The data will be distributed in several widely used formats, including ASCII, tab- delimited (for use with Excel), SAS, SPSS, and Stata. Documentation will be provided as PDF. Data will be stored as ASCII along with setup files for the statistical software packages. Documentation will be preserved using XML and PDF/A.23 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 22 / 30 Nom du champ Descriptif du champ Exemples 4.2 - Au cours du projet - Stockage, accès et sécurité des données /4.2 - During the project - Storage, access and security Cette section définit les modalités d’hébergement, de sauvegarde et d’accès aux données pendant la phase active du projet. This section defines hosting, backup and data access during the active phase of the project. Stockage et enregistrement des données Storage and recording Support des données Medium of data Existe-t-il des données sur support papier ou autre support physique ? Ex. 1 : Les questionnaires remplis par les patients sont numérisés au fil de l’eau mais l’original est conservé sur support papier pendant la durée du projet. Ex. 2 : Les cahiers de laboratoire sont conservés sur support papier. Volumétrie prévisionnelle* Projected volume En mesure de stockage. Elle pourra être réévaluée au cours du projet. Ex. : [n] Megaoctets Type d’hébergement Data hosting Décrivez le matériel et le lieu physique de stockage. Avez- vous recours aux services d’un prestataire pour le stockage de vos données au cours de la recherche ? A un logiciel spécifique ? Ex. : Serveur local, serveur distant, disque dur externe, etc. Sécurité des données Data security Risques ou menaces sur les données Risks or threats to data Indiquez les risques susceptibles de menacer les exigences de confidentialité, de disponibilité et d’intégrité des données tout au long de la phase active du projet. Un référentiel de menaces est disponible dans la méthode EBIOS. 24 Ex. : Destruction accidentelle/illicite de données, altération, accès non autorisé, environnement à risque, etc. 24 EBIOS : Expression des besoins et identification des objectifs de sécurité. C’est une démarche d’analyse de sécurité élaborée par la Direction centrale de la sécurité de systèmes d’information du Secrétariat de la défense nationale (SGDN). Pour davantage d’informations, voir le portail de la Sécurité informatique de l’Agence nationale de la sécurité des systèmes d’information : http://www.securite- informatique.gouv.fr/gp_article82.html A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 23 / 30 Garantie de confidentialité des données Data privacy Préciser les précautions prises pour garantir la confidentialité des données au regard des éventuels risques détectés. Selon la norme ISO 7498-2 (ISO90), la confidentialité est la propriété d’une information qui n’est ni disponible ni divulguée aux personnes, entités ou processus non autorisés. Dans le droit européen, tous les responsables de traitement ou sous-traitants doivent veiller à préserver la confidentialité des données 25 . Ex. : Une accréditation particulière sera décernée à toutes les personnes susceptibles d’accéder aux données. Garantie d’intégrité et de traçabilité Data integrity and traceability Préciser les précautions prises pour garantir l’intégrité et la traçabilité des données au regard des éventuels risques détectés. Selon la norme ISO 7498-2 (ISO90), l’intégrité est la prévention d’une modification non autorisée de l’information. Précise les outils et précautions mis en œuvre pour suivre la production et l’analyse des données au cours du projet. Ex. : Cahiers de laboratoire 26 , protocoles de recherche, registres de consignation, horodatage des données et résultats, authentification personnelle sur les outils, etc. Accès aux données Access to data Lecture des données* Data reading La lecture des données nécessite-t-elle le recours à un logiciel ou un outil spécifique ? Si oui, lequel ? Garantie de disponibilité des données Data availability La disponibilité est la propriété d’accessibilité au moment voulu des données et des fonctions par les utilisateurs autorisés. Gestion des accès* Access procedures De quelle manière l’ensemble des chercheurs partenaires du projet auront-ils accès aux données pendant la recherche ? Ex. : The data will be processed and managed in a secure non-networked environment using virtual desktop technology. 27 Echanges et partage* Data sharing Les données feront-elles l’objet d’échange ou de partage avec de tiers acteurs ? Ex. : Les données collectées seront partagées avec le Groupe de recherche […] de l’Université X… en charge de la thématique Y. 25 Agence des droits fondamentaux de l’Union Européenne, Manuel de droit européen en matière de protection des données, 2014, p. 101 26 http://www.inpi.fr/fr/vous-etes/laboratoire-ou-chercheur/le-cahier-de-laboratoire.html 27 ICPSR, op. cit. p. 7 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 24 / 30 Nom du champ Descriptif du champ Exemples 4.3 - Métadonnées : documentation et organisation des données / 4.3 - Metadata : documentation and data organization Cette section précise la manière dont seront décrites et organisées les données produites ou reçues au cours du projet. This section details how the data generated or received during the project will be described and organized. Standards et formats disciplinaires des métadonnées* Standards and metadata Citez les standards et formats utilisés. Certaines disciplines s’appuient sur des standards et des formats de métadonnées qui leur sont propres. Ils doivent être utilisés en priorité pour assurer l’interopérabilité des données entre les différents systèmes et les différents utilisateurs. Pour s’informer sur les formats disciplinaires : http://www.dcc.ac.uk/resources/metadata-standards Ex. 1: Metadata will be tagged in XML using the Data Documentation Initiative (DDI) format. The codebook will contain information on study design, sampling methodology, fieldwork, variable-level detail, and all information necessary for a secondary analyst to use the data accurately and effectively. 28 Ex. 2: The clinical data collected from this project will be documented using CDISC metadata standards. 29 Ex. 3 : Ecological Metadata Langages (EML) Ex. 4 : Crystallographic Information Framework (CIF) Mode de production et responsabilité des métadonnées Method of production and metadata responsibility Indiquez par qui les métadonnées seront renseignées, de quelle manière et éventuellement à l’aide de quels outils. Ex.: All datasets will be annotated with metadata. As data are generated they will be entered into Morpho, a free resource for associating Ecological Metadata Language (EML) with archived datasets. It will be the responsibility of each researcher to annotate their data with metadata, and it will be the responsibility of the PIs to check weekly (during the field season, monthly otherwise) with all participants to assure data is being properly processed, documented, and stored. 30 28 ICPSR. Guidelines for Effective Data Management Plans, p. 4 29 ICPSR, op. cit. p. 4 30 UC San Diego. Data management plan d’Elsa Cleland http://idi.ucsd.edu/_files/DMP%20Example%20Cleland.pdf A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 25 / 30 Arborescence de classement Tree classification Prévoyez une arborescence de classement des données dès que possible afin de faciliter l’accès et le stockage au cours du projet, puis à terme l’archivage des données. Ex. : Arborescence en cours de validation. Règles de nommage des jeux de données Rules for naming data sets Précisez les règles de nommage envisagées pour harmoniser le nom des jeux de données. Ex. : sujet_typologie_annee_mois_jour_version Documentation associée Relevant documentation Ce champ vise à recueillir toute autre information nécessaire à l’intelligibilité à long terme des données : codes, abréviations, version des logiciels de lecture, etc. A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 26 / 30 Nom du champ Descriptif du champ Exemples 4.4 - A l’issue du projet – Dissémination / 4.4 - At the end of the project – Dissemination Partage, diffusion et réutilisation des données / Data sharing, diffusion and reuse Cette section précise les modalités et les éventuelles précautions éthiques, juridiques et techniques selon lesquelles seront diffusées les données. This section describes the procedures and specifies any ethical, legal and technical safeguards under which the data will be released. Principe général de diffusion * General principle of diffusion Précise les règles de diffusion qui s’appliquent à la majorité des données produites dans le cadre du projet, selon les droits associés. Ex. 1 : H2020. En vertu de l’article 29.3 des conventions de financement du 8 e PCRD (H2020), la majorité des données et métadonnées nécessaires à la validation des résultats doivent être déposées dans des entrepôts dédiés et placées sous une licence libre autorisant leur exploitation et leur libre réutilisation par une tierce partie. Ex. 2: ERC. “Annex 1 sets out how research data will be handled...”. Type de licence Type of license Précisez les conditions de partage et de réutilisation des données diffusées dans le cadre du projet ainsi que la licence et les éventuelles contreparties économiques qui peuvent y être associées. Ex. 1 : L’ensemble des données diffusées seront placées sous licence libre Etalab. Ex. 2 : Les bases de données seront placées sous licence GNU Potentiel de réutilisation * Potentiel for reuse Public cible envisagé (grand public, communauté scientifique, secteur privé, etc.) et perspectives d’application ou de développement à partir de vos données. Ex. 1 : Les données climatologiques peuvent servir de sources pour des travaux de recherche en histoire ou en géographie. Ex. 2: In addition to the research community, we expect these data will be used by practioners and policymakers. 31 31 ICPSR, op. cit. p. 9 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 27 / 30 Existence de publications associées aux données Existing publications related to the data Ce champ sera à renseigner à la fin du projet. Oui/non Dépôt et dissémination des données* Data repository and access Existe-t-il une base de données disciplinaire en ligne dans laquelle ces données pourraient être déposées ? Sinon, dans le cadre d’Horizon 2020, le dépôt de données peut se faire dans Zenodo 32 . Ex. 1 : Les données de recherche issues de ce projet seront déposées dans Zenodo afin d’assurer leur accès à long terme par la communauté scientifique. Ex. 2: The project team will create a dedicated Web site to manage and distribute the data because the audience for the data is small and has a tradition of interacting as a community. The site will be established using a content management system like Drupal or Joomla so that data users can participate in adding site content over time, making the site self- sustaining. The site will be available at a .org location. 33 Protection des données sensibles / Protection of sensitive data Pour diverses raisons éthiques, juridiques, financières ou encore techniques, certaines données peuvent nécessiter une protection spécifique et à ce titre échapper aux principes de diffusion. Cette section a donc pour but d’identifier et de définir les critères de protection des données sensibles susceptibles d’être produites ou collectées dans le cadre du projet. For a variety of ethical, legal, financial or technical reasons, data may require specific protection and as such, escape the rules of distribution. This section identifies and defines criteria for protection of sensitive data that can be produced or collected as part of the project. Identification des jeux de données sensibles Identification of sensitive data sets Ce champ répertorie les jeux de données susceptibles d’échapper au principe de diffusion : données scientifiques protégées ou à risque, données de gestion, données nominatives, données stratégiques… Ex.: This project will generate data designed to study the prevalence and correlates of DSM III-R psychiatric disorders and patterns and correlates of service utilization for these disorders in a nationally representative sample of over 8000 respondents. The sensitive nature of these data 32 http://zenodo.org/ 33 ICPSR, op. cit. p. 3 A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 28 / 30 will require that the data be released through a restricted use contract. 34 Justification du principe d’exception aux conditions générales de diffusion* Justification for the exception to the general principles of diffusion Ce champ détaille la nature du risque ou de la contrainte pesant sur les données susceptibles de justifier l’exception au principe de diffusion. Le risque peut être de nature variée : exposition de ressources rares (biodiversité, archéologie, etc.), risque industriel, respect de la vie privée, priorité d’exploitation, etc. Ex. 1 : Données à caractère personnel. 35 Ex. 2 : Secret défense (Cf. instruction et recommandations ministérielles du SGDN). Ex. 3 : Demande de brevet en cours. Mesures de protection Precautionary mesures Ce champ détaille la façon dont la protection sera mise en œuvre. Ex. : Les données à caractère personnel seront anonymisées avant partage et diffusion selon les recommandations de la CNIL. Embargo* Embargo period L’embargo est une protection temporaire qui permet de remettre à une certaine date la libre diffusion et/ou la réutilisation des données. L’embargo ne nécessite pas d’autorisation autre que celle du propriétaire. Les conditions de secret ou de discrétion au cours d’une période d’embargo sont moindres qu’une mesure de confidentialité. Ex. 1 : Les données seront diffusées après une période d’embargo de 6 mois. Ex. 2 : Les données astronomiques sont destinées à être diffusées mais bénéficient d’une durée d’embargo d’un an pour priorité d’exploitation. 34 ICPSR, op. cit. p. 2 35 Les traitements de données à caractère personnel doivent faire préalablement l'objet d'une déclaration à la Commission nationale informatique et libertés (CNIL). http://www.cnil.fr/vos- obligations/declarer-a-la-cnil/ A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 29 / 30 Nom du champ Descriptif du champ Exemples 5 - Sélection et archivage des données / 5 - Data selection and long term preservation Cette section concerne l’ensemble des données produites ou collectées au cours du projet, qu’elles aient été diffusées ou non. Il est fortement recommandé de prendre contact avec l‘archiviste de votre établissement lors de la rédaction de cette section. This section applies to all data generated or collected during the project, whether distributed or not. It is strongly recommended to contact the archivist of your establishment to draft this section. Sort des données à l’issue du projet Fate of data at the end of the project Indique le devenir des données au terme de la phase active du projet et de la dissémination et valorisation des résultats. Ex. : A l’issue du projet, les données à caractère personnel seront détruites conformément aux recommandations de la CNIL. Un échantillon sera archivé pour mémoire. Les autres données seront archivées sur une plateforme d’archivage pérenne. Une copie sera conservée sur un disque dur par le responsable du projet. Sélection des données* Data selection Les données n’ont pas toutes vocations à être archivées sur le long terme, néanmoins le visa de l’archiviste est recommandé avant toute opération de destruction massive de données. Indiquez les jeux de données qui auront vocation à être conservés à moyen ou long terme en raison de leur valeur scientifique, juridique, ou patrimoniale. En cas de doute, prenez contact avec l’archiviste de votre structure. Ex. 1 : Les données climatiques ne sont pas reproductibles et ont un intérêt à être conservées. Ex. 2 : Les données astronomiques ont vocation à être conservées car leur coût de production est extrêmement élevé. Volume final des données* Final volume of data Indiquer le volume final estimé. Ex. : Elles représentent [n] Giga-octets. Durées de conservation préconisée* Recommended lifetime Cette durée varie fortement. Elle peut aller de quelques mois à l’éternité. Les durées de conservation doivent prendre en compte les exigences légales et réglementaires existantes. Ex. : décret 2006-6 du 4 janvier 2006 fixant la conservation des données de patients à 20 ans minimum. A.CARTIER, M.MOYSAN, N.REYMONET. Réaliser un plan de gestion de données : guide de rédaction (V1, 09/01/2015) 30 / 30 Plateforme d’archivage* Long term preservation plateform Sur quelle plateforme d’archivage pérenne ces données seront-elles archivées à long terme ? Les plateformes d’archivage électronique doivent être agréées par le Ministère de la Culture. Certaines universités disposent de conventions avec des plateformes : contactez le service d’archives de votre institution. Ex. : les données seront archivées dans le centre informatique [X].