FOIRE AUX QUESTIONS

Dernière mise à jour : 12/03/2024

Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.

DORANUM

  • Oui, toutes les ressources sont sous la licence Etalab ou Creative Commons et sont librement réutilisables. Vous pouvez les télécharger, les intégrer sur votre site, les modifier pour les adapter à vos propres ressources. Vous pouvez aussi imprimer des fiches synthétiques et autres supports pour vos formations présentielles.

  • Nous proposons des formations en présentiel à la demande.
    Nous organisons régulièrement des webinaires de présentation de DoRANum. Le calendrier est annoncé dans les actualités du site et sur le site de l’Inist-CNRS.

  • Oui, nous pouvons contribuer à la réalisation de vos ressources de formation sur les données de la recherche. Précisez-nous votre demande via notre formulaire de contact.

  • Nous vous encourageons à contribuer à l’activité de DoRANum !

    Votre avis compte

    N’hésitez pas à nous laisser vos retours sur nos ressources (commentaires, évaluations), cela nous permettra de les améliorer. Toutes les remarques et suggestions sont les bienvenues.

    Réutilisez et partagez

    Réutilisez les ressources, en les intégrant sur votre site, en distribuant les imprimés lors de vos formations, en mixant nos contenus avec vos propres ressources… et partagez-les sur les réseaux sociaux si vous le souhaitez !

    Partenariat

    Nous pouvons collaborer sur un projet de formation autour des données de la recherche : création de nouvelles ressources pour des formations en présentiel ou distanciel, intégration des ressources DoRANum dans votre dispositif de formation.

  • DoRANum est une plateforme ouverte qu’il est tout à fait possible d’utiliser librement partout dans le monde (les ressources sont en français uniquement).

  • Il n’y a pas de possibilité d’abonnement aux actualités. Il faut se rendre directement sur la page des actualités pour les consulter : https://doranum.fr/actualites/

  • Non, il n’y a pas de contenu en langue anglaise.
    Cependant, l’une des ressources (Parcours interactif sur la gestion des données de la recherche) a été traduite en anglais pour la réalisation d’un MOOC dans le cadre du projet Oberred (Basics of managing and sharing research data). Il suffit de s’inscrire au MOOC pour y accéder.

ENJEUX & BÉNÉFICES

  • Depuis 2016, si la production des données est effectuée dans le cadre d’une recherche financée majoritairement par des fonds publics (les salaires des enseignants-chercheurs étant comptabilisés dans le calcul), alors ces données doivent être partagées et librement consultables. Cependant, il est nécessaire de tenir compte des spécificités juridiques du corpus, de la nature des données… pour déterminer les modalités de leur diffusion. L’ouverture des données repose sur un principe central : elles doivent être « aussi ouvertes que possible, aussi fermées que nécessaire ».

    Vous pouvez être obligé de partager vos données de recherche dans certains cas :

    • pour l’obtention de financement de projets, à l’image des projets issus du programme Horizon Europe ;
    • pour la publication d’articles, à l’image de la revue PLOS ONE qui recommande, voire exige, l’accès aux données sous-jacentes des résultats rapportés dans l’article soumis.

    Les Plans nationaux pour la science ouverte, visent à « rendre obligatoire la diffusion ouverte des données de recherches issues de programmes financés par appels à projets sur fonds publics ».

    Un chercheur ne peut refuser de partager ses données achevées, sauf dans le cadre d’un certain nombre d’exceptions légales telles que : la protection des données personnelles et de santé, le secret défense, la sûreté de l’État ou encore le secret des affaires, entre autres.

    Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/

  • Il n’existe pas d’obligation clairement édictée dans la loi, imposant aux doctorants non financés de partager leurs données. Cependant, de par leurs activités de recherche ainsi que leur appartenance à un établissement d’enseignement supérieur (public ou privé) et à un laboratoire, ceux-ci concourent à la recherche publique. Or, comme l’indique le Code de la Recherche, cette dernière a pour objectif « Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d’accès » et « L’organisation de l’accès libre aux données scientifiques » (article 112-1). En conséquence, les doctorants non financés sont aussi concernés par l’ouverture et le partage de leurs données. De plus, certaines universités (comme Paris-Saclay par exemple) incluent dans leur « Charte du doctorat » une clause concernant la science ouverte, engageant l’ensemble de leurs doctorants à déposer leurs productions dans une archive ouverte et à produire des données FAIR.

    Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/

  • Non, certaines données sont soumises à des exceptions définies par la loi, comme des données relevant du secret professionnel, des données personnelles ou encore protégées par le droit d’auteur.

  • La première personne susceptible de réutiliser les données, c’est vous ! Chaque donnée ayant servi à un travail de recherche est unique et pourra être citée et réutilisée.

    Cependant, tout ne doit pas forcément être sauvegardé. Un tri préalable et une éventuelle destruction doivent être réalisés car toutes les données produites au cours d’un projet n’ont pas vertu à être conservées de façon pérenne.

    La préservation des données est nécessaire dans de nombreuses disciplines. Leur diffusion peut permettre de faire émerger des pistes de recherche. Par ailleurs, une réutilisation partielle ou totale d’un jeu de données peut éclairer des recherches appartenant à d’autres disciplines.

    Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/

  • Il n’y a pas de règles, le mieux est d’ouvrir les données le plus tôt possible. Les données sont souvent publiées au moment de la publication des résultats. Un embargo peut aussi être appliqué afin de permettre un délai d’exploitation des données.

  • Il n’y a pas de règles, seul le chercheur est en mesure d’évaluer la valeur potentielle des données et de décider quelles données doivent être conservées au-delà du projet et pour combien de temps.

  • Il s’agit des « […] données de la recherche nécessaires à la validation des résultats présentés dans les publications scientifiques […] ».
    Source : « Lignes directrices pour le libre accès aux publications scientifiques et aux données de la recherche dans Horizon 2020 » de la Commission européenne. (Titre original : Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 , Version 2.0, 30 October 2015, European Commission, Directorate General for Research and Innovation © Union européenne, 1995-2015).

    Pour en savoir plus, consulter le guide pour les chercheurs “Partager les données liées aux publications scientifiques

  • Il n’y a pas de recommandations du CNRS concernant les embargos sur les jeux de données

  • Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • « Tout ce qui se rapporte au contrôle qualité, c’est tout ce qui environne et permet de montrer la rigueur des méthodes et la qualité des données (Ex : processus de calibration, mesures répétées, contrôles standards positifs/négatifs, contrôle des données en double aveugle ou par évaluateur externe, etc.) ».

    Source : CoopIST Cirad – https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-pgd/6-garantir-la-comprehension-et-l-accessibilite-des-donnees

    La personne qui doit s’en charger : cela dépend du projet, du nombre de personnes dans le projet, comment vous vous répartissez les tâches, c’est du sur mesure.

  • Cette notion d’open data participe d’un mouvement qui considère l’information publique (y compris non scientifique) comme un bien commun dont la diffusion est d’intérêt public et général. Elle milite pour la mise à disposition en priorité des données produites par le secteur public (administration, établissements publics…), mais aussi des données d’origine privée (notamment d’organisations à but non lucratif comme Wikipédia).

    L’open data s’inscrit dans une démarche plus vaste de transparence et de participation des citoyens initiée par de nombreux gouvernements dont le gouvernement français.

    Le gouvernement français s’est efforcé d’encourager la mise à disposition de tous les documents et toutes les données publiques, non seulement dans une approche éthique de renforcement de la transparence de la politique, mais aussi dans une démarche économique cherchant à favoriser la création de richesses par une réappropriation par le secteur privé (entre autre).

    En savoir plus : https://doranum.fr/aspects-juridiques-ethiques/lois-pour-open-data_10_13143_k917-g053/

  • Chaque organisme fixe les règles selon lesquelles il exige ou non la mise à disposition des données générées grâce à ses financements (sachant qu’il existe souvent des possibilités de déroger à ces obligations de principe, pour respecter un cadre juridique particulier notamment).
    La plupart du temps, le seuil de financement au-dessus duquel les bailleurs de fonds imposent leurs conditions est de 50%.

ASPECTS JURIDIQUES, ÉTHIQUES, INTEGRITE SCIENTIFIQUE

  • Pour les agents CNRS, il faut s’adresser à sa délégation régionale, notamment au service « Partenariat et Valorisation » ou au service juridique s’il en existe un. Ce type de services existe également dans les universités.

  • Du fait que ce sont des données publiques elles sont effectivement directement diffusables, notamment si elles ont un intérêt environnemental, social, économique. Cependant, leur diffusion ne doit pas porter atteinte aux intérêts protégés par les articles L311-5 et L311-6 du Code des relations entre le public et les administrations : https://doranum.fr/wp-content/uploads/DoRANum_obligations_donnees_interet.pdf
    Ceci est indépendant du droit d’auteur. Cela dépend du type de données. Si vous diffusez par exemple des données brutes, issues de mesures, il n’y a pas vraiment d’auteur derrière. Elles appartiennent à l’établissement.
    «Il n’y a pas un droit d’auteur sur toutes les données. Il y a un droit d’auteur sur certaines données quand il s’agit d’œuvre de l’esprit au sens du code de la propriété intellectuelle et de sa branche sur le droit d’auteur. Celles qui ne sont pas des œuvres de l’esprit, sont des informations publiques. Le critère est l’originalité. Exemple : pour les images captées plus ou moins automatiquement, il n’y a pas d’originalité » (« Existe-t-il un droit d’auteur sur les données de recherche ? » –  https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/9hSmuqtQsI9h8HbuZ7KHg8tperjEEAlz )

    En complément, voici une autre ressource dans DoRANum : Les données de la recherche et les codes sources obligatoirement diffusables

  • Pour savoir si vous pouvez partager librement des données dont vous n’êtes pas l’auteur, il faut déterminer si elles sont communicables et diffusables. Afin de vous aider dans cette tâche, vous pouvez vous appuyer sur  l’outil d’analyse des données. Cet outil vous permettra d’analyser leur nature juridique et éthique.

    Si l’auteur a attribué une licence à ses données, celle-ci vous engage à respecter l’intégrité de ses données, à faire mention de la source des données et à indiquer la date de la dernière mise à jour.

  • Il vaut mieux ne pas parler de « propriété des données » à propos des données de recherche. La loi République numérique de 2016 a en effet instauré un principe d’ouverture par défaut des données, ce qui rend la notion de propriété globalement peu pertinente.

    La première étape consiste à identifier précisément ce que l’on appelle « données », car ce terme peut recouvrir des réalités très différentes.

    SI les « données » correspondent à des œuvres de l’esprit (c’est-à-dire des créations originales : textes, photos, interviews, etc.), alors elles sont couvertes par un droit d’auteur qui appartient aux chercheurs (si ce sont eux qui ont créé les contenus) ou à des tiers. La diffusion n’est alors possible qu’avec l’accord de ces chercheurs (ou des tiers en question).

    Si les « données » ne sont pas des œuvres de l’esprit, il s’agira alors vraisemblablement d’informations publiques (tableaux de chiffres, mesures, statistiques, etc.). Dans ce cas, les établissements de tutelle seront considérés comme les « producteurs » de ces informations (et non les chercheurs). Mais cela ne signifie pas pour autant que les établissements en sont « propriétaires ». D’après la loi pour une République numérique, les établissements ont en effet l’obligation de rendre ces données librement accessibles et réutilisables.

    Dans le cadre d’un projet ANR impliquant plusieurs partenaires, il vaut mieux en effet conclure un accord de consortium pour déterminer le statut des données produites et la répartition des responsabilités. Ce genre de questions doit normalement être analysés dans un Plan de Gestion de Données (Data Management Plan) dont l’ANR demande la production aux lauréats de ces appels depuis 2019.

    Pour résumer, soit les données sont des œuvres et les chercheurs gardent leurs droits dessus ; soit les données sont des informations publiques et la responsabilité passe aux établissements qui sont obligés de procéder à une libre diffusion.

  • Vous pouvez consulter les ressources DoRANum de la rubrique “pour aller plus loin” : https://doranum.fr/aspects-juridiques-ethiques/
    En fonction de vos thématiques de recherche, vous trouverez peut-être réponse à vos interrogations, en particulier dans cette vidéo :
    Webinaire “A qui appartiennent les données : https://doranum.fr/aspects-juridiques-ethiques/webinaire-des-tutoamate_10_13143_mna5-ys10/
    Autre ressource : Logigramme – Questions juridiques liées à la diffusion des données : https://hal-pasteur.archives-ouvertes.fr/pasteur-03587216/document
    En complément, concernant plus spécifiquement votre question, il pourra être judicieux de consulter un juriste.

    • Les données produites dans le cadre d’un projet de recherche appartiennent respectivement aux établissements dans lesquelles ces données sont produites. L’idéal est de le préciser dans l’accord de consortium. Si c’est trop tard il est en effet possible de faire une convention, mais cela ne paraît pas vraiment nécessaire. Nous vous conseillons de vous faire aider par un service d’appui juridique ou un service partenariat et valorisation pour ces questions.

    Complément d’information : https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/1rGzHw8YwCjkuU-HWxxebP6qiWVRpCPf

  • C’est dans le contrat de consortium qu’on décide de ces questions de paternité, puis de partage, ouverture. Le DMP n’apporte pas de garanties.

  • Il vaut mieux demander l’autorisation à sa hiérarchie afin d’être sûr d’être couvert juridiquement.
    Pour les données de recherche en cours de projet (la collecte des données est en cours, les chercheurs travaillent dessus …), les données ne sont pas achevées mais la loi ne dit pas quand elles pourront être transmises. Pour des informations plus détaillées : « Données ouvertes = données achevées ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/3QHTAeHBiLVfSH_K20Gqb5es6oIPxxTL et « Y-a-t-il un délai de mise à disposition des données ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/KNZXnU81cxTlVMIRmxe9Cx__PLF5r8xQ
    Les données numériques brutes sont des informations, il n’y a pas d’originalité, donc il ne s’agit pas d’œuvre au sens du droit d’auteur. Si ces informations sont rassemblées, elles constituent une base de données et sont soumises à l’ouverture par défaut.

    Ressource complémentaire : « Qui a la propriété intellectuelle de données numériques brutes ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/3ndeoH13D4ARGn6Cz-1Jgz2oGxTWWq6g

  • Il est possible de se référer à ces pages ou documents :

    Dans tous les cas, les personnes les plus à même de répondre sont les juristes qui aideront à rédiger un contrat de collaboration et/ou un accord de consortium si besoin (dans le cas d’un projet financé par l’ANR par exemple).

  • Les données brutes sont des données publiques lorsqu’elles ont été produites dans le cadre d’une administration de tutelle publique ou lorsqu’elles sont soumises à une obligation de diffusion par le financeur). Il ne s’agit pas d’un droit de propriété. “Les données publiques, par défaut, doivent être diffusées et rendues réutilisables” (Loi pour une République numérique). Attention cependant aux exceptions : photos (si ce sont des œuvres originales) et aux données personnelles (qui requièrent le consentement des personnes et doivent être anonymisées pour être diffusées). Dans le cas de partenariats, un accord de consortium doit répartir les droits et responsabilités sur les données.
    Source : Interview de Lionel Maurel – https://doranum.fr/aspects-juridiques-ethiques/questions-juridiques-liees-aux-donnees-de-la-recherche/

  • Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Si les données que vous décrivez dans votre PGD vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Non ce n’est pas le rôle du PGD, c’est plutôt celui du cahier de laboratoire.

  • Non, le PGD n’a aucune valeur juridique.

  • Il y a deux cas possibles :
    – Si vous partagez des jeux de données publiques, vous devez utiliser la licence Etalab, compatible avec la CC-By 2.0. La paternité des données devra être mentionnée en cas de réutilisation des données.
    – Dans tous les autres cas, vous pouvez utiliser des licences Creative Commons, en fonction du type de données. Dans la pratique, dans le monde de la recherche notamment, les licences Creative Commons sont largement utilisées du fait qu’elles sont internationales.
    Pour en savoir plus : https://doranum.fr/aspects-juridiques-ethiques/questions-juridiques-liees-aux-donnees-de-la-recherche/

  • Dans un premier temps, les données protégées et sensibles doivent être sauvegardées dans un espace collaboratif sécurisé, avec accès limité aux partenaires du projet.

    • Dans le cas de données personnelles, si vous souhaitez les partager, il faudra les anonymiser avant le partage.
    • Pour les données protégées ou sensibles, cela dépend du type de données. Il est possible de partager dans un premier temps uniquement les métadonnées et indiquer que les données sont placées sous embargo en attendant la publication d’un brevet ou d’une publication (par exemple dans le cas de partenaires industriels).
    • Dans le cas de données confidentielles, vous n’aurez probablement pas la possibilité de les partager.Dans le cas de partenariats, il faudra indiquer dans le DMP quels sont les conditions de l’accord de Consortium en ce qui concerne la réutilisation des données.
  • Il est tout à fait possible de partager des données au cours de la réalisation d’un projet (sauf cadre juridique spécifique, comme le secret industriel ou le droit des données personnelles). Dans la plupart des cas, les financeurs n’exigent la mise à disposition des données qu’au moment de la publication des résultats scientifiques générées par le projet.
    À noter que l’obligation juridique d’ouverture des données publiques ne concerne que des documents “achevés”. Par conséquent, les documents et données préparatoires ne sont pas communicables. On peut en déduire que les cahiers de laboratoire sont également exclus de la réglementation sur l’ouverture des données (mais leur ouverture volontaire reste possible, et est même encouragée).
    Seule exception : les données relatives à l’émission de polluants dans l’air doivent être communiquées à toute personne qui en ferait la demande, même si le document administratif dans lequel elles figurent n’est pas achevé (Wikipédia. Convention d’Aarhus. 9 juillet 2022. https://fr.wikipedia.org/wiki/Convention_d%27Aarhus)

  • Ces deux notions ne sont pas du tout antagonistes.

    En droit français, le droit d’être reconnu comme auteur d’une œuvre de l’esprit est absolument inaliénable. Même l’auteur lui-même ne peut pas renoncer à sa paternité sur son œuvre. Diffuser des œuvres en libre accès ne remet pas en cause ce droit.
    Il faut en revanche prendre garde à cette notion d’œuvre de l’esprit, qui ne concerne pas forcément toutes les productions d’un chercheur au cours de ses travaux. S’il veut exercer des droits d’auteur sur ses données, notamment, il doit être en mesure de prouver que les données en question sont originales et portent l’empreinte de sa personnalité.

    En savoir plus sur le droit d’auteur : https://doranum.fr/aspects-juridiques-ethiques/droit-auteur-les-droits-d-exploitation-des-oeuvres_10_13143_hpv3-tz30/

  • En tant qu’œuvre de l’esprit et par défaut, le PGD est toujours la propriété intellectuelle de son auteur ou de ses auteurs.
    Dans la pratique, la plupart des auteurs de PGD acceptent que tout ou partie de texte de leurs plans soit réutilisé et personnalisé si nécessaire pour un autre plan, sans qu’il soit nécessaire de citer le(s) créateur(s) en tant que source.

  • Il est très important d’aborder dans le PGD les aspects de la gestion des données qui auront trait à une éventuelle confidentialité. Cela permet justement d’anticiper tous les problèmes susceptibles d’en découler.
    Il est tout à fait possible que le PGD lui-même soit tenu confidentiel, y compris à l’issue du projet.

  • Rapprochez-vous du Délégué à la Protection des Données de votre établissement de rattachement.

    Piste bibliographique : Réseau Sup DPO. Quinze recommandations aux chercheurs sur la protection des données dans le cadre de leurs activités de recherche. 16 janvier 2020. https://supdpo.fr/wp-content/uploads/2020/01/SupDPO-Recommandations-chercheurs-v1.pdf

  • Il existe plusieurs types de licences pour les logiciels open source, qui peuvent être plus ou moins restrictives.
    Par exemple :

    • La licence Apache autorise la modification et la distribution du code sous toute forme (libre ou propriétaire, gratuite ou commerciale), mais oblige le maintien du copyright lors de toute modification (et également du texte de la licence elle-même)
    • La licence BSD est l’une des moins restrictives dans le monde informatique et s’approche de la notion de « domaine public »
    • La licence GPL est également un peu contraignante puisqu’elle impose de redistribuer tout le programme avec ses sources complètes sous cette même licence dès lors qu’une partie du code utilisé est issu d’un programme sous licence GPL.
  • Pour tout questionnement sur ce sujet, rapprochez-vous du comité d’éthique de votre établissement.
    Si vous faites de la recherche clinique, vous aurez aussi besoin de prendre contact avec le Comité de protection des personnes de votre zone géographique.
    Pour des questions plus vastes, prenez contact avec le référent intégrité scientifique de votre établissement.

  • Il s’agit des « données à caractère personnel qui font apparaître, directement ou indirectement, les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses ou l’appartenance syndicale des personnes ou sont relatives à la santé ou à la vie sexuelle de celles-ci. »

    Dans le PGD, vous pouvez signaler que vous disposez d’un jeu de données sensibles et indiquer où elles seront déposées. Dans l’entrepôt vous pourrez choisir pour vos données un accès fermé ou restreint.

  • Vous devez vous rapprocher du service juridique de votre institution de rattachement. Vous pouvez aussi consulter cette liste : https://www.data.gouv.fr/fr/datasets/organismes-ayant-designe-un-e-delegue-e-a-la-protection-des-donnees-dpd-dpo/

  • Il n’y a pas de récupération possible d’informations entre le PAI et le PGD dans DMP OPIDoR. Cependant, il est possible de lister des documents associés au plan, dont le PAI.

    ” Une analyse d’impact relative à la protection des données (AIPD) est un outil important pour la responsabilisation des organismes : elle les aide non seulement à construire des traitements de données respectueux de la vie privée, mais aussi à démontrer leur conformité au Règlement général sur la protection des données (RGPD). Elle est obligatoire pour les traitements susceptibles d’engendrer des risques élevés.
    L’AIPD se décompose en trois parties :
    • Une description détaillée du traitement mis en œuvre, comprenant les aspects techniques et opérationnels ;
    • L’évaluation, de nature plus juridique, de la nécessité et de la proportionnalité concernant les principes et droits fondamentaux (finalité, données et durées de conservation, information et droits des personnes, etc.) non négociables, qui sont fixés par la loi et doivent être respectés, quels que soient les risques ;
    • L’étude, de nature plus technique, des risques sur la sécurité des données (confidentialité, intégrité et disponibilité) ainsi que leurs impacts potentiels sur la vie privée, qui permet de déterminer les mesures techniques et organisationnelles nécessaires pour protéger les données. ”
    CNIL, Commission Nationale de l’Informatique et des Libertés. Ce qu’il faut savoir sur l’analyse d’impact relative à la protection des données (AIPD). 22 octobre 2019. https://www.cnil.fr/fr/ce-quil-faut-savoir-sur-lanalyse-dimpact-relative-la-protection-des-donnees-aipd

    ” Le logiciel open source PIA facilite la conduite et la formalisation d’analyses d’impact relatives à la protection des données (AIPD) telles que prévues par le RGPD.
    Le logiciel PIA s’inscrit dans une démarche d’accompagnement des responsables de traitement dans la mise en œuvre des obligations du RGPD. Disponible en 20 langues, il facilite et accompagne la conduite d’une AIPD, qui est obligatoire pour certains traitements. Cet outil vise aussi à faciliter l’appropriation des guides AIPD de la CNIL. ”
    CNIL, Commission Nationale de l’Informatique et des Libertés. Outil PIA : téléchargez et installez le logiciel de la CNIL. 9 novembre 2017. https://www.cnil.fr/fr/outil-pia-telechargez-et-installez-le-logiciel-de-la-cnil

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Généralités

  • La Commission européenne se prononce depuis longtemps en faveur du libre accès à la connaissance scientifique, mais elle ne peut qu’inciter les États membres de l’UE à adopter des politiques nationales, sans pouvoir imposer quoi que ce soit.
    Le Plan national pour la science ouverte en France est largement inspiré des recommandations formulées par la Commission européenne. La France est un des pays les plus avancés en termes de politique nationale sur la science ouverte, notamment grâce à la Loi pour une République numérique de 2016.
    La Coalition de l’édition savante et des ressources académiques (« Scholarly Publishing and Academic Resources Coalition », abrégé en SPARC) publie régulièrement des états des lieux des politiques nationales en Europe :

    À noter que la Commission européenne est également financeur de la recherche : à ce titre, elle est en mesure d’imposer la rédaction d’un PGD aux porteurs de projets de recherche qui acceptent de bénéficier de ses subventions (accord contractuel).
    Il en va de même pour les organismes de recherche membres de la Coalition S, qui imposent eux aussi l’ouverture des publications et données issues des projets qu’ils financent par le biais d’accords contractuels (Rentier Bernard. Mais quel est donc le statut du Plan S ? 7 janvier 2019. https://bernardrentier.wordpress.com/2019/01/06/mais-quel-est-donc-le-statut-du-plan-s/)

  • Au départ, il s’agit d’une exigence de la Commission européenne dans le cadre d’Horizon 2020 (décembre 2013).
    Le Ministère de l’Enseignement Supérieur et de la Recherche a suivi quelques années plus tard comme indiqué dans le texte du Deuxième Plan national pour la science ouverte (juillet 2021) :
    “ L’Agence nationale de la recherche et d’autres agences de financement demandent désormais l’accès ouvert aux publications et la rédaction de plans de gestion des données pour les projets qu’elles financent.”
    Le PGD est une obligation contractuelle dans le cadre de contrats signés par plusieurs parties, la plupart du temps un financeur de la recherche et un ou plusieurs chercheurs / laboratoires.

  • La rédaction d’un PGD est exigée pour les projets financés par l’État et la Commission européenne. Quand il n’y a pas obligation, il y a souvent une forte recommandation. Le plan de gestion de données devient incontournable pour bien gérer vos données. Au-delà de l’obligation, il faut envisager le PGD comme un outil de gestion qui facilite votre travail et permet de bien envisager tous les aspects, démarches, budgets etc.
    Voir aussi la ressource DoRANum sur les exigences des financeurs :
    https://doranum.fr/enjeux-benefices/les-exigences-des-financeurs_10_13143_37ss-m608/

  • Chaque institution (établissements d’enseignement supérieur et recherche ou financeur de la recherche) est libre de fixer ses propres règles en termes de PGD (calendrier, proportion de financement à partir de laquelle le PGD est obligatoire, etc.).
    Certains établissements encouragent fortement leurs chercheurs à rédiger des PGD, leur mettent à disposition des modèles, mais n’ont pas d’exigence particulière de calendrier ou autre.
    Les financeurs de la recherche (ex.: ANR, Commission européenne…) exigent la plupart du temps :

    • une première version du PGD 6 mois après l’acceptation du projet
    • une version finale à la fin du projet
    • quand le projet dure un peu plus longtemps, il peut y avoir un jalon intermédiaire (2e version du PGD en milieu de projet)

    Généralement, les institutions exigent la rédaction d’un PGD quand ils assurent 50% minimum du financement du projet.

  • On peut citer les enjeux suivants :

    • Harmonisation des pratiques de gestion entre plusieurs partenaires
    • Aide à la planification d’un projet
    • Compréhension et FAIRisation des données générées par un projet
    • Réponse à une demande institutionnelle ou d’un financeur
    • Retour sur investissement dans le potentiel de réutilisation des données.
  • Tout chercheur qui s’investit dans un projet de recherche est à même de mettre en place un PGD ou d’en faire la suggestion à son équipe.
    Mais la rédaction d’un tel document peut aussi être imposée par un bailleur de fonds, ou plus rarement par un organisme de tutelle.

  • Le PGD en tant que document unique et structuré est plutôt utilisé par des organismes publics qui :

    • travaillent davantage en collaboration (ont besoin de documents de référence pour organiser leur travail) ;
    • ont davantage recours à des financements externes qui exigent d’eux la rédaction de ce type de documents.

    Mais les entreprises mettent assez fréquemment en place des documents assimilables à des rubriques de PGD : chartes de nommage, chartes de contrôle qualité des données, consignes de stockage/sauvegarde, etc.

  • Non le DMP n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.

  • Le PGD doit être initié quand le projet est accepté. Le DMP n’est pas demandé au dépôt du dossier. Il n’empêche que vous pouvez en amont du projet déjà réfléchir à la gestion de vos données.

  • Il faut considérer le DMP comme un réel outil de gestion de projet. C’est vraiment un guide qui permet d’anticiper la gestion des données aussi bien avec votre équipe qu’avec d’éventuels partenaires. Il peut aussi permettre de mieux argumenter une demande de subvention. Plus vous le commencez tôt,  mieux c’est !

  • L’ANR détaille ses procédures pour les PRCI avec la DFG ici : https://anr.fr/fileadmin/aap/2022/aapg-2022-ANR-DFG.pdf
    Pour 2022, c’est la DFG qui réalisera seule la sélection. Comme c’est indiqué sur cette page, l’ANR ne demande pas de plan de gestion de données au moment du dépôt d’une demande de PRCI et la DFG non plus. Pour autant, il est important de faire figurer dans le formulaire de candidature que les données seront gérées correctement et de montrer dans son dossier que le projet prend en compte ces enjeux. Les directives de la DFG pour la soumission de propositions de projet (allemand) stipulent que les propositions de projet soumises à la DFG doivent inclure une section sur le traitement des données de recherche. Cette section doit comprendre des informations sur le type, l’étendue et la documentation des données ainsi que sur le stockage prévu et les possibilités d’utilisation ultérieure. Il n’est actuellement pas nécessaire de mettre à jour ces informations au cours du projet.

    Tout est détaillé sur cette page : https://www.dfg.de/en/research_funding/principles_dfg_funding/research_data/research_funding/index.html

  • Il est effectivement conseillé de rédiger un plan de gestion des données. La plupart des organismes de financement européens le demandent. Dans le cas de projets Horizon 2020 ou Horizon Europe, le DMP est obligatoire. Ce n’est pas forcément compliqué à mettre en place. Toutes les questions que vous allez vous poser lors de la rédaction du DMP vont contribuer à une meilleure gestion, aussi bien du projet que des données, en amont et tout au long du projet.

  • Un PGD global suffit. Il peut être plus ou moins détaillé en fonction de l’ampleur du projet. Voici un exemple :
    https://www.cde4peace.eu/wp-content/uploads/sites/41/2020/11/CDE4Peace-D1.2-Data-Management-Plan.pdf

  • En dehors du cadre d’un projet financé, vous pouvez mettre en place un DMP dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.

  • Il ne semble pas nécessaire de rédiger un DMP dans ce cas.
    Pour plus de précisions, vous pouvez contacter l’ANR : scienceouverte@agencerecherche.fr

  • Le DMP doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.

  • Non ce n’est pas possible. Il faudra faire 2 DMP. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.
    Il faut rédiger un DMP pour chaque projet.

  • Si votre nouveau projet est financé, il vous sera demandé un nouveau DMP. Si besoin et si vous avez gardé votre ancien DMP, vous pourrez récupérer les informations et les recopier.

    • 1er cas de figure : les financeurs demandent de rédiger un plan de gestion pour chacun de vos projets de recherche.
    • 2ème cas de figure : il est tout à fait possible de rédiger un PGD hors projet, pour gérer plus efficacement les données au niveau d’un laboratoire. Le modèle de DMP “de structure” est bien adapté dans ce cas.
      Exemples de modèles de PGD de structure disponibles dans DMP OPIDoR :
      Celui proposé par l’INRAE
      Celui proposé par AgroParisTech
  • Le PGD peut être modifié à tout moment au cours d’un projet de recherche. Idéalement, dès qu’un élément de réponse change, il faut consigner cette modification dans le PGD.

    Exemples :

    • Nouveau jeu de données
    • Modification du volume estimé
    • Changement du logiciel utilisé pour le traitement des données
    • Changements de personnels
    • Avancée des réflexions sur le choix d’un standard de métadonnées
    • Avancée des réflexions sur le choix d’un entrepôt ou d’une plateforme d’archivage pérenne
    • Recommandations d’un juriste ou d’un comité d’éthique
    • Informations sur les coûts
    • etc.
  • Le DMP doit normalement être initié très tôt, dès le début du projet. Rédiger un DMP en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.

  • Vous pouvez rédiger votre DMP en français, il n’y a pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.

  • Dans la mesure où le DMP est un livrable exigé le plus souvent par le financeur, il est plus judicieux de rédiger votre DMP en anglais directement. DMP OPIDoR est disponible en anglais et en français. De nombreux modèles sont disponibles dans les deux langues.

  • Le DMP sera surtout lu par les collaborateurs, les chargés de projets scientifiques et les gestionnaires.
    Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
    Il faut bien comprendre que le DMP est avant tout un outil de réflexion et de gestion de projet, utile pour mettre en œuvre des bonnes pratiques de gestion des données de recherche.

  • Le PGD est à fournir maximum 6 mois après l’acceptation du projet et de son financement. La commission examine le projet et s’assure ensuite que les différentes versions du PGD sont bien rendues. L’ANR se réserve par exemple le droit de suspendre le versement si le PGD n’est pas rendu. En revanche, il n’existe pas pour l’instant de véritable évaluation qualitative des PGD rendus.

  • Ne pas hésiter à se faire accompagner en local (par les équipes de soutien à la recherche ou par un atelier de la donnée) ou par l’équipe OPIDoR.

  • Le PGD est un outil de gestion de projet qui permettra de gagner du temps et de se poser les bonnes questions concernant la gestion et le partage des données.
    Le PGD permet de définir et de mettre en place les actions indispensables pour gérer les données qui vont être collectées ou produites au cours d’un projet. Il est là pour faciliter la gestion des données de recherche et aide à organiser et anticiper toutes les étapes du cycle de vie des données.

  • L’idéal est d’élaborer votre DMP avec l’aide de différents acteurs d’un projet : scientifiques mais aussi informaticiens, data librarians, juristes… la rédaction et la mise à jour du DMP doivent être organisées en fonction des personnes ressource disponibles.

  • Il est difficile d’évaluer le temps nécessaire à la rédaction d’un DMP, c’est variable suivant le projet. La rédaction se fait au fur et à mesure de l’avancée de celui-ci. Un PGD pour une thèse menée de manière plus ou moins autonome sera bien plus facile et rapide à rédiger qu’un PGD se rapportant à un énorme projet pluridisciplinaire et pluri-établissements.
    Le DMP va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
    Le DMP peut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !

  • N’importe quel participant au projet peut être responsable de la rédaction d’un PGD. Il peut aussi s’agir d’une responsabilité collégiale.

  • C’est souvent le porteur du projet qui est désigné comme rédacteur principal et qui, de fait, invite les collaborateurs à contribuer au PGD. Mais il est tout à fait possible de désigner par exemple le gestionnaire des données comme rédacteur principal du PGD.

  • Oui, c’est possible si cette personne est intégrée dès le début du projet et qu’elle suit ses évolutions au plus près.
    Toutefois, c’est le chercheur porteur du projet qui est le plus souvent responsable de la rédaction du DMP car c’est lui qui connait le mieux les jeux de données, les traitements etc. Par contre, co-rédiger un DMP avec un documentaliste est une excellente idée.

  • Les deux façons de faire sont recevables, à condition d’avoir réfléchi en amont aux forces, faiblesses, opportunités et menaces des deux modèles. Si le choix est fait de différencier les pratiques de gestion, il sera d’autant plus important de formaliser les décisions prises par chaque partenaire, afin de faciliter les échanges de données au sein même des équipes qui collaborent.

  • C’est tout à fait possible, notamment dans certains projets menés de manière solitaire.
    Mais, même dans ces cas, le responsable du PGD aura tout intérêt à solliciter l’avis de différents interlocuteurs (juriste, informaticien, bibliothécaire, archiviste, etc.) pour l’aider dans sa rédaction, à défaut de pouvoir l’aider dans la gestion quotidienne des données.

  • N’importe quel(s) participant(s) au projet peu(ven)t suivre la mise en place d’un PGD, mais pour des raisons politiques, il est souvent important que le(s) responsable(s) du projet s’implique(nt), ou au moins manifeste(nt) leur soutien.

  • Il s’agit là des responsabilités pour toutes les tâches qui auront trait à la gestion des données :

    • Qui est responsable de la rédaction du PGD et de sa mise à jour ?
    • Qui est responsable de la collecte (réalise la collecte ou supervise ceux qui la font) ?
    • Qui est responsable du traitement des données ?
    • Qui est responsable du stockage ?

    Il peut donc y avoir plusieurs responsables sur des tâches différentes, et avec des profils différents (ingénieur d’étude, technicien, documentaliste…).
    Il peut aussi arriver que toutes ces tâches soient assumées par une seule et même personne, et que cette personne ait en plus des responsabilités dans le pilotage du projet.

  • Cela fait partie des questions importantes à se poser en début de projet, pour anticiper ce genre de problème.
    La formalisation la plus fine et la plus précise possible (au sein d’un PGD par exemple) de toutes les tâches associées à la gestion des données procure un avantage indéniable.

  • Rien n’empêche d’inviter des chercheurs étrangers à collaborer sur un PGD via DMP OPIDoR.
    On peut aussi citer d’autres plateformes qui fonctionnent avec le même code source, et sur lesquelles des chercheurs français peuvent se créer un compte :

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de DMP, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre DMP à partir d’un outil bureautique.

  • Recourir à une plateforme présente plusieurs avantages :

    • Elles permettent un travail collaboratif plus facile que s’il s’agissait d’envoyer un fichier Word, et plus sécurisé que s’il s’agissait de compléter un document sur un espace en ligne comme GoogleDrive ou FramaPad ;
    • Elles centralisent plusieurs modèles de DMP proposés par différentes institutions, permettant de les comparer à un seul endroit et de choisir le plus pertinent pour son projet ;
    • Elles proposent le plus souvent de l’aide contextuelle sous forme de consignes ou d’infobulles visant à expliciter les réponses à indiquer dans chaque rubrique ; la longueur de ces aides dépend des points abordés ;
    • Elles permettent d’exporter les informations saisies sous la forme d’un document rédigé, dans plusieurs formats de fichier possibles (PDF, texte…) ;
    • Elles devraient permettre à terme d’encoder automatiquement les DMP eux-mêmes dans un format lisible par des machines (machine-actionable DMP).

    Certaines communautés scientifiques préfèrent d’autres outils que DMP OPIDoR, notamment des plateformes qui permettent de travailler dans des formats de fichiers spéciaux tels que MarkDown ou LaTeX. C’est aussi le cas des chercheurs qui ont besoin de remplir des documents supplémentaires, comme des déclarations de conformité RGPD qui font doublon avec les rubriques du PGD qui concernent les données personnelles.

  • Vous pouvez tout à fait rédiger un PGD de manière collaborative. Par contre cela ne peut pas se faire de manière simultanée. Pour plus de fluidité, il est conseillé aux contributeurs d’utiliser la zone « commentaires ».
    Les personnes bénéficiant du statut de “Copropriétaire” et “Editeur” ont le droit d’effectuer des changements et de modifier les réponses.
    Les personnes dotées du statut “Lecture seule” ne peuvent pas faire de modifications dans le PGD mais elles peuvent participer indirectement sous la forme de commentaires. A charge aux personnes habilitées à intervenir dans la rédaction du PGD d’intégrer, ou non, les suggestions de modification.
    Remarque : pour un meilleur suivi, un encadré indique sous chaque question qui est intervenu en dernier et à quel moment.

  • Le plus simple est de vous référer à la sélection de sources d’accès à des PGD du site CoopIST du CIRAD, dans laquelle vous trouverez différentes plateformes de création de PGD qui proposent des DMPs publics. Il y en a également dans des bases de données bibliographiques, des archives ouvertes de publications, des entrepôts de données de recherche, des moteurs de recherche académiques et des revues scientifiques.

  • Déposer son DMP dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple déposer votre plan dans l’entrepôt de données Zenodo, qui permet le dépôt de tous types de fichiers, et qui offre l’avantage de leur attribuer automatiquement un DOI.
    On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scénarii sont envisageables.

  • Des ateliers de la donnée vont être mis en place dans le cadre de Recherche Data Gouv (nouvelle plateforme nationale fédérée des données de la recherche). Ces ateliers se positionneront comme le point d’entrée en proximité locale des équipes de recherche sur toute nature de besoin relatif à la donnée. Les initiatives d’accompagnement existantes seront promues et les nouvelles initiatives seront encouragées. L’ambition est de déployer, dans une logique de partenariats entre des établissements d’un ou plusieurs sites, des dispositifs de mise en commun de ressources et compétences pour apporter, en proximité des chercheurs, un premier niveau d’expertise, sur toute problématique de l’ensemble du cycle de vie de la donnée.

  • Pour une première approche, vous pouvez consulter les ressources « en bref » et « l’essentiel » de la thématique « Plan de gestion de données » de DoRANum : https://doranum.fr/plan-gestion-donnees-dmp/
    Au niveau de votre organisme, dirigez-vous vers les data librarians ou documentalistes si possible.
    Enfin, vous pouvez obtenir de l’aide ou des informations sur la rédaction d’un plan de gestion de données en contactant l’équipe OPIDoR de l’Inist-CNRS : info-opidor@inist.fr
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • Vous devez répondre aux questions du DMP qui sont pertinentes par rapport à votre projet. Par ailleurs, vous ne pourrez pas répondre à toutes les questions dès le début du projet. Le DMP étant un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.

  • Il vaut mieux être le plus descriptif possible car il faut considérer le DMP comme un réel outil de gestion de vos données. Cela évite la perte de données (notamment, par exemple, après le départ d’une personne).

  • Il faut indiquer les difficultés et contraintes liées au partage des données, pourquoi vous ne pouvez pas les partager (données sensibles, confidentielles, etc.).

  • Parce que ce sont des disciplines qui potentiellement aussi déposent des projets ANR, des ERC soumis à financement et donc avec l’obligation de fournir un PGD.

    De façon globale, tous les projets de recherche quelles que soient les disciplines et à partir du moment où elles génèrent ou collectent des données ont un intérêt à se doter d’un PGD pour :

    • prévenir les potentielles pertes de données
    • gérer les traitements liés aux données personnelles ou sensibles ou des documents encore sous droit d’auteur (art contemporain par exemple).
  • Un “projet de thèse” est un excellent début de PGD, car il aborde des thématiques que l’on retrouve dans ce genre de documents (objectifs du projet de recherche, type de données qui serviront à l’appuyer, etc.).
    Mais un PGD va plus loin, est plus exhaustif qu’un projet de thèse. Il aborde davantage de notions. En outre, un PGD a vocation à être complété / corrigé tout au long du doctorat (ou de tout projet de recherche), alors qu’un “projet de thèse” est un livrable ponctuel.

  • Le PGD peut tout à fait être utilisé en tant que plan de gestion de donnée d’une structure, c’est-à-dire pour un laboratoire ou une équipe de recherche. Cela permettra de mettre en place une politique de gestion des données, et d’amener les chercheurs à se poser les bonnes questions. Le PGD est une bonne pratique au quotidien de gestion des données à mettre en place dans les unités de recherche.

  • Il est possible de rédiger un DMP sans qu’il soit lié à un projet de recherche. Le DMP permet d’appliquer de bonnes pratiques de gestion des données de recherche dans son laboratoire. Il existe même des modèles de PGD de structure (exemple celui de l’INRAE).

  • Le DMP peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des « DMP de structure » (à l’INRAE) qui établissent des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le DMP sert au centre à gérer ou prévoir les besoins en stockage. Le DMP devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul).

  • Il est possible de rédiger ce que l’on appelle un PGD de structure.
    Vous en avez un exemple avec celui proposé par l’INRAE (vous pouvez le retrouver dans la liste des modèles de DMP proposée sur DMP OPIDoR).
    Sinon, vous pouvez partir d’un modèle conçu pour des projets et ne pas tenir compte de toutes les parties plus administratives.
    L’intérêt est de pouvoir gérer les données d’une unité hors projet, par exemple d’anciennes données.
    Il n’y a pas de recommandations spécifiques.

  • Dans le cas d’un DMP pour une plateforme, une structure devra (comme pour un projet) décrire comment les données sont gérées dans ces structures, quelles ressources y sont attribuées… Vous pouvez utiliser pour cela un modèle de PGD de structure. Il n’y a pas de lien direct avec la certification mais la rédaction d’un DMP peut sûrement aider à structurer une demande de certification.

  • Bien sûr, c’est même recommandé. Le PGD doit être adapté à vos besoins, il ne sert que de vade-mecum pour vous aider à tirer le maximum de bénéfice de vos données.

  • Les chercheurs évoquent souvent les difficultés suivantes (pour lesquelles de nombreuses solutions existent) :

    • Manque de connaissances (notamment sur des points comme le cadre juridique, les questions d’éthique) ;
    • Manque de compétences (notamment sur des questions informatiques : formats de fichiers, protocoles de sauvegarde, standards de métadonnées…) ;
    • Manque de temps (surcharge administrative supplémentaire) ;
    • Manque de reconnaissance (la rédaction d’un PGD n’est pas encore assez valorisée, notamment dans les évaluations des chercheurs) ;
    • Ampleur de la tâche (notamment dans les gros projets multipartenaires impliquant plusieurs établissements dans plusieurs États) ;
    • Manque d’outils appropriés (notamment dans les disciplines qui utilisent plus volontiers des outils tels que LaTeX et ne voient pas l’intérêt de passer par DMP OPIDoR).
  • Les bonnes pratiques en matière de gestion des données existent en partie pour prévenir les risques potentiels :

    • Risques informatiques / matériels : perte de données ou des métadonnées, mauvaise conservation les rendant inutilisables…
    • Risques de sécurité : vol de données sensibles (personnelles, soumises à un secret quelconque…)
    • Risques scientifiques :
      • Conclusions erronées basées sur des données fabriquées, falsifiées ou tout simplement mal collectées / mal traitées / mal interprétées ;
      • Non reproductibilité de certaines expériences si les données et métadonnées ne sont pas bien gérées ni rendues FAIR ;
      • Manquements à l’intégrité scientifique dus à de mauvaises pratiques de citation des données…
    • Risques juridiques : non-respect du cadre juridique des données de la recherche (données sous droit d’auteur, données personnelles, données soumises à un secret quelconque…).
  • Il n’y a pas de précédent de fuites. Les données elles-mêmes ne sont pas hébergées sur les plateformes de rédaction de PGD. Il ne s’agit que du document qui les décrit.
    Les données personnelles contenues dans les PGD (noms des chercheurs responsables des projets et qui jouent un rôle dans la gestion des données) sont conservées dans le respect du RGPD par les institutions qui portent ces plateformes (l’Inist-CNRS pour DMP OPIDoR, le Digital Curation Centre pour DMPOnline et le California Digital Library pour DMPTool).

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Modèles de PGD

  • Les modèles de PGD dépendent des organismes qui les conçoivent (ceux-ci peuvent alors présenter une orientation disciplinaire spécifique) ou des organismes (financeurs, établissements de tutelle…) qui en imposent l’utilisation.
    Certains modèles de PGD pluridisciplinaires proposés par des financeurs comme la Commission européenne ou l’Agence nationale de la recherche peuvent convenir à des projets dans n’importe quelle discipline. Cependant, si vos recherches portent principalement sur des données à caractère sensible (recherche biomédicale par exemple), vous aurez peut-être intérêt à utiliser un modèle de PGD fourni par un établissement qui s’intéresse à ces problématiques.

    Quelques exemples de modèles disciplinaires :

  • Oui tout à fait. Tous les organismes auteurs de modèles de PGD les proposent dans un format ouvert, librement utilisable par tout un chacun.
    Ces modèles de PGD sont disponibles sur les sites internet de chaque organisme, mais aussi sur des plateformes centralisées telles que DMP OPIDoR.

  • Les financeurs peuvent proposer un modèle mais aucun modèle n’est obligatoire. Vous pouvez choisir celui qui vous convient le mieux, par exemple celui de votre établissement s’il en propose un. En ce qui concerne le modèle structuré, pour l’instant, il n’en existe qu’un : le modèle Science Europe (existe aussi en version anglaise – Science Europe: structured template).

  • Le DMP structuré est comme le DMP classique, il peut être modifié à tout moment suivant l’évolution du projet.
    Quel que soit le modèle choisi, il est recommandé toutefois de livrer à votre financeur 2 à 3 versions : au début du projet, au milieu du projet si celui est long et à la fin du projet. Dans le cas de projets financés, le financeur fixe le nombre de versions et leur périodicité.

  • ” Les porteurs de projets peuvent utiliser le modèle “classique” ou le modèle structuré dès à présent. L’ANR va recommander de privilégier le modèle structuré à partir de l’AAPG 2023 et ce afin de collecter plus simplement les informations qui viendront nourrir l’outil de suivi. Cela permettra aux porteurs de projets de ne pas devoir saisir leurs informations plusieurs fois. Ce point a été mentionné dans le webinaire science ouverte de l’ANR Tour. On ne parle pas pour le moment d’obligation. ” (Source : ANR)

  • Vous pouvez contacter l’équipe OPIDoR (info-opidor@inist.fr) pour mettre en place un modèle personnalisé avec des recommandations spécifiques à votre université ou étudier les options les plus adaptées.

  • Le PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des modèles de DMP « de structure » (à l’INRAE) qui permettent d’établir des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le PGD sert au centre à gérer ou prévoir les besoins en stockage. Le PGD devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul…).
    En ce qui concerne les thèses, le PGD est de plus en plus souvent utilisé car c’est un bon outil de gestion et de planification.

  • Chaque type de modèle a ses avantages et ses inconvénients.
    Le modèle classique offre plus de champs de rédaction libres. Vous avez en outre le choix entre de nombreux modèles financeurs et institutionnels agrémentés de conseils.
    Le modèle structuré (un seul modèle pour l’instant) est moins aisé à appréhender mais il est plus riche et offre des fonctionnalités supplémentaires. Son objectif étant de rendre le contenu du PGD à la fois lisible par les humains et exploitable par les machines, la rédaction est plus encadrée.
    Attention : avant d’opter pour le modèle de DMP classique ou le modèle de DMP structuré, sachez qu’il n’est pas possible de migrer de l’un à l’autre.

    Pour plus d’informations, consulter ce tutoriel : https://doranum.fr/plan-gestion-donnees-dmp/dmp-opidor-le-modele-structure_10_13143_mzze-kz59/

  • Il existe deux modèles classiques pour les structures : INRAE – Modèle Structure et AgroParisTech – modèle de PGD “Structure”.
    Vous pouvez aussi utiliser le modèle structuré mais il n’est pas le plus adapté pour l’instant.
    Le service OPIDoR a initié une réflexion et des échanges avec différents partenaires pour mettre en place un modèle de plan de gestion de données “machine actionable” pour les structures.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Produits de recherche et jeux de données

  • ” Un jeu de données peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent “. Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée.

    Source : Gaillard Rémi. De l’open data à l’open research data : quelle(s) politique(s) pour les données de recherche ? Janvier 2014. https://www.enssib.fr/bibliotheque-numerique/notices/64131-de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche

  • Les deux ! Dans le DMP, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et analysées. Mais leur gestion peut être différenciée (dépôt dans un entrepôt différent, conditions de partage différentes, …)

  • Les données peuvent revêtir une multitude de formes : quantitatives, qualitatives, relevés de terrain sous forme de fichiers tabulés, entretiens enregistrés, audio, vidéo, etc. Il arrive que, pour certains projets, le terme de « données » paraisse inadapté. La définition est large (voir la définition des données de la recherche ci-dessus).

    En philosophie, par exemple, on peut avoir l’impression de ne pas en produire. Pour autant, il existe dans cette discipline de nombreux matériaux produits préalablement à la publication d’un article. Par exemple, une base de données compilées de textes de philosophes antiques lemmatisés. Si le fait de rédiger un plan de gestion de données ne vous semble pas nécessaire, alors il faut remettre en perspective les matériaux produits avant d’écrire un article. Sur quoi vous appuyez-vous pour le réaliser ? Vous pouvez penser à tous les matériaux auxquels vous tenez vraiment et qui seraient irremplaçables ou très longs à recréer, s’ils n’étaient pas sauvegardés ou conservés en sécurité. Ainsi, les sources réutilisées peuvent être considérées comme des données, mais aussi les notes, les brouillons, les logiciels, les flux de travail, les protocoles. Tous ces ensembles peuvent former ensemble un jeu ou des jeux de données cohérents, à partir desquels un PGD pourrait être rédigé.

    Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/

  • Un PGD doit idéalement concerner absolument toutes les données collectées, produites, réutilisées, traitées, manipulées, comparées, analysées etc. au cours de la thèse. Et si vous avez oublié d’inclure certaines catégories de données au début de votre projet, vous pouvez les rajouter à tout moment, car le PGD doit évoluer tout au long de votre projet pour en refléter la réalité.
    En commençant la rédaction de votre PGD sur DMP OPIDoR, il vous sera demandé d’identifier vos “produits de recherche”: il s’agit justement des différents ensembles de données que vous allez collecter, produire etc. Le fait de “découper” ses matériaux de recherche en plusieurs “produits” sert à indiquer des spécificités de traitement entre ces produits. Dans un projet pluridisciplinaire, par exemple, on pourrait imaginer que les produits n’ont pas vocation à être déposés dans les mêmes entrepôts, par exemple, ni à être décrits selon les mêmes standards de métadonnées : d’où l’intérêt d’agencer les réponses aux questions posées par le PGD en produits distincts.
    Si vous manipulez des types de données très différents, certaines rubriques du PGD pourront être cruciales pour un type mais pas pour l’autre (ex.: les enjeux éthiques ne seront probablement pas très importants si vous manipulez des corpus de textes antiques, mais ils le seront si vous analysez les notes des élèves qui auront eu à étudier ces textes).

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …

  • Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.

  • Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
    Un type de données = un produit de recherche.

  • Tout à fait. Dans votre DMP, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.

  • un échantillon biologique pris isolément n’est pas considéré comme un produit de recherche.
    S’il fait partie d’une collection et qu’il est conservé à l’issue de la recherche, dans ce cas, l’ensemble des échantillons utilisés pour cette recherche peut être considéré comme un jeu de données et donc comme un produit de recherche. L’idée est que de ce fait le produit de recherche peut être géré et partagé.

  • Cela concerne principalement le traitement des données (souvent des traitements informatiques).

    Exemples :

    • Dans le PGD de structure sur la plateforme Metabolome de Bordeaux :
      Workflow : Séquence de traitement de données – ex fichiers de macrocommandes issues de NMRProcFlow, Jupyter notebooks.
    • Dans le PGD de l’infrastructure OLA :
      Les workflow des principales données du SI sont ci-dessous :
      – pour la physico-chimie : Workflow-traitement-Physico-Chimie-OLA.png
      – pour la détermination et le comptage du zooplancton : Workflow-analyse-du-zooplancton.png
      – pour l’insertion de ces données vers le SI OLA : Workflow-insertion-des-donnees-vers-le-SIOLA.png

    Dans DMP OPIDoR vous pouvez retrouver les définitions des différents types de produits de recherche : https://dmp.opidor.fr/static/research_output_types.
    Voici la définition (traduction) du type Workflow : série structurée d’étapes pouvant être exécutées pour produire un résultat final, offrant aux utilisateurs un moyen de mettre en oeuvre leur travail de manière plus reproductible.

  • Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre PGD. Cette évaluation peut en effet s’avérer difficile en début de projet. Le PGD est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.

  • Il n’y a qu’une seule personne contact possible pour chaque produit de recherche. Il est donc tout à fait possible de confier la responsabilité de chaque jeu de données à des personnes différentes.
    Cependant, on peut définir plusieurs responsables, par exemple, du stockage ou de la production ou de la collecte des données…

  • Par exemple :

    • Si vous vous rendez compte qu’elles ont été mal collectées / mal produites (lacunes dans les données, mauvais étalonnage ou mauvais paramétrage des instruments, biais induit par la personne qui a réalisé la collecte…)
    • Si vous ne savez pas exactement dans quelles conditions des données existantes ont été produites (peut-être ont-elles des vices cachés)
    • Si elles ont été collectées d’une manière illicite (ex.: piratage de bases de données, interdit notamment dans le cadre du text and data mining)
    • Si le traitement prévu pour des données personnelles ne respecte pas le RGPD
    • Si l’utilisation prévue des données sous droit d’auteur porte atteinte à l’intégrité de l’œuvre (non-respect des droits moraux des auteurs)
  • Cela dépend de votre approche, de votre projet de recherche. Le logiciel peut jouer un triple rôle dans la recherche :

    • Il sert d’outil dans de nombreux domaines, en traitant efficacement divers types de données pour construire et tester des modèles visant à étayer ou invalider des hypothèses.
    • Il peut constituer en lui-même un résultat de recherche, en tant que preuve d’existence d’une solution algorithmique efficace pour un problème donné.
    • Il peut être lui-même objet de recherche. En particulier, la communauté scientifique s’intéresse aux modes de développement des logiciels et à la preuve de leurs propriétés, en lien notamment avec la transparence et la confiance dans les traitements informatisés.

    Dans tous les cas, il est recommandé de les inclure dans le PGD et de déposer les codes sources dans un entrepôt (indiquer l’entrepôt choisi dans le PGD).
    A noter qu’il existe des modèles de PGD spécialement dédiés aux logiciels comme le modèle PRESOFT.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Contenu

  • Le PGD permet de formaliser au sein d’un document unique des informations utiles au suivi du projet et à la bonne gestion des résultats obtenus, auparavant dispersées entre divers acteurs ou documents.  Par exemple, dans l’accord de consortium signé entre les partenaires d’un projet européen, on trouve des informations qui pourront être reprises dans le PGD.
    L’objectif à terme est de rendre les PGD entièrement interopérables avec différents outils, afin de limiter au maximum la double saisie des informations (ex.: la rubrique “coûts” du PGD serait automatiquement alimentée par le logiciel de gestion budgétaire et comptable du laboratoire).

  • Tous les projets de recherche qui manipulent des données auraient intérêt à se doter d’un PGD. La base de la réflexion consiste à prendre le temps de s’interroger sur ce que peuvent être les données de sa thèse / de son projet :

    • Quels sont les éléments, numériques ou non, auxquels je tiens vraiment et qui seraient irremplaçables ou très longs et complexes à remplacer en cas de perte, de vol ou de problème technique ?
    • Si je devais relire et évaluer les travaux de collègues qui travaillent sur un sujet de recherche similaire au mien, de quoi aurais-je besoin pour vérifier leurs résultats, reproduire leurs expériences ou tout simplement reproduire leur cheminement intellectuel ?

    Toutes les réponses à ces questions sont recevables, y compris “je ne manipule que des sources secondaires / de la bibliographie / les publications d’autres chercheurs / des textes de loi publics”.
    Le PGD est ensuite utile pour se demander si les données en question impliquent des enjeux particuliers en termes de collecte, documentation, stockage, etc. Il est tout à fait envisageable d’expliquer dans ces parties du PGD que vos données ne sont pas concernées, en justifiant cet argument.

  • Il  est conseillé de déclarer votre organisme de tutelle principal.
    Vous pourrez suivre les recommandations des autres organismes de rattachement en les sélectionnant avant de rédiger votre PGD, s’ils sont disponibles dans la liste des organismes offrant des recommandations.

  • Le périmètre de ce qu’on entend par “ données de la recherche ” varie d’un établissement / financeur à l’autre. Mais d’une manière générale, on peut retenir une définition très pragmatique des données : « tous les matériaux analysés, interprétés ou utilisés lors d’une recherche, quelle que soit leur origine et la méthode utilisée » (M. Saby). Les données analogiques (non numériques ou non numérisées) ont toute leur place dans cette définition pragmatique (qui va différer de la définition strictement juridique des données).

    Toutes ces données matérielles (échantillons, cellules, organismes génétiquement modifiés, réactifs, prototypes, tessons, fragments d’œuvres d’art…) doivent faire l’objet d’une réflexion approfondie et être incluses dans le PGD. Toutes les questions relatives à la bonne gestion des données peuvent les concerner :

    • comment seront-elles produites / collectées ?
    • comment seront-elles stockées ?
    • qu’adviendra-t-il d’elles à la fin du projet ? Etc.

    Il est évident que ces données ne pourront pas être diffusées aussi largement que pourraient l’être des données numériques ou numérisées. Dans les cas où il n’est pas possible de rendre ces données analogiques Faciles à trouver, Accessibles, Interopérables et Réutilisables, ce sont les métadonnées décrivant ces données qui devront être enrichies et rendues FAIR.

  • Il faut préciser tous les types de matériels et logiciels utilisés.
    Il est recommandé de déposer ses codes sources dans Software Heritage (archive universelle de logiciels qui garantit la pérennité des codes sources).

  • Il est possible d’indiquer le lien entre les données et les publications qui vont être réalisées mais le PGD est bien centré sur la gestion des données elles-mêmes. À noter que son périmètre s’étend à toutes les données, pas seulement celles qui donneront lieu à une publication.

  • Oui, car vous allez à nouveau agir sur ces données. Comment les sélectionnerez-vous pour les réutiliser ? Où les stockerez-vous ? Quels traitements allez-vous leur appliquer ? Allez-vous les conserver après votre projet ? Etc.
    S’il vous manque des informations sur le contexte de production de ces données, le PGD est justement l’occasion d’expliquer ces lacunes en détails, afin que vous ne puissiez pas être pénalisé ensuite si un problème est mis au jour.

  • Oui, ce sont de bonnes pratiques en recherche académique.

  • À vous de prévoir ces aspects le plus en amont possible pendant votre projet, et de spécifier dans le PGD les conditions dans lesquelles vous souhaitez produire cette documentation. N’hésitez pas à proposer des exemples précis, à joindre en annexe du PGD.
    Prévoyez aussi comment effectuer le suivi de la bonne application de ces recommandations.

  • C’est un outil ou une application qui facilite la production de métadonnées et le dépôt des données dans un entrepôt.

  • Vous pouvez vous adresser à l’équipe OPIDoR en cas de difficultés pour compléter cette rubrique et si vous avez une question précise.
    Pour familiariser les personnes que vous accompagnez à ces notions, vous pouvez utiliser les ressources de DoRANum. Cette plateforme est conçue pour vous accompagner pas à pas et le vocabulaire est bien défini.
    Des passeports édités par le CoSo peuvent également vous aider :
    https://www.ouvrirlascience.fr/category/ressources/

  • Ces critères varient énormément d’une discipline à l’autre. Apprendre ces critères fait partie de la formation de jeune chercheur : renseignez-vous auprès de chercheurs expérimentés dans votre domaine.
    Quelques critères généralistes :

    • Vérifier que les données ont été convenablement collectées (en ayant documenté le processus de collecte)
    • Vérifier que les traitements qu’ont subi les données ont été entièrement et correctement décrits
    • Favoriser un contrôle par une personne ou une instance tierce
    • Etc.

    N’hésitez pas non plus à consulter des PGD rédigés, ainsi que cette piste bibliographique :
    Batifol Véronique, Burnel Laurent, Johany François. “QualiNous”: un collectif pour accompagner les bonnes pratiques de gestion et de partage des données au Département SAD de l’Inra. Le Cahier des Techniques de l’INRA. 26 février 2019. https://novae.hub.inrae.fr/content/download/5248/53479?version=2

  • Ce qui fait la qualité ou la véracité d’une donnée varie d’une discipline à l’autre. Pensez notamment à consulter les métadonnées et la documentation relative au contexte de création / collecte des données qui vous sont ensuite mises à disposition.
    N’hésitez pas à prendre contact avec le(s) producteur(s) des données pour en savoir plus si vous avez un doute.

  • Idéalement, il faut fournir le plus de détails possible. Demandez-vous de quelles informations vous auriez besoin si vous étiez extérieur à votre projet de recherche, et que vous deviez reproduire votre expérience / refaire votre cheminement intellectuel vingt ans plus tard.
    Les informations à fournir concernent aussi bien des aspects scientifiques (quel protocole de collecte ? quelles questions de recherche ? quelles adaptations au terrain ? etc.) que des aspects techniques (quel matériel ? quels réactifs ? quels paramètres ? quelle périodicité ? etc.) ou informatiques (quelle version du logiciel ? quel éditeur ? quel script ? etc.). Ce sont des éléments indispensables à la robustesse de vos résultats scientifiques, y compris dans des disciplines non expérimentales où il n’est pas question de reproduire des expériences telles quelles mais d’au moins se mettre dans la peau d’un chercheur pour reproduire et comprendre son raisonnement.
    Pour avoir une idée des détails à fournir dans vos disciplines, n’hésitez pas à lire des PGD rédigés.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Quelques pistes pour évaluer les coûts (ne pas oublier les coûts en temps et en ressources humaines) :

  • Les coûts dans un PGD sont tous les coûts liés à la gestion des données de recherche.

  • Oui, tous les coûts peuvent être indiqués. Dans DMP OPIDoR, lorsque vous choisissez un modèle structuré, il y a un nouvel onglet sur le budget qui récapitule tous les coûts.

  • Dans le PGD, il n’est question que des coûts liés à la gestion des données de recherche.

    Recommandations :

    • Expliquer comment les ressources nécessaires (par exemple le temps) à la préparation des données pour le partage/préservation (curation des données) ont été chiffrées. Examiner et justifier soigneusement toutes les ressources nécessaires pour diffuser les données.
    • Il peut s’agir de frais de stockage, de coût matériel, de temps de personnel, de coûts de préparation des données pour le dépôt, de frais d’entrepôt et d’archivage.
    • Indiquer si des ressources supplémentaires sont nécessaires pour préparer les données en vue de leur dépôt ou pour payer tous les frais demandés par les entrepôts de données. Si oui, précisez le montant et comment ces coûts seront couverts.
  • Pour les projets financés par l’ANR, toutes les dépenses liées à la gestion des données sont éligibles durant le projet : acquisition, collecte, stockage, personnel dédié à la gestion des données… En cas de recours à un tiers, le coût de stockage des données est admissible jusqu’à 5 ans après la date de fin scientifique du projet, sous réserve que le contrat avec ce tiers soit conclu avant la fin scientifique du projet.
    (Source : Gala Garcia Reategui. La politique science ouverte de l’Agence Nationale de la Recherche et le DMP. https://octaviana.fr/document/VUN0041_02#?c=&m=&s=&cv=)

  • Les dépenses à prévoir pour la gestion quotidienne des données, ou du moins, pour rendre les données ouvertes et FAIR, peuvent être prises en charge par les organismes de financement de la recherche.
    Seul prérequis : fournir une estimation suffisamment solide de ces futures dépenses au moment de la réponse à appels à projet, pour l’inclure dans la demande de financement.

  • Ce temps est très difficile à estimer. Il dépend du type de données, des infrastructures mises à disposition ou non par les institutions (entrepôt), des moyens alloués à chaque projet (financier, humains) et des compétences des participants aux projets.
    Vous pouvez par ailleurs consulter cette page web où sont regroupés quelques liens vers des outils ou checklists concernant l’évaluation des coûts (financiers et en temps) de la gestion des données de recherche dans un projet.

MÉTADONNÉES

  • Tout va dépendre de votre type de données. Vous n’aurez pas forcément besoin de fournir des métadonnées de géolocalisation pour des données qui décrivent les réactions de bactéries face à des antibiotiques, par exemple.
    Commencez par repérer les pratiques dans votre discipline et pour le type de données que vous produisez : les métadonnées à fournir sont présentées dans le respect de certains standards. À vous ensuite de produire vos propres métadonnées, en les rendant conformes à ces standards.

    Exemple de métadonnées importantes quel que soit le type de données :

    • Description du contenu intellectuel
      • Titre
      • Résumé
      • Mots-clés
    • Caractéristiques techniques
      • Format
      • Logiciel utilisé pour la production ou le traitement
      • Version
      • Taille
    • Droits liés
      • Producteur des données
      • Droits d’accès
      • Droits de réutilisation
    • Relations impliquant les données
      • A pour partie…
      • Est une partie de…
      • A donné lieu à la publication…
  • En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. […] Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s’appuient sur des vocabulaires contrôlés (https://schema.datacite.org).
    Il est en général nécessaire de suivre les standards et recommandations relatifs à la discipline et/ou à la thématique des données. […] Si vous ne connaissez pas les métadonnées de votre domaine, […] consultez les sites suivants :
    – RDA : http://rd-alliance.github.io/metadata-directory/
    – FAIRsharing : https://fairsharing.org/standards/
    – DCC : http://www.dcc.ac.uk/resources/metadata-standards

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#indis

  • Il est indispensable de documenter et d’expliquer les termes utilisés pour nommer les données. […]
    Il est possible de s’appuyer sur un data paper pour porter à connaissance les métadonnées métiers.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#indispensable

  • Il existe des ressources dans DoRANum dans la thématique Métadonnées, Standards, Formats : https://doranum.fr/metadonnees-standards-formats/
    Vous pouvez également vous adresser aux personnes qui peuvent vous accompagner dans les universités, auprès des ateliers de la donnée ou directement auprès du Service OPIDoR : info-opidor@inist.fr

  • Voici les informations qui permettent d’établir un référentiel en fonction des sujets des données de recherche d’un laboratoire :

    • Nomenclature :

    IUPAC gold book (https://goldbook.iupac.org/)

    • Vocabulaire Chimie et Matériaux :

    (http://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Actualites/Vocabulaire-de-la-chimie-et-des-materiaux-2018)

    • Vocabulaires plus généraux avec une partie consacrée à la chimie :

    Rameau (http://rameau.bnf.fr/)
    chimie (https://catalogue.bnf.fr/ark:/12148/cb119704650)

    Thesaurus Eurovoc
    36 SCIENCES
    3606 Sciences naturelles et appliquées
    (https://publications.europa.eu/fr/web/eu-vocabularies/th-top-concept-scheme/-/resource/eurovoc/100141?target=Browse&)

    GEMET
    chimie (https://www.eionet.europa.eu/gemet/fr/theme/6/concepts/)

    LCSH, Library of Congress Subjects Headings
    chimie (http://id.loc.gov/authorities/subjects/sh85022986.html)
    chimie physique (http://id.loc.gov/authorities/subjects/sh85023027.html)

    • Ontologies :

    CHEBI, Chemical Entities of Biological Interest
    (https://www.ebi.ac.uk/ols/ontologies/chebi)

    REX, Physico-chemical process
    (https://www.ebi.ac.uk/ols/ontologies/rex)

    CHMO, the chemical methods ontology
    (https://www.ebi.ac.uk/ols/ontologies/chmo)

    FIX, an ontology of physico-chemical methods and properties
    (https://www.ebi.ac.uk/ols/ontologies/fix)

    CHEMINF, Chemical Information Ontology
    (https://bioportal.bioontology.org/ontologies/CHEMINF)

    MOP, Molecular Process Ontology
    (https://bioportal.bioontology.org/ontologies/MOP)

    RXNO, Name Reaction Ontology
    (https://bioportal.bioontology.org/ontologies/RXNO)

  • Dans un premier temps, faites vous accompagner par des documentalistes ou des data librarians.
    Vous pouvez aussi consulter la sur les schémas de métadonnées ainsi que la ressource « Outils de création de métadonnées ».

  • Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
    Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
    Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
    A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche DataCite Search.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • Il y a dans chaque établissement/structure, des personnes pour vous accompagner dans la gestion de vos données (et donc le renseignement des métadonnées), notamment les professionnels de l’information scientifique et technique (IST), mais aussi des informaticiens par exemple ou une cellule d’accompagnement spécifique. Il faut vous renseigner pour savoir qui peut vous accompagner en local et possède ces connaissances pour vous aider.

IDENTIFIANTS PÉRENNES : généralités

  • Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.

  • Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).

  • Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).

  • Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…

  • Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.

  • Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.

  • Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.

  • Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.

  • Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt :

    • soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ;
    • soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).
  • Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.

  • On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant, il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.

  • Si votre institution a un compte DataCite permettant d’attribuer des DOI, vous pourrez attribuer un DOI à votre DMP. Sinon, pour établir le contrat, il faut contacter le service de l’Inist-CNRS en charge de l’attribution de DOI via le portail OPIDoR. Ce service procédera à l’ouverture d’un compte DataCite, et proposera un accompagnement dans la création de DOI.

  • Aucun identifiant en particulier n’est requis. Il s’agit de renseigner un identifiant pour chaque partenaire associé au projet. S’il s’agit d’un chercheur, ce sera probablement un ORCID, si c’est un partenaire institutionnel, ce peut être un ROR… Dans DMP OPIDoR, un menu déroulant propose une sélection d’identifiants pour vous aider (ORCID ID, ROR ID, IdHAL, Crossref funder ID, ISNI, IdRef, URL, RNSR). Renseigner un identifiant pérenne contribue à bien identifier chaque partenaire sans risque d’ambiguïté.
    Complément :
    Enquête : Mieux comprendre et accompagner l’usage des identifiants numériques ORCID des contributeurs de la recherche en France
    https://enquetes.unicaen.fr/index.php/575687?lang=fr

  • L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.

  • En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite.

  • L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.

  • Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.

  • A l’Inist-CNRS via l’alias datasets@inist.fr

  • Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.

  • Les EPIC sont considérés comme public.

  • Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.

  • Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.

  • Tout organisme ayant une existence juridique.

  • Le préfixe est attribué à l’organisme qui signe le contrat.

  • Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.

  • C’est au cas par cas.

  • Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets@inist.fr

  • Oui, nous avons déjà des partenaires africains.

  • Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.

  • Chaque organisme producteur de données décide de son propre workflow.

  • Non, ce n’est pas possible. Il faut passer par votre institution.

DEPÔTS & ENTREPÔTS

  • Il y a de nombreuses raisons de déposer ses données. Concernant la publication des articles, le dépôt peut devenir une condition obligatoire. En effet, de plus en plus de revues demandent l’accès aux données, pour améliorer les conditions dans lesquelles les comités de lecture valident les articles. Au niveau du travail scientifique, la réutilisation des données permet de rentabiliser la recherche et d’accélérer l’innovation, car la collecte et le traitement des données peut être coûteux en temps et en argent. De nouvelles collaborations peuvent aussi être favorisées, puisque l’auteur des données est facilement identifiable.
    Par ailleurs, déposer ses données augmente la visibilité de ses recherches. Traditionnellement, les travaux sont visibles à partir des articles publiés. L’avantage de déposer les données liées aux articles est qu’elles deviennent autonomes. Les travaux peuvent donc être vus à partir des articles ou des données, ce qui multiplie donc les chances d’être cité.
    Le contexte politique est favorable à l’ouverture des données. Prenons l’exemple de l’Union Européenne, qui agit en tant que financeur dans le cadre du programme Horizon 2020. A ce jour, les projets inscrits dans ce programme doivent déposer leurs données dans un entrepôt. De son côté l’ANR – sans obliger les chercheurs qu’elle finance à partager dans un entrepôt par exemple – préconise une gestion des données selon l’adage « aussi ouvert que possible, aussi fermé que nécessaire ».
    Enfin, on parle également ici de Science ouverte et citoyenne. En effet, les recherches faites dans le cadre de financements publiques doivent faire preuve d’une certaine transparence vis-à-vis du citoyen.

  • Il y a deux phases à ne pas confondre dans le cycle de vie de la données :
    – Le partage de vos données (avec vos collègues, partenaires) et leur stockage DURANT le projet (dans ce cas, vous pouvez les déposer sur le réseau interne).
    – Le partage de vos données de recherche à la FIN du PROJET. Les entrepôts sont spécifiquement dédiés au partage des données. Attention, vous n’êtes pas obligés de tout partager.

  • Pour bien préparer le partage des données, il est recommandé :
    – de penser cycle de vie de la donnée avant même qu’elle soit générée, c’est à dire dès l’origine du projet. Ceci permet notamment d’expliciter très clairement l’ouverture des données à l’ensemble des partenaires du projet
    – de décrire très spécifiquement les données collectées ou générées en le faisant autant que possible via un portail spécialisé, disciplinaire ou institutionnel, HAL, etc.
    – de décrire le plus finement possible la méthodologie et les outils nécessaires pour leur réutilisation (si possible fournir, avec les données, les programmes permettant l’utilisation (a minima la lecture) des données)
    – de veiller à ce que les formats et standards utilisés soient ouverts et communément utilisés par la communauté
    – d’utiliser une convention de nommage pour désigner correctement ses fichiers
    – de veiller au respect des lois et en particulier le RGPD et éventuellement prévoir d’anonymiser les données
    – de préciser les modalités d’accès et de réutilisation des données en choisissant une licence explicite, en indiquant les périodes d’embargo si besoin
    – de fournir avec les données une référence bibliographique associée aux données (un article de journal). Ainsi l’usage des données devrait impliquer la citation du DOI (ou identifiant unique autre) des données elles-mêmes, ainsi qu’un DOI (ou identifiant unique autre) associé à la publication de référence.
    Pour vous aider dans cette tâche il est fortement conseillé de recourir à la rédaction d’un plan de gestion des données (PGD).
    Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données. […]

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#vigilance

  • Le CNRS a une trop large couverture disciplinaire. Il est recommandé de déposer dans un entrepôt disciplinaire et/ou institutionnel ou dans Recherche Data Gouv prioritairement.

  • Dans re3data, vous pouvez sélectionner un entrepôt en fonction de différents critères, notamment le fait qu’un entrepôt soit certifié ou non. Vous pouvez également rechercher un entrepôt certifié sur le site CoreTrustSeal.

  • Les entrepôts sont certifiés par le CoreTrustSeal (https://www.coretrustseal.org/why-certification/requirements/) selon différents critères qui sont réévalués régulièrement. Parmi ces critères il y a l’engagement sur la pérennité des données. Ils proposent une liste des entrepôts certifiés : https://www.coretrustseal.org/why-certification/certified-repositories/

  • Il existe plusieurs possibilités :

    • Rechercher dans des catalogues ou des annuaires qui peuvent vous aider à filtrer votre recherche d’entrepôts : CatOPIDoRre3dataOADOpenDOAR, etc.
    • Rechercher où déposent les pairs (pratique de la communauté) : chercher des données similaires via des moteurs de recherche (DataCite Search, Google Dataset Search, OpenAIRE Explore…) pour repérer les entrepôts dans lesquels elles sont déposées.
    • Vous renseigner auprès de collègues de la même discipline, quelles pratiques ils ont en ce qui concerne le partage de leurs données.
    • Vous faire aider par les personnels de soutien des universités ou de votre organisme.
  • A partir du moment où vous déposez dans un entrepôt certifié donc de confiance, les risques sont limités.

  • Oui, c’est tout à fait possible. Par exemple, des laboratoires privés ou des particuliers (dans le cadre de la science participative) peuvent partager des données.

  • Les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • La plupart des entrepôts permettent au déposant de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo).

  • Si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Cette pratique est même fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.
    Deux cas se posent :
    – Si les données appartiennent exactement au même jeu de données, il ne faut surtout pas dupliquer le jeu de données mais utiliser la notion de collections virtuelles qui existent sur de nombreuses plateformes (DataSuds / Recherche Data Gouv…).
    – Si les mêmes données appartiennent à plusieurs jeux de données, les données peuvent se retrouver de facto déposées à plusieurs endroits, mais il n’est pas conseillé de le faire. Dans ce cas, il faut peut-être réfléchir aux critères utilisés pour définir le jeu de donnée.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#endroits

  • L’utilisation de logiciels ou appareillages propriétaires n’empêche pas le partage des données générées. Par contre, les formats seront propriétaires et ne pourront pas toujours être convertis dans un format ouvert, ce qui est un frein à la conservation et à la réutilisation.

  • Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.

    Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • Si un jeu de données a déjà un DOI, certains entrepôts comme Zenodo permettent de récupérer ce DOI existant et n’attribue pas un autre DOI.

  • Le partage des données dans un entrepôt est souvent gratuit. Cependant, le coût peut varier en fonction de la volumétrie. Par exemple pour 4TU Research data, les dépôts sont gratuits jusqu’à 10 Go par an, payant au-delà (€ 4.50 per GB).

  • Il existe plusieurs types de financement (public, privé, fondations…) selon la ou les institutions responsables de l’entrepôt. Par exemple, l’entrepôt européen Zenodo est financé par la commission européenne.

  • Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu’une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l’attribution d’un DOI .
    Voici deux exemples de citations proposées par des entrepôts :
    – Duchêne, Eric, 2019, “Vitis vinifera cv. Riesling developmental stages”, https://doi.org/10.15454/GYSGNR, Recherche Data Gouv, V3, UNF:6:Qe/3b5e0IdlZsQ5EBqpHwA== [fileUNF]
    – Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854,
    Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science, 77(1), https://doi.org/10.1007/s13595-019-0893-0.
    Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation.
    Quand vous citez un jeu de données provenant d’un entrepôt spécifique, pensez à lui notifier l’article dès que celui-ci est publié pour que l’entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#citer

  • Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.

    • Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
    • Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
      • Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
      • Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.

    Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?

    La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.

  • – OAI-PMH (accès distants)
    – Native API (dépot de données et publication)
    – API de présentation de données (DC, json-ld)
    – Sword API (dépôt), Search API, Data access API, Metrics API et Native API sont les API proposées par Dataverse

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#API

  • Non, My Core (outil utilisé par le CNRS) est un outil qui permet le stockage et la sauvegarde individuelle de fichiers et le partage sécurisé. Il est plutôt utile pour le stockage et le partage de documents avec ses collaborateurs durant un projet. Il n’est pas adapté au partage de jeux de données.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Tous les entrepôts de données ne le permettent pas. Dans l’annuaire re3data (https://www.re3data.org/) vous pouvez trouver des entrepôts certifiés qui s’engagent à proposer un archivage à long terme. C’est notamment le cas de 4TU.ResearchData (https://www.re3data.org/repository/r3d100010216).
    Si l’entrepôt choisi ne permet pas l’archivage à long terme, il faut d’abord réfléchir à quelles données vous allez sélectionner pour un archivage pérenne, puis s’adresser au CINES qui vous accompagnera, tout en sachant que cela a un coût qui n’est pas négligeable. Si vous êtes dans un domaine des SHS, l’infrastructure Huma-Num peut également vous accompagner pour l’archivage de vos données.

  • Pour rechercher des entrepôts français : Cat OPIDoR (https://cat.opidor.fr/)

    Re3data (https://www.re3data.org/) notamment permet de rechercher des entrepôts de données dans différentes disciplines et selon plusieurs critères. La durée de stockage n’est pas systématiquement mentionnée. Il faut aller vérifier sur le site de l’entrepôt lui-même.

    La plupart des entrepôts sont gratuits mais certains peuvent être payants.  Il en existe également en accès restreint.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données dans un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Oui, Software Heritage vous permet de les déposer de façon pérenne, de les partager en accès libre, mais aussi de gérer les différentes versions.
    Pour aller plus loin : ressource DoRANum sur « les codes sources : définitions, enjeux et préservation » : https://doranum.fr/stockage-archivage/les-codes-sources-definition-enjeux-et-preservation_10_13143_7tj2-gw58/

STOCKAGE & ARCHIVAGE

  • Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.

    Ensuite, pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.

  • Vous pouvez stocker et partager toutes vos données, à condition de :

    • Respecter d’éventuelles restrictions juridiques (ex.: on ne peut pas partager des données personnelles n’importe comment)
    • Documenter rigoureusement l’état de traitement de ces données (fournir des métadonnées de qualité).

    D’autres critères peuvent ensuite guider vos choix de données à préserver ou éliminer, comme le volume des données, leur degré d’unicité (si vos données peuvent facilement être recréées à partir de la documentation que vous avez produite, pas besoin de conserver les données brutes).

  • Les données générées pendant le processus de recherche peuvent être stockées dans un espace de stockage dédié mais toutes ne doivent pas nécessairement être partagées. Certaines données d’un projet peuvent ne pas être partagées pour différentes raisons : données sensibles, questions de sécurité, secret, brevet en cours, intérêts commerciaux…
    « Aussi ouvert que possible, aussi fermé que nécessaire ».
    Au moment du dépôt dans un entrepôt de données, une sélection des données à diffuser doit être réalisée.

  • De les trier, pas forcément, mais de réfléchir aux forces, faiblesses, opportunités et menaces que pourraient engendrer un tri, oui ! Cette question doit être abordée dans le PGD, même si c’est pour conclure que les données ne seront pas triées.

  • Il n’y a pas vraiment de critère objectif. Mais peu importe le volume des données de recherche, elles devraient toutes être prises en charge avec la même attention. Les questions à se poser restent les mêmes, quoique les réponses puissent différer (il ne sera pas toujours possible d’archiver à long terme des pétaoctets de données).

  • Il s’agit d’une norme internationale et c’est plus simple d’utiliser ce format pour trier ou retrouver plus facilement ses fichiers (par l’année).

  • Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts (accessibles et modifiables indépendamment d’un logiciel unique). Les formats ouverts vont permettre d’améliorer la préservation, le partage et la réutilisation à long terme des données.
    Cela dépend des logiciels utilisés. Si vous utilisez un logiciel propriétaire, car très utilisé dans votre communauté ou pour lequel vous avez une expertise, il faudra préciser si le format de fichiers pourra être converti ou utilisé par d’autres logiciels libres. Parfois il n’est pas possible de convertir dans un format ouvert. Dans tous les cas, il faudra bien « documenter » cet aspect en précisant quel logiciel vous avez utilisé pour vos données, ainsi que sa version.

  • Il existe de nombreux outils sur internet pour vous renseigner sur la question, par exemple le quiz Format ouvert ou fermé ?
    Vous pouvez également avoir recours à l’outil DROID qui permet d’analyser des fichiers dont on ne connaît pas forcément le format. Il vous donne ensuite la “fiche d’identité” du format en question.
    En cas de doute, renseignez-vous auprès d’un informaticien qui sera à même d’examiner la signature interne du fichier pour déterminer son format.

  • Sur DoRANum vous en saurez plus en consultant cette ressource Stockage, partage et archivage : quelles différences ?
    Mais vous n’aurez pas d’informations précises sur le matériel dont vous pouvez disposer dans votre propre organisme. Si vous n’avez pas connaissance de recommandations institutionnelles, vous devez vous renseigner en interne, auprès des personnes dédiées à l’appui à la recherche type data librarian, documentaliste, voire informaticiens.

  • Les retours d’expérience, y compris négatifs, sont un bon outil de sensibilisation.
    La “stratégie des petits pas” peut aussi fonctionner : sans forcément rédiger un PGD complet, pourquoi ne pas commencer par programmer des sauvegardes régulières sur un cloud sécurisé à l’aide d’un petit utilitaire gratuit ?

  • Vous pouvez utiliser ShareDocs ou Huma-Num Box. Voir https://www.huma-num.fr/services-et-outils/stocker.

  • Oui, il n’y a pas de « mauvaises réponses » dans le DMP. L’essentiel est de décrire vos pratiques de gestion de données, quelles qu’elles soient.

  • Oui, cela devrait se passer au niveau de chaque établissement.

  • Tant que chacune des deux parties comprend comment fonctionne son homologue, cela ne pose pas de problème : le PGD est très utile pour décrire ce genre de modalité.
    Notez bien que le PGD n’est pas censé imposer une façon de faire qui serait meilleure que les autres. Il encourage une réflexion approfondie sur certains aspects du travail scientifique qui, sinon, passeraient sous silence et pourraient poser souci.

  • Chaque organisme de recherche a la possibilité de proposer des infrastructures de stockage qui lui sont propres.
    Il est également possible pour chaque organisme d’avoir recours à des solutions commerciales identiques.
    En revanche, les infrastructures publiques telles que le Centre informatique national de l’enseignement supérieur n’hébergent en théorie que les données des organismes publics (sauf cas particuliers de projets collaboratifs).
    Et inversement, les organismes privés réservent l’utilisation de leurs serveurs de stockage à leurs personnels, sauf cas particuliers.

  • Pour tout ce qui concerne les plateformes de stockage des données, c’est à chaque équipe ou laboratoire de se renseigner sur les services proposés en local par son université ou par une infrastructure qui pourrait l’accompagner ou par son organisme de rattachement.

  • En réfléchissant à des stratégies de :

    • Sauvegarde mais aussi restauration de vos données
    • Protection de certains fichiers-maîtres (accessibles uniquement en lecture pour empêcher toute fausse manipulation)
    • Sécurité des données (qui peut y avoir accès, comment…)
    • Détournement de vos données (quels mauvais usages pourraient se développer ?)

    Si vos données sont très sensibles, n’hésitez pas à envisager un audit par des spécialistes de ces sujets. Ce genre de dépense peut être éligible à un financement.

  • Il existe l’outil Mattermost (utilisé à l’Inist-CNRS) qui propose une alternative à Slack : https://mattermost.com/

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Cette ressource (https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/nommage-des-fichiers-versioning-adopter-les-bons-reflexes/#titre1) donne des informations détaillées, notamment sur le logiciel de gestion de versions Git (https://git-scm.com/) et mentionne d’autres outils.
    Il existe également le logiciel de gestion de données iRODS : http://irods.org/

  • La conservation consiste à s’assurer qu’un document est toujours présent sur un support de stockage et qu’il conserve son intégrité.

    L’archivage va plus loin. Il permet aussi de :

    • donner accès au document, c’est-à-dire retrouver le document sur le support de stockage et pouvoir le lire (= ouvrir le ou les fichiers).
    • préserver l’intelligibilité du document, c’est-à-dire faire en sorte que le document reste compréhensible par ses utilisateurs potentiels à travers le temps.

    La sauvegarde (ou stockage) sécurisée ne prend en compte que les deux premiers objectifs sur les trois cités et seulement dans une perspective de court et moyen termes.

    Voir : CINES. Le concept d’archivage numérique pérenne. https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/

  • La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
    Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
    Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
    L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
    Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).

  • En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.

  • Le coût est celui de l’archivage (plus de 30 ans), des mises à jour de supports et de formats, etc… fixé par le CINES.

  • Pour la conservation à long terme (archivage pérenne), il faut avoir recours à des plateformes spécialisées, qui sont en mesure de vérifier régulièrement que les données entreposées chez elles ne se dégraderont pas avec le temps et continueront à être faciles à trouver, accessibles, interopérables et réutilisables, même si la technologie évolue. Ce service peut avoir un coût, à vérifier et planifier le plus tôt possible au cours d’un projet. Ce type de dépense est souvent éligible à une prise en charge par le financeur du projet.

  • Pour la France, il n’existe pour l’instant que le CINES.
    Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
    Le portail européen Open Science Cloud (EOSC) (https://marketplace.eosc-portal.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.

  • Tout dépend de la finalité de votre projet de recherche, mais on peut citer par exemple :

    • Des données personnelles, pour lesquelles le RGPD affirme un principe de limitation de la durée de conservation (sauf cas particuliers) https://net-helium.fr/blog/rgpd-quelle-duree-de-conservation-des-donnees-personnelles/47
    • Des données extrêmement volumineuses, dont l’archivage pérenne utiliserait trop de moyens
    • Des données qu’il serait très facile de reproduire à l’identique, pour peu que leur mode de production soit bien documenté
    • Etc.

    Effacement, destruction, élimination… tous ces termes sont à peu près synonymes, mais gardez à l’esprit que déplacer des fichiers dans la corbeille de son ordinateur ne suffit pas à réellement supprimer des données. Rapprochez-vous d’un informaticien pour avoir de l’aide sur cette thématique.
    Retenez également que toute suppression de données doit impérativement être documentée, notamment à l’aide de métadonnées complètes et précises, qui permettront de comprendre en quoi consistaient les données supprimées et pourquoi elles ont été éliminées. Ces métadonnées devront elles-mêmes être préservées et rendues FAIR. Pour obtenir de l’aide sur cette problématique, rapprochez-vous des archivistes de votre établissement (demandez-leur notamment de l’aide pour dresser l’équivalent d’un bordereau d’élimination…).
    Pour vous aider, vous pouvez également consulter le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/

  • Cela va beaucoup dépendre de votre projet. Penchez-vous sur cette question le plus tôt possible, et faites-vous aider. Essayez d’imaginer tous les problèmes qui pourraient survenir, pour trouver comment y parer…

  • Non, pas systématiquement. C’est la valeur des données qui doit être prise en compte : s’agit-il de données uniques ? De valeur patrimoniale ? Ou peut-être est-ce des données extrêmement couteuses (dans ce cas, il est plus rentable de les archiver que de les reproduire) ?
    La publication concerne le résultat de vos recherches sur ces données. Elle ne donne accès aux données qu’indirectement et pour ce faire il est indispensable de déposer au préalable vos données dans un entrepôt de données et de mentionner l’identifiant pérenne attribué à vos données dans votre publication.
    À noter que les données de recherche partagées dans un entrepôt peuvent être différentes de celles archivées de façon pérenne (choix souvent très ciblé).

  • Oui, car l’archivage pérenne du document numérique a pour objectif principal de conserver les données, les rendre accessibles et en préserver l’intelligibilité, et ce sur du long terme à savoir plus de 30 ans. Dans ce cas, l’accès aux données se fait sur demande.

DATA PAPERS

  • Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…

    Le data paper est

    • soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
    • soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.

    Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un DMP. C’est cependant un bon moyen de valoriser vos données.

    Vous avez deux manières de rendre visibles vos données :

    • soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
    • Soit vous rédigez une publication classique et, lorsque la revue le permet, vous décrivez vos données dans les « supplementary data ». Cependant, vous pouvez être limités par la taille de fichiers imposée par la revue. Ces données ne sont pas toujours incluses dans le PDF de l’article, ni soumises à un examen par les pairs, ni potentiellement citables. Cela dépend des revues.

    Pour en savoir plus :
    Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/  
    Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/

  • Un plan de gestion de données (PGD) est créé dès le début d’un projet (voire en phase exploratoire) et l’accompagne. Il décrit qualitativement et quantitativement les données qui vont être manipulées et définit ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans le PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).

    Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessible, interprétable et réutilisable. Un data paper doit décrire les conditions d’acquisition des données, contenir la description fine de toutes les métadonnées et peut proposer des usages potentiels. Le data paper ne comporte pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche, ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.

    Le data paper et le PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Le data paper est dédié à la publication scientifique alors que le PGD permet une meilleure gestion du projet.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#PGD

  • “Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
    Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016

  • Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.

  • A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.

  • On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
    Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
    Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.

  • Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.

  • Il convient de suivre les recommandations du guide pour les chercheurs “Partager les données liées aux publications scientifiques

ACCÈS VISUALISATION

  • Il n’y a pas de liste à proprement parlé. Toutefois voici quelques outils :

    • Outils de visualisation pour l’accès aux données depuis un entrepôt :
    • Outils de visualisation pour une meilleure manipulation et appréhension des données :
      • Gephi (logiciel libre d’analyse et de visualisation de réseaux)
      • D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
      • Gargantext (plateforme web pour explorer des données textuelles)
      • QGIS (Système d’Information Géographique Libre et Open Source)

Votre question n’apparaît pas dans cette FAQ ?

Laissez-nous un message, nous vous répondrons au plus vite !