FOIRE AUX QUESTIONS

Dernière mise à jour : 17/12/2024

Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.

DORANUM

  • Les ressources pédagogiques DoRANum sont librement réutilisables selon les conditions fixées par les licences utilisées. Lorsque cela est possible, les ressources sont sous la Licence ouverte Etalab. Dans le cas où une ressource utilise des éléments (images, textes,…) porteurs d’une licence plus restrictive, cette licence sera appliquée à la ressource dans son ensemble. Elles peuvent aussi être intégrées sur votre site internet ou votre plateforme web. En savoir plus.

  • Nous proposons des formations en présentiel à la demande. Nous organisons régulièrement des webinaires dont le calendrier est annoncé sur le site de l’Inist-CNRS.

  • Dans la mesure où votre projet correspond au cahier des charges de la plateforme DoRANum, il est possible de collaborer avec l’équipe en vue d’une publication sur la plateforme. Précisez-nous votre demande via notre formulaire de contact.

  • Il est possible de s’abonner aux actualités en vous rendant en bas de la page d’accueil de DoRANum, et en vous abonnant aux réseaux sociaux de l’Inist.

  • Oui, les fiches synthétiques des 9 thématiques de DoRANum sont traduites en anglais, et les vidéos “minutes” proposent des sous-titres anglais. Il est prévu que d’autres ressources soient également traduites.

ENJEUX & BÉNÉFICES

  • Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

ASPECTS JURIDIQUES, ÉTHIQUES, INTEGRITE SCIENTIFIQUE

  • Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Non ce n’est pas le rôle du PGD, c’est plutôt celui du cahier de laboratoire.

  • Non, le PGD n’a aucune valeur juridique. C’est un livrable dans le cadre de projets financés, et non un contrat. Il ne permet donc pas de garantir légalement l’exécution du processus de diffusion des données défini dans le PGD.

  • Il est très important d’aborder dans le PGD les aspects de la gestion des données qui auront trait à une éventuelle confidentialité. Cela permet justement d’anticiper tous les problèmes susceptibles d’en découler.
    Il est tout à fait possible que le PGD lui-même soit tenu confidentiel, y compris à l’issue du projet.

  • Vous devez vous rapprocher du service juridique de votre institution de rattachement. Vous pouvez aussi consulter cette liste.

PLAN DE GESTION DE DONNÉES (PGD) : Généralités

  • Tout chercheur qui s’investit dans un projet de recherche est à même de mettre en place un PGD ou d’en faire la suggestion à son équipe.
    Mais la rédaction d’un tel document peut aussi être imposée par un bailleur de fonds, ou plus rarement par un organisme de tutelle.

  • Non le PGD n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.

  • Il faut considérer le PGD comme un réel outil de gestion de projet. C’est vraiment un guide qui permet d’anticiper la gestion des données aussi bien avec votre équipe qu’avec d’éventuels partenaires. Il peut aussi permettre de mieux argumenter une demande de subvention. Plus vous le commencez tôt,  mieux c’est !

  • L’ANR détaille ses procédures pour les PRCI avec la DFG ici : https://anr.fr/fileadmin/aap/2022/aapg-2022-ANR-DFG.pdf
    Pour 2022, c’est la DFG qui réalisera seule la sélection. Comme c’est indiqué sur cette page, l’ANR ne demande pas de plan de gestion de données au moment du dépôt d’une demande de PRCI et la DFG non plus. Pour autant, il est important de faire figurer dans le formulaire de candidature que les données seront gérées correctement et de montrer dans son dossier que le projet prend en compte ces enjeux. Les directives de la DFG pour la soumission de propositions de projet (allemand) stipulent que les propositions de projet soumises à la DFG doivent inclure une section sur le traitement des données de recherche. Cette section doit comprendre des informations sur le type, l’étendue et la documentation des données ainsi que sur le stockage prévu et les possibilités d’utilisation ultérieure. Il n’est actuellement pas nécessaire de mettre à jour ces informations au cours du projet.

    Tout est détaillé sur cette page : https://www.dfg.de/en/research_funding/principles_dfg_funding/research_data/research_funding/index.html

  • Il est effectivement conseillé de rédiger un plan de gestion des données. La plupart des organismes de financement européens le demandent. Dans le cas de projets Horizon Europe, le PGD est obligatoire. Ce n’est pas forcément compliqué à mettre en place. Toutes les questions que vous allez vous poser lors de la rédaction du PGD vont contribuer à une meilleure gestion, aussi bien du projet que des données, en amont et tout au long du projet.

  • Un PGD global suffit. Il peut être plus ou moins détaillé en fonction de l’ampleur du projet. Voici un exemple :
    https://www.cde4peace.eu/wp-content/uploads/sites/41/2020/11/CDE4Peace-D1.2-Data-Management-Plan.pdf

  • En dehors du cadre d’un projet financé, vous pouvez mettre en place un PGD dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.

  • Il ne semble pas nécessaire de rédiger un PGD dans ce cas.
    Pour plus de précisions, vous pouvez contacter l’ANR : scienceouverte@agencerecherche.fr

  • Le PGD doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.

  • Non ce n’est pas possible. Il faudra faire 2 PGD. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.
    Il faut rédiger un PGD pour chaque projet.

  • Si votre nouveau projet est financé, il vous sera demandé un nouveau PGD. Si besoin et si vous avez gardé votre ancien PGD, vous pourrez récupérer les informations et les recopier.

    • 1er cas de figure : les financeurs demandent de rédiger un plan de gestion pour chacun de vos projets de recherche.
    • 2ème cas de figure : il est tout à fait possible de rédiger un PGD hors projet, pour gérer plus efficacement les données au niveau d’un laboratoire. Le modèle de DMP “d’entité” est bien adapté dans ce cas.
      Exemples de modèles de PGD d’entité disponibles dans DMP OPIDoR :
      Celui proposé par l’INRAE
      Celui proposé par AgroParisTech
      Celui proposé par Science Europe
  • Le PGD peut être modifié à tout moment au cours d’un projet de recherche. Idéalement, dès qu’un élément de réponse change, il faut consigner cette modification dans le PGD.

    Exemples :

    • Nouveau jeu de données
    • Modification du volume estimé
    • Changement du logiciel utilisé pour le traitement des données
    • Changements de personnels
    • Avancée des réflexions sur le choix d’un standard de métadonnées
    • Avancée des réflexions sur le choix d’un entrepôt ou d’une plateforme d’archivage pérenne
    • Recommandations d’un juriste ou d’un comité d’éthique
    • Informations sur les coûts
    • etc.
  • Le PGD doit normalement être initié très tôt, dès le début du projet. Rédiger un PGD en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.

  • Vous pouvez rédiger votre PGD en français, il n’y a pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.

  • Dans la mesure où le PGD est un livrable exigé le plus souvent par le financeur, il est plus judicieux de rédiger votre PGD en anglais directement. DMP OPIDoR est disponible en anglais et en français. De nombreux modèles sont disponibles dans les deux langues.

  • Le PGD sera surtout lu par les collaborateurs, les chargés de projets scientifiques et les gestionnaires.
    Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
    Il faut bien comprendre que le PGD est avant tout un outil de réflexion et de gestion de projet, utile pour mettre en œuvre des bonnes pratiques de gestion des données de recherche.

  • Le PGD est à fournir maximum 6 mois après l’acceptation du projet et de son financement. La commission examine le projet et s’assure ensuite que les différentes versions du PGD sont bien rendues. L’ANR se réserve par exemple le droit de suspendre le versement si le PGD n’est pas rendu. En revanche, il n’existe pas pour l’instant de véritable évaluation qualitative des PGD rendus.

  • Ne pas hésiter à se faire accompagner en local (par les équipes de soutien à la recherche ou par un atelier de la donnée) ou par l’équipe OPIDoR.

  • Le PGD est un outil de gestion de projet qui permettra de gagner du temps et de se poser les bonnes questions concernant la gestion et le partage des données.
    Le PGD permet de définir et de mettre en place les actions indispensables pour gérer les données qui vont être collectées ou produites au cours d’un projet. Il est là pour faciliter la gestion des données de recherche et aide à organiser et anticiper toutes les étapes du cycle de vie des données.

  • L’idéal est d’élaborer votre PGD avec l’aide de différents acteurs d’un projet : scientifiques mais aussi informaticiens, data librarians, juristes… la rédaction et la mise à jour du PGD doivent être organisées en fonction des personnes ressource disponibles.

  • Il est difficile d’évaluer le temps nécessaire à la rédaction d’un PGD, c’est variable suivant le projet. La rédaction se fait au fur et à mesure de l’avancée de celui-ci. Un PGD pour une thèse menée de manière plus ou moins autonome sera bien plus facile et rapide à rédiger qu’un PGD se rapportant à un énorme projet pluridisciplinaire et pluri-établissements.
    Le PGD va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
    Le PGDpeut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !

  • N’importe quel participant au projet peut être responsable de la rédaction d’un PGD. Il peut aussi s’agir d’une responsabilité collégiale.

  • C’est souvent le porteur du projet qui est désigné comme rédacteur principal et qui, de fait, invite les collaborateurs à contribuer au PGD. Mais il est tout à fait possible de désigner par exemple le gestionnaire des données comme rédacteur principal du PGD.

  • Oui, c’est possible si cette personne est intégrée dès le début du projet et qu’elle suit ses évolutions au plus près.
    Toutefois, c’est le chercheur porteur du projet qui est le plus souvent responsable de la rédaction du PGD car c’est lui qui connait le mieux les jeux de données, les traitements etc. Par contre, co-rédiger un PGD avec un documentaliste est une excellente idée.

  • Les deux façons de faire sont recevables, à condition d’avoir réfléchi en amont aux forces, faiblesses, opportunités et menaces des deux modèles. Si le choix est fait de différencier les pratiques de gestion, il sera d’autant plus important de formaliser les décisions prises par chaque partenaire, afin de faciliter les échanges de données au sein même des équipes qui collaborent.

  • C’est tout à fait possible, notamment dans certains projets menés de manière solitaire.
    Mais, même dans ces cas, le responsable du PGD aura tout intérêt à solliciter l’avis de différents interlocuteurs (juriste, informaticien, bibliothécaire, archiviste, etc.) pour l’aider dans sa rédaction, à défaut de pouvoir l’aider dans la gestion quotidienne des données.

  • N’importe quel(s) participant(s) au projet peu(ven)t suivre la mise en place d’un PGD, mais pour des raisons politiques, il est souvent important que le(s) responsable(s) du projet s’implique(nt), ou au moins manifeste(nt) leur soutien.

  • Il s’agit là des responsabilités pour toutes les tâches qui auront trait à la gestion des données :

    • Qui est responsable de la rédaction du PGD et de sa mise à jour ?
    • Qui est responsable de la collecte (réalise la collecte ou supervise ceux qui la font) ?
    • Qui est responsable du traitement des données ?
    • Qui est responsable du stockage ?

    Il peut donc y avoir plusieurs responsables sur des tâches différentes, et avec des profils différents (ingénieur d’étude, technicien, documentaliste…).
    Il peut aussi arriver que toutes ces tâches soient assumées par une seule et même personne, et que cette personne ait en plus des responsabilités dans le pilotage du projet.

  • Cela fait partie des questions importantes à se poser en début de projet, pour anticiper ce genre de problème.
    La formalisation la plus fine et la plus précise possible (au sein d’un PGD par exemple) de toutes les tâches associées à la gestion des données procure un avantage indéniable.

  • Rien n’empêche d’inviter des chercheurs étrangers à collaborer sur un PGD via DMP OPIDoR.
    On peut aussi citer d’autres plateformes sur lesquelles des chercheurs français peuvent se créer un compte :

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de PGD, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre PGD à partir d’un outil bureautique.

  • Recourir à une plateforme présente plusieurs avantages :

    • Elles permettent un travail collaboratif plus facile que s’il s’agissait d’envoyer un fichier Word, et plus sécurisé que s’il s’agissait de compléter un document sur un espace en ligne comme GoogleDrive ou FramaPad ;
    • Elles centralisent plusieurs modèles de PGD proposés par différentes institutions, permettant de les comparer à un seul endroit et de choisir le plus pertinent pour son projet ;
    • Elles proposent le plus souvent de l’aide contextuelle sous forme de consignes ou d’infobulles visant à expliciter les réponses à indiquer dans chaque rubrique ; la longueur de ces aides dépend des points abordés ;
    • Elles permettent d’exporter les informations saisies sous la forme d’un document rédigé, dans plusieurs formats de fichier possibles (PDF, texte…) ;
    • Elles devraient permettre à terme d’encoder automatiquement les PGD eux-mêmes dans un format lisible par des machines (machine-actionable DMP).

    Certaines communautés scientifiques préfèrent d’autres outils que DMP OPIDoR, notamment des plateformes qui permettent de travailler dans des formats de fichiers spéciaux tels que MarkDown ou LaTeX. C’est aussi le cas des chercheurs qui ont besoin de remplir des documents supplémentaires, comme des déclarations de conformité RGPD qui font doublon avec les rubriques du PGD qui concernent les données personnelles.

  • Vous pouvez tout à fait rédiger un PGD de manière collaborative. Par contre cela ne peut pas se faire de manière simultanée. Pour plus de fluidité, il est conseillé aux contributeurs d’utiliser la zone « commentaires ».
    Les personnes bénéficiant du statut de “Copropriétaire” et “Editeur” ont le droit d’effectuer des changements et de modifier les réponses.
    Les personnes dotées du statut “Lecture seule” ne peuvent pas faire de modifications dans le PGD mais elles peuvent participer indirectement sous la forme de commentaires. A charge aux personnes habilitées à intervenir dans la rédaction du PGD d’intégrer, ou non, les suggestions de modification.
    Remarque : pour un meilleur suivi, un encadré indique sous chaque question qui est intervenu en dernier et à quel moment.

  • Le plus simple est de vous référer à la sélection de sources d’accès à des PGD du site CoopIST du CIRAD, dans laquelle vous trouverez différentes plateformes de création de PGD qui proposent des PGD publics. Il y en a également dans des bases de données bibliographiques, des archives ouvertes de publications, des entrepôts de données de recherche, des moteurs de recherche académiques et des revues scientifiques.

  • Déposer son PGD dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple le déposer sur HAL. Vous pouvez également le déposer dans l’entrepôt de données Recherche Data Gouv qui offre l’avantage de lui attribuer automatiquement un DOI.
    On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scenarii sont envisageables.

  • Des ateliers de la donnée on été mis en place dans le cadre de Recherche Data Gouv (plateforme nationale fédérée des données de la recherche). Ces ateliers se positionnent comme le point d’entrée en proximité locale des équipes de recherche sur toute nature de besoin relatif à la donnée. Les initiatives d’accompagnement existantes sont promues et les nouvelles initiatives sont encouragées. L’ambition est de déployer, dans une logique de partenariats entre des établissements d’un ou plusieurs sites, des dispositifs de mise en commun de ressources et compétences pour apporter, en proximité des chercheurs, un premier niveau d’expertise, sur toute problématique de l’ensemble du cycle de vie de la donnée.

  • Pour une première approche, vous pouvez consulter les ressources « en bref » et « l’essentiel » de la thématique « Plan de gestion de données » de DoRANum : https://doranum.fr/plan-gestion-donnees-dmp/
    Au niveau de votre organisme, dirigez-vous vers les data librarians ou documentalistes si possible.
    Enfin, vous pouvez obtenir de l’aide ou des informations sur la rédaction d’un plan de gestion de données en contactant l’équipe OPIDoR de l’Inist-CNRS : info-opidor[at]inist.fr
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • Vous devez répondre aux questions du PGD qui sont pertinentes par rapport à votre projet. Par ailleurs, vous ne pourrez pas répondre à toutes les questions dès le début du projet. Le DMP étant un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.

  • Il vaut mieux être le plus descriptif possible car il faut considérer le PGD comme un réel outil de gestion de vos données. Cela évite la perte de données (notamment, par exemple, après le départ d’une personne).

  • Il faut indiquer les difficultés et contraintes liées au partage des données, pourquoi vous ne pouvez pas les partager (données sensibles, confidentielles, etc.).

  • Parce que ce sont des disciplines qui potentiellement aussi déposent des projets ANR, des ERC soumis à financement et donc avec l’obligation de fournir un PGD.

    De façon globale, tous les projets de recherche quelles que soient les disciplines et à partir du moment où elles génèrent ou collectent des données ont un intérêt à se doter d’un PGD pour :

    • prévenir les potentielles pertes de données
    • gérer les traitements liés aux données personnelles ou sensibles ou des documents encore sous droit d’auteur (art contemporain par exemple).
  • Un “projet de thèse” est un excellent début de PGD, car il aborde des thématiques que l’on retrouve dans ce genre de documents (objectifs du projet de recherche, type de données qui serviront à l’appuyer, etc.).
    Mais un PGD va plus loin, est plus exhaustif qu’un projet de thèse. Il aborde davantage de notions. En outre, un PGD a vocation à être complété / corrigé tout au long du doctorat (ou de tout projet de recherche), alors qu’un “projet de thèse” est un livrable ponctuel.

  • Le PGD peut tout à fait être utilisé en tant que plan de gestion de donnée d’une entité, c’est-à-dire pour un laboratoire ou une équipe de recherche. Cela permettra de mettre en place une politique de gestion des données, et d’amener les chercheurs à se poser les bonnes questions. Le PGD est une bonne pratique au quotidien de gestion des données à mettre en place dans les unités de recherche.

  • Il est possible de rédiger un PGD sans qu’il soit lié à un projet de recherche. Le PGD permet d’appliquer de bonnes pratiques de gestion des données de recherche dans son laboratoire. Il existe même des modèles de PGD d’entité (exemple celui de l’INRAE).

  • Le PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des « PGD d’entité » (à l’INRAE) qui établissent des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le PGD sert au centre à gérer ou prévoir les besoins en stockage. Le PGD devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul).

  • Il est possible de rédiger ce que l’on appelle un PGD d’entité.
    Vous en avez deux exemples avec celui proposé par l’INRAE et celui de Science Europe (vous pouvez les retrouver dans la liste des modèles de DMP proposée sur DMP OPIDoR).
    Sinon, vous pouvez partir d’un modèle conçu pour des projets et ne pas tenir compte de toutes les parties plus administratives.
    L’intérêt est de pouvoir gérer les données d’une unité hors projet, par exemple d’anciennes données.
    Il n’y a pas de recommandations spécifiques.

  • Dans le cas d’un PGD pour une plateforme, l’entité devra (comme pour un projet) décrire comment les données sont gérées, quelles ressources y sont attribuées… Vous pouvez utiliser pour cela un modèle de PGD d’entité. Il n’y a pas de lien direct avec la certification mais la rédaction d’un PGD peut sûrement aider à structurer une demande de certification.

  • Bien sûr, c’est même recommandé. Le PGD doit être adapté à vos besoins, il ne sert que de vade-mecum pour vous aider à tirer le maximum de bénéfice de vos données.

  • Les chercheurs évoquent souvent les difficultés suivantes (pour lesquelles de nombreuses solutions existent) :

    • Manque de connaissances (notamment sur des points comme le cadre juridique, les questions d’éthique) ;
    • Manque de compétences (notamment sur des questions informatiques : formats de fichiers, protocoles de sauvegarde, standards de métadonnées…) ;
    • Manque de temps (surcharge administrative supplémentaire) ;
    • Manque de reconnaissance (la rédaction d’un PGD n’est pas encore assez valorisée, notamment dans les évaluations des chercheurs) ;
    • Ampleur de la tâche (notamment dans les gros projets multipartenaires impliquant plusieurs établissements dans plusieurs États) ;
    • Manque d’outils appropriés (notamment dans les disciplines qui utilisent plus volontiers des outils tels que LaTeX et ne voient pas l’intérêt de passer par DMP OPIDoR).
  • Les bonnes pratiques en matière de gestion des données existent en partie pour prévenir les risques potentiels :

    • Risques informatiques / matériels : perte de données ou des métadonnées, mauvaise conservation les rendant inutilisables…
    • Risques de sécurité : vol de données sensibles (personnelles, soumises à un secret quelconque…)
    • Risques scientifiques :
      • Conclusions erronées basées sur des données fabriquées, falsifiées ou tout simplement mal collectées / mal traitées / mal interprétées ;
      • Non reproductibilité de certaines expériences si les données et métadonnées ne sont pas bien gérées ni rendues FAIR ;
      • Manquements à l’intégrité scientifique dus à de mauvaises pratiques de citation des données…
    • Risques juridiques : non-respect du cadre juridique des données de la recherche (données sous droit d’auteur, données personnelles, données soumises à un secret quelconque…).
  • Il n’y a pas de précédent de fuites. Les données elles-mêmes ne sont pas hébergées sur les plateformes de rédaction de PGD. Il ne s’agit que du document qui les décrit.
    Les données personnelles contenues dans les PGD (noms des chercheurs responsables des projets et qui jouent un rôle dans la gestion des données) sont conservées dans le respect du RGPD par les institutions qui portent ces plateformes (l’Inist-CNRS pour DMP OPIDoR, le Digital Curation Centre pour DMPOnline et le California Digital Library pour DMPTool).

PLAN DE GESTION DE DONNÉES (PGD) : Modèles de PGD

  • Les modèles de PGD dépendent des organismes qui les conçoivent (ceux-ci peuvent alors présenter une orientation disciplinaire spécifique) ou des organismes (financeurs, établissements de tutelle…) qui en imposent l’utilisation.
    Certains modèles de PGD pluridisciplinaires proposés par des financeurs comme la Commission européenne ou l’Agence nationale de la recherche peuvent convenir à des projets dans n’importe quelle discipline. Cependant, si vos recherches portent principalement sur des données à caractère sensible (recherche biomédicale par exemple), vous aurez peut-être intérêt à utiliser un modèle de PGD fourni par un établissement qui s’intéresse à ces problématiques.

    Quelques exemples de modèles disciplinaires :

  • Oui tout à fait. Tous les organismes auteurs de modèles de PGD les proposent dans un format ouvert, librement utilisable par tout un chacun.
    Ces modèles de PGD sont disponibles sur les sites internet de chaque organisme, mais aussi sur des plateformes centralisées telles que DMP OPIDoR.

  • Les financeurs peuvent proposer un modèle mais aucun modèle n’est obligatoire. Vous pouvez choisir celui qui vous convient le mieux, par exemple celui de votre établissement s’il en propose un.

  • Vous pouvez contacter l’équipe OPIDoR (info-opidor[at]inist.fr) pour mettre en place un modèle personnalisé avec des recommandations spécifiques à votre université ou étudier les options les plus adaptées.

  • Le PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des modèles de PGD « d’entité » (à l’INRAE notamment) qui permettent d’établir des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le PGD sert au centre à gérer ou prévoir les besoins en stockage. Le PGD devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul…).
    En ce qui concerne les thèses, le PGD est de plus en plus souvent utilisé car c’est un bon outil de gestion et de planification.

PLAN DE GESTION DE DONNÉES (PGD) : Produits de recherche et jeux de données

  • ” Un jeu de données peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent “. Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée.

    Source : Gaillard Rémi. De l’open data à l’open research data : quelle(s) politique(s) pour les données de recherche ? Janvier 2014. https://www.enssib.fr/bibliotheque-numerique/notices/64131-de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche

  • Les deux ! Dans le PGD, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.

  • Le PGD doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.

  • Les données peuvent revêtir une multitude de formes : quantitatives, qualitatives, relevés de terrain sous forme de fichiers tabulés, entretiens enregistrés, audio, vidéo, etc. Il arrive que, pour certains projets, le terme de « données » paraisse inadapté. La définition est large (voir la définition des données de la recherche ci-dessus).

    En philosophie, par exemple, on peut avoir l’impression de ne pas en produire. Pour autant, il existe dans cette discipline de nombreux matériaux produits préalablement à la publication d’un article. Par exemple, une base de données compilées de textes de philosophes antiques lemmatisés. Si le fait de rédiger un plan de gestion de données ne vous semble pas nécessaire, alors il faut remettre en perspective les matériaux produits avant d’écrire un article. Sur quoi vous appuyez-vous pour le réaliser ? Vous pouvez penser à tous les matériaux auxquels vous tenez vraiment et qui seraient irremplaçables ou très longs à recréer, s’ils n’étaient pas sauvegardés ou conservés en sécurité. Ainsi, les sources réutilisées peuvent être considérées comme des données, mais aussi les notes, les brouillons, les logiciels, les flux de travail, les protocoles. Tous ces ensembles peuvent former ensemble un jeu ou des jeux de données cohérents, à partir desquels un PGD pourrait être rédigé.

    Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/

  • Un PGD doit idéalement concerner absolument toutes les données collectées, produites, réutilisées, traitées, manipulées, comparées, analysées etc. au cours de la thèse. Et si vous avez oublié d’inclure certaines catégories de données au début de votre projet, vous pouvez les rajouter à tout moment, car le PGD doit évoluer tout au long de votre projet pour en refléter la réalité.
    En commençant la rédaction de votre PGD sur DMP OPIDoR, il vous sera demandé d’identifier vos “produits de recherche”: il s’agit justement des différents ensembles de données que vous allez collecter, produire etc. Le fait de “découper” ses matériaux de recherche en plusieurs “produits” sert à indiquer des spécificités de traitement entre ces produits. Dans un projet pluridisciplinaire, par exemple, on pourrait imaginer que les produits n’ont pas vocation à être déposés dans les mêmes entrepôts, par exemple, ni à être décrits selon les mêmes standards de métadonnées : d’où l’intérêt d’agencer les réponses aux questions posées par le PGD en produits distincts.
    Si vous manipulez des types de données très différents, certaines rubriques du PGD pourront être cruciales pour un type mais pas pour l’autre (ex.: les enjeux éthiques ne seront probablement pas très importants si vous manipulez des corpus de textes antiques, mais ils le seront si vous analysez les notes des élèves qui auront eu à étudier ces textes).

  • Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre PGD si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …

  • Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.

  • Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
    Un type de données = un produit de recherche.

  • Tout à fait. Dans votre PGD, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.

  • Un échantillon biologique pris isolément n’est pas considéré comme un produit de recherche.
    S’il fait partie d’une collection et qu’il est conservé à l’issue de la recherche, dans ce cas, l’ensemble des échantillons utilisés pour cette recherche peut être considéré comme un jeu de données et donc comme un produit de recherche. L’idée est que de ce fait le produit de recherche peut être géré et partagé.

  • Cela concerne principalement le traitement des données (souvent des traitements informatiques).

    Exemples :

    • Dans le PGD d’entité sur la plateforme Metabolome de Bordeaux :
      Workflow : Séquence de traitement de données – ex fichiers de macrocommandes issues de NMRProcFlow, Jupyter notebooks.
    • Dans le PGD de l’infrastructure OLA :
      Les workflow des principales données du SI sont ci-dessous :
      – pour la physico-chimie : Workflow-traitement-Physico-Chimie-OLA.png
      – pour la détermination et le comptage du zooplancton : Workflow-analyse-du-zooplancton.png
      – pour l’insertion de ces données vers le SI OLA : Workflow-insertion-des-donnees-vers-le-SIOLA.png

    Dans DMP OPIDoR vous pouvez retrouver les définitions des différents types de produits de recherche : https://dmp.opidor.fr/static/research_output_types.
    Voici la définition (traduction) du type Workflow : série structurée d’étapes pouvant être exécutées pour produire un résultat final, offrant aux utilisateurs un moyen de mettre en oeuvre leur travail de manière plus reproductible.

  • Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre PGD. Cette évaluation peut en effet s’avérer difficile en début de projet. Le PGD est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.

  • Il n’y a qu’une seule personne contact possible pour chaque produit de recherche. Il est donc tout à fait possible de confier la responsabilité de chaque jeu de données à des personnes différentes.
    Cependant, on peut définir plusieurs responsables, par exemple, du stockage ou de la production ou de la collecte des données…

  • Par exemple :

    • Si vous vous rendez compte qu’elles ont été mal collectées / mal produites (lacunes dans les données, mauvais étalonnage ou mauvais paramétrage des instruments, biais induit par la personne qui a réalisé la collecte…)
    • Si vous ne savez pas exactement dans quelles conditions des données existantes ont été produites (peut-être ont-elles des vices cachés)
    • Si elles ont été collectées d’une manière illicite (ex.: piratage de bases de données, interdit notamment dans le cadre du text and data mining)
    • Si le traitement prévu pour des données personnelles ne respecte pas le RGPD
    • Si l’utilisation prévue des données sous droit d’auteur porte atteinte à l’intégrité de l’œuvre (non-respect des droits moraux des auteurs)
  • Cela dépend de votre approche, de votre projet de recherche. Le logiciel peut jouer un triple rôle dans la recherche :

    • Il sert d’outil dans de nombreux domaines, en traitant efficacement divers types de données pour construire et tester des modèles visant à étayer ou invalider des hypothèses.
    • Il peut constituer en lui-même un résultat de recherche, en tant que preuve d’existence d’une solution algorithmique efficace pour un problème donné.
    • Il peut être lui-même objet de recherche. En particulier, la communauté scientifique s’intéresse aux modes de développement des logiciels et à la preuve de leurs propriétés, en lien notamment avec la transparence et la confiance dans les traitements informatisés.

    Dans tous les cas, il est recommandé de les inclure dans le PGD et de déposer les codes sources dans un entrepôt (indiquer l’entrepôt choisi dans le PGD).
    A noter qu’il existe des modèles de PGD spécialement dédiés aux logiciels comme le modèle PRESOFT.

PLAN DE GESTION DE DONNÉES (PGD) : Contenu

  • Le PGD permet de formaliser au sein d’un document unique des informations utiles au suivi du projet et à la bonne gestion des résultats obtenus, auparavant dispersées entre divers acteurs ou documents.  Par exemple, dans l’accord de consortium signé entre les partenaires d’un projet européen, on trouve des informations qui pourront être reprises dans le PGD.
    L’objectif à terme est de rendre les PGD entièrement interopérables avec différents outils, afin de limiter au maximum la double saisie des informations (ex.: la rubrique “coûts” du PGD serait automatiquement alimentée par le logiciel de gestion budgétaire et comptable du laboratoire).

  • Tous les projets de recherche qui manipulent des données auraient intérêt à se doter d’un PGD. La base de la réflexion consiste à prendre le temps de s’interroger sur ce que peuvent être les données de sa thèse / de son projet :

    • Quels sont les éléments, numériques ou non, auxquels je tiens vraiment et qui seraient irremplaçables ou très longs et complexes à remplacer en cas de perte, de vol ou de problème technique ?
    • Si je devais relire et évaluer les travaux de collègues qui travaillent sur un sujet de recherche similaire au mien, de quoi aurais-je besoin pour vérifier leurs résultats, reproduire leurs expériences ou tout simplement reproduire leur cheminement intellectuel ?

    Toutes les réponses à ces questions sont recevables, y compris “je ne manipule que des sources secondaires / de la bibliographie / les publications d’autres chercheurs / des textes de loi publics”.
    Le PGD est ensuite utile pour se demander si les données en question impliquent des enjeux particuliers en termes de collecte, documentation, stockage, etc. Il est tout à fait envisageable d’expliquer dans ces parties du PGD que vos données ne sont pas concernées, en justifiant cet argument.

  • Il  est conseillé de déclarer votre organisme de tutelle principal.
    Vous pourrez suivre les recommandations des autres organismes de rattachement en les sélectionnant avant de rédiger votre PGD, s’ils sont disponibles dans la liste des organismes offrant des recommandations.

  • Le périmètre de ce qu’on entend par “ données de la recherche ” varie d’un établissement / financeur à l’autre. Mais d’une manière générale, on peut retenir une définition très pragmatique des données : « tous les matériaux analysés, interprétés ou utilisés lors d’une recherche, quelle que soit leur origine et la méthode utilisée » (M. Saby). Les données analogiques (non numériques ou non numérisées) ont toute leur place dans cette définition pragmatique (qui va différer de la définition strictement juridique des données).

    Toutes ces données matérielles (échantillons, cellules, organismes génétiquement modifiés, réactifs, prototypes, tessons, fragments d’œuvres d’art…) doivent faire l’objet d’une réflexion approfondie et être incluses dans le PGD. Toutes les questions relatives à la bonne gestion des données peuvent les concerner :

    • Comment seront-elles produites / collectées ?
    • Comment seront-elles stockées ?
    • Qu’adviendra-t-il d’elles à la fin du projet ? Etc.

    Il est évident que ces données ne pourront pas être diffusées aussi largement que pourraient l’être des données numériques ou numérisées. Dans les cas où il n’est pas possible de rendre ces données analogiques Faciles à trouver, Accessibles, Interopérables et Réutilisables, ce sont les métadonnées décrivant ces données qui devront être enrichies et rendues FAIR.

  • Il faut préciser tous les types de matériels et logiciels utilisés.
    Il est recommandé de déposer ses codes sources dans Software Heritage (archive universelle de logiciels qui garantit la pérennité des codes sources).

  • Il est possible d’indiquer le lien entre les données et les publications qui vont être réalisées mais le PGD est bien centré sur la gestion des données elles-mêmes. À noter que son périmètre s’étend à toutes les données, pas seulement celles qui donneront lieu à une publication.

  • Oui, car vous allez à nouveau agir sur ces données. Comment les sélectionnerez-vous pour les réutiliser ? Où les stockerez-vous ? Quels traitements allez-vous leur appliquer ? Allez-vous les conserver après votre projet ? Etc.
    S’il vous manque des informations sur le contexte de production de ces données, le PGD est justement l’occasion d’expliquer ces lacunes en détails, afin que vous ne puissiez pas être pénalisé ensuite si un problème est mis au jour.

  • Oui, ce sont de bonnes pratiques en recherche académique.

  • À vous de prévoir ces aspects le plus en amont possible pendant votre projet, et de spécifier dans le PGD les conditions dans lesquelles vous souhaitez produire cette documentation. N’hésitez pas à proposer des exemples précis, à joindre en annexe du PGD.
    Prévoyez aussi comment effectuer le suivi de la bonne application de ces recommandations.

  • C’est un outil ou une application qui facilite la production de métadonnées et le dépôt des données dans un entrepôt.

  • Vous pouvez vous adresser à l’équipe OPIDoR en cas de difficultés pour compléter cette rubrique et si vous avez une question précise.
    Pour familiariser les personnes que vous accompagnez à ces notions, vous pouvez utiliser les ressources de DoRANum. Cette plateforme est conçue pour vous accompagner pas à pas et le vocabulaire est bien défini.
    Des passeports édités par le CoSo peuvent également vous aider :
    https://www.ouvrirlascience.fr/category/ressources/

  • Ces critères varient énormément d’une discipline à l’autre. Apprendre ces critères fait partie de la formation de jeune chercheur : renseignez-vous auprès de chercheurs expérimentés dans votre domaine.
    Quelques critères généralistes :

    • Vérifier que les données ont été convenablement collectées (en ayant documenté le processus de collecte)
    • Vérifier que les traitements qu’ont subi les données ont été entièrement et correctement décrits
    • Favoriser un contrôle par une personne ou une instance tierce
    • Etc.

    N’hésitez pas non plus à consulter des PGD rédigés, ainsi que cette piste bibliographique :
    Batifol Véronique, Burnel Laurent, Johany François. “QualiNous”: un collectif pour accompagner les bonnes pratiques de gestion et de partage des données au Département SAD de l’Inra. Le Cahier des Techniques de l’INRA. 26 février 2019. https://novae.hub.inrae.fr/content/download/5248/53479?version=2

  • Ce qui fait la qualité ou la véracité d’une donnée varie d’une discipline à l’autre. Pensez notamment à consulter les métadonnées et la documentation relative au contexte de création / collecte des données qui vous sont ensuite mises à disposition.
    N’hésitez pas à prendre contact avec le(s) producteur(s) des données pour en savoir plus si vous avez un doute.

  • Idéalement, il faut fournir le plus de détails possible. Demandez-vous de quelles informations vous auriez besoin si vous étiez extérieur à votre projet de recherche, et que vous deviez reproduire votre expérience / refaire votre cheminement intellectuel vingt ans plus tard.
    Les informations à fournir concernent aussi bien des aspects scientifiques (quel protocole de collecte ? quelles questions de recherche ? quelles adaptations au terrain ? etc.) que des aspects techniques (quel matériel ? quels réactifs ? quels paramètres ? quelle périodicité ? etc.) ou informatiques (quelle version du logiciel ? quel éditeur ? quel script ? etc.). Ce sont des éléments indispensables à la robustesse de vos résultats scientifiques, y compris dans des disciplines non expérimentales où il n’est pas question de reproduire des expériences telles quelles mais d’au moins se mettre dans la peau d’un chercheur pour reproduire et comprendre son raisonnement.
    Pour avoir une idée des détails à fournir dans vos disciplines, n’hésitez pas à lire des PGD rédigés.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Quelques pistes pour évaluer les coûts (ne pas oublier les coûts en temps et en ressources humaines) :

  • Les coûts dans un PGD sont tous les coûts liés à la gestion des données de recherche.

  • Oui, tous les coûts peuvent être indiqués. Dans DMP OPIDoR, lorsque vous choisissez un modèle structuré, il y a un nouvel onglet sur le budget qui récapitule tous les coûts.

  • Dans le PGD, il n’est question que des coûts liés à la gestion des données de recherche.

    Recommandations :

    • Expliquer comment les ressources nécessaires (par exemple le temps) à la préparation des données pour le partage/préservation (curation des données) ont été chiffrées. Examiner et justifier soigneusement toutes les ressources nécessaires pour diffuser les données.
    • Il peut s’agir de frais de stockage, de coût matériel, de temps de personnel, de coûts de préparation des données pour le dépôt, de frais d’entrepôt et d’archivage.
    • Indiquer si des ressources supplémentaires sont nécessaires pour préparer les données en vue de leur dépôt ou pour payer tous les frais demandés par les entrepôts de données. Si oui, précisez le montant et comment ces coûts seront couverts.
  • Pour les projets financés par l’ANR, toutes les dépenses liées à la gestion des données sont éligibles durant le projet : acquisition, collecte, stockage, personnel dédié à la gestion des données… En cas de recours à un tiers, le coût de stockage des données est admissible jusqu’à 5 ans après la date de fin scientifique du projet, sous réserve que le contrat avec ce tiers soit conclu avant la fin scientifique du projet.
    (Source : Gala Garcia Reategui. La politique science ouverte de l’Agence Nationale de la Recherche et le DMP. https://octaviana.fr/document/VUN0041_02#?c=&m=&s=&cv=)

  • Les dépenses à prévoir pour la gestion quotidienne des données, ou du moins, pour rendre les données ouvertes et FAIR, peuvent être prises en charge par les organismes de financement de la recherche.
    Seul prérequis : fournir une estimation suffisamment solide de ces futures dépenses au moment de la réponse à appels à projet, pour l’inclure dans la demande de financement.

  • Ce temps est très difficile à estimer. Il dépend du type de données, des infrastructures mises à disposition ou non par les institutions (entrepôt), des moyens alloués à chaque projet (financier, humains) et des compétences des participants aux projets.
    Vous pouvez par ailleurs consulter cette page web où sont regroupés quelques liens vers des outils ou checklists concernant l’évaluation des coûts (financiers et en temps) de la gestion des données de recherche dans un projet.

MÉTADONNÉES

  • Tout va dépendre de votre type de données. Vous n’aurez pas forcément besoin de fournir des métadonnées de géolocalisation pour des données qui décrivent les réactions de bactéries face à des antibiotiques, par exemple.
    Commencez par repérer les pratiques dans votre discipline et pour le type de données que vous produisez : les métadonnées à fournir sont présentées dans le respect de certains standards. À vous ensuite de produire vos propres métadonnées, en les rendant conformes à ces standards.

    Exemple de métadonnées importantes quel que soit le type de données :

    • Description du contenu intellectuel
      • Titre
      • Résumé
      • Mots-clés
    • Caractéristiques techniques
      • Format
      • Logiciel utilisé pour la production ou le traitement
      • Version
      • Taille
    • Droits liés
      • Producteur des données
      • Droits d’accès
      • Droits de réutilisation
    • Relations impliquant les données
      • A pour partie…
      • Est une partie de…
      • A donné lieu à la publication…
  • En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. […] Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s’appuient sur des vocabulaires contrôlés (https://schema.datacite.org).
    Il est en général nécessaire de suivre les standards et recommandations relatifs à la discipline et/ou à la thématique des données. […] Si vous ne connaissez pas les métadonnées de votre domaine, […] consultez les sites suivants :
    – RDA Metadata Standards Catalog : https://rdamsc.bath.ac.uk/
    – FAIRsharing : https://fairsharing.org/standards/
    – DCC : http://www.dcc.ac.uk/resources/metadata-standards

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/faq.html

  • Il est indispensable de documenter et d’expliquer les termes utilisés pour nommer les données. […]
    Il est possible de s’appuyer sur un data paper pour porter à connaissance les métadonnées métiers.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/faq.html

  • Il existe des ressources dans DoRANum dans la thématique Métadonnées, Standards, Formats : https://doranum.fr/metadonnees-standards-formats/
    Vous pouvez également vous adresser aux personnes qui peuvent vous accompagner dans les universités, auprès des ateliers de la donnée ou directement auprès du Service OPIDoR : info-opidor[at]inist.fr

  • Voici les informations qui permettent d’établir un référentiel en fonction des sujets des données de recherche d’un laboratoire :

    • Nomenclature :

    IUPAC gold book (https://goldbook.iupac.org/)

    • Vocabulaire Chimie et Matériaux :

    (http://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Actualites/Vocabulaire-de-la-chimie-et-des-materiaux-2018)

    • Vocabulaires plus généraux avec une partie consacrée à la chimie :

    Rameau (http://rameau.bnf.fr/)
    chimie (https://catalogue.bnf.fr/ark:/12148/cb119704650)

    Thesaurus Eurovoc
    36 SCIENCES
    3606 Sciences naturelles et appliquées
    (https://publications.europa.eu/fr/web/eu-vocabularies/th-top-concept-scheme/-/resource/eurovoc/100141?target=Browse&)

    GEMET
    chimie (https://www.eionet.europa.eu/gemet/fr/theme/6/concepts/)

    LCSH, Library of Congress Subjects Headings
    chimie (http://id.loc.gov/authorities/subjects/sh85022986.html)
    chimie physique (http://id.loc.gov/authorities/subjects/sh85023027.html)

    • Thesaurus :

    Loterre : Chimie (https://skosmos.loterre.fr/37T/fr/)

    • Ontologies :

    CHEBI, Chemical Entities of Biological Interest
    (https://www.ebi.ac.uk/ols/ontologies/chebi)

    REX, Physico-chemical process
    (https://www.ebi.ac.uk/ols/ontologies/rex)

    CHMO, the chemical methods ontology
    (https://www.ebi.ac.uk/ols/ontologies/chmo)

    FIX, an ontology of physico-chemical methods and properties
    (https://www.ebi.ac.uk/ols/ontologies/fix)

    CHEMINF, Chemical Information Ontology
    (https://bioportal.bioontology.org/ontologies/CHEMINF)

    MOP, Molecular Process Ontology
    (https://bioportal.bioontology.org/ontologies/MOP)

    RXNO, Name Reaction Ontology
    (https://bioportal.bioontology.org/ontologies/RXNO)

  • Dans un premier temps, faites vous accompagner par des documentalistes ou des data librarians.
    Vous pouvez aussi consulter la sur les schémas de métadonnées ainsi que la ressource « Outils de création de métadonnées ».

  • Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
    Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
    Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
    A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche DataCite Search.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • Il y a dans chaque établissement/structure, des personnes pour vous accompagner dans la gestion de vos données (et donc le renseignement des métadonnées), notamment les professionnels de l’information scientifique et technique (IST), mais aussi des informaticiens par exemple ou une cellule d’accompagnement spécifique. Il faut vous renseigner pour savoir qui peut vous accompagner en local et possède ces connaissances pour vous aider.

IDENTIFIANTS PÉRENNES : généralités

  • Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.

  • Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).

  • Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).

  • Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…

  • Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.

  • Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.

  • Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.

  • Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.

  • Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt :

    • Soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ;
    • Soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).
  • Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.

  • On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant, il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.

  • Si votre institution a un compte DataCite permettant d’attribuer des DOI, vous pourrez attribuer un DOI à votre PGD. Sinon, pour établir le contrat, il faut contacter le service de l’Inist-CNRS en charge de l’attribution de DOI via le portail OPIDoR. Ce service procédera à l’ouverture d’un compte DataCite, et proposera un accompagnement dans la création de DOI.

  • Aucun identifiant en particulier n’est requis. Il s’agit de renseigner un identifiant pour chaque partenaire associé au projet. S’il s’agit d’un chercheur, ce sera probablement un ORCID, si c’est un partenaire institutionnel, ce peut être un ROR… Dans DMP OPIDoR, un menu déroulant propose une sélection d’identifiants pour vous aider (ORCID ID, ROR ID, IdHAL, Crossref funder ID, ISNI, IdRef, URL, RNSR). Renseigner un identifiant pérenne contribue à bien identifier chaque partenaire sans risque d’ambiguïté.

  • L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.

  • En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite.

  • L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.

  • Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.

  • A l’Inist-CNRS via l’alias datasets[at]inist.fr

  • Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.

  • Les EPIC sont considérés comme public.

  • Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.

  • Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.

  • Tout organisme ayant une existence juridique.

  • Le préfixe est attribué à l’organisme qui signe le contrat.

  • Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.

  • C’est au cas par cas.

  • Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets[at]inist.fr

  • Oui, nous avons déjà des partenaires africains.

  • Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.

  • Chaque organisme producteur de données décide de son propre workflow.

  • Non, ce n’est pas possible. Il faut passer par votre institution.

DEPÔTS & ENTREPÔTS

  • Il y a de nombreuses raisons de déposer ses données. Concernant la publication des articles, le dépôt peut devenir une condition obligatoire. En effet, de plus en plus de revues demandent l’accès aux données, pour améliorer les conditions dans lesquelles les comités de lecture valident les articles. Au niveau du travail scientifique, la réutilisation des données permet de rentabiliser la recherche et d’accélérer l’innovation, car la collecte et le traitement des données peut être coûteux en temps et en argent. De nouvelles collaborations peuvent aussi être favorisées, puisque l’auteur des données est facilement identifiable.
    Par ailleurs, déposer ses données augmente la visibilité de ses recherches. Traditionnellement, les travaux sont visibles à partir des articles publiés. L’avantage de déposer les données liées aux articles est qu’elles deviennent autonomes. Les travaux peuvent donc être vus à partir des articles ou des données, ce qui multiplie donc les chances d’être cité.
    Le contexte politique est favorable à l’ouverture des données. Prenons l’exemple de l’Union Européenne, qui agit en tant que financeur dans le cadre du programme Horizon 2020. A ce jour, les projets inscrits dans ce programme doivent déposer leurs données dans un entrepôt. De son côté l’ANR – sans obliger les chercheurs qu’elle finance à partager dans un entrepôt par exemple – préconise une gestion des données selon l’adage « aussi ouvert que possible, aussi fermé que nécessaire ».
    Enfin, on parle également ici de Science ouverte et citoyenne. En effet, les recherches faites dans le cadre de financements publiques doivent faire preuve d’une certaine transparence vis-à-vis du citoyen.

  • Il y a deux phases à ne pas confondre dans le cycle de vie de la données :
    – Le partage de vos données (avec vos collègues, partenaires) et leur stockage DURANT le projet (dans ce cas, vous pouvez les déposer sur le réseau interne).
    – Le partage de vos données de recherche à la FIN du PROJET. Les entrepôts sont spécifiquement dédiés au partage des données. Attention, vous n’êtes pas obligés de tout partager.

  • Pour bien préparer le partage des données, il est recommandé :
    – de penser cycle de vie de la donnée avant même qu’elle soit générée, c’est à dire dès l’origine du projet. Ceci permet notamment d’expliciter très clairement l’ouverture des données à l’ensemble des partenaires du projet
    – de décrire très spécifiquement les données collectées ou générées en le faisant autant que possible via un portail spécialisé, disciplinaire ou institutionnel, HAL, etc.
    – de décrire le plus finement possible la méthodologie et les outils nécessaires pour leur réutilisation (si possible fournir, avec les données, les programmes permettant l’utilisation (a minima la lecture) des données)
    – de veiller à ce que les formats et standards utilisés soient ouverts et communément utilisés par la communauté
    – d’utiliser une convention de nommage pour désigner correctement ses fichiers
    – de veiller au respect des lois et en particulier le RGPD et éventuellement prévoir d’anonymiser les données
    – de préciser les modalités d’accès et de réutilisation des données en choisissant une licence explicite, en indiquant les périodes d’embargo si besoin
    – de fournir avec les données une référence bibliographique associée aux données (un article de journal). Ainsi l’usage des données devrait impliquer la citation du DOI (ou identifiant unique autre) des données elles-mêmes, ainsi qu’un DOI (ou identifiant unique autre) associé à la publication de référence.
    Pour vous aider dans cette tâche il est fortement conseillé de recourir à la rédaction d’un plan de gestion des données (PGD).
    Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données. […]

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/

  • Le CNRS a une trop large couverture disciplinaire. Il est recommandé de déposer dans un entrepôt disciplinaire et/ou institutionnel ou dans Recherche Data Gouv prioritairement.

  • Dans re3data, vous pouvez sélectionner un entrepôt en fonction de différents critères, notamment le fait qu’un entrepôt soit certifié ou non. Vous pouvez également rechercher un entrepôt certifié sur le site CoreTrustSeal.

  • Les entrepôts sont certifiés par le CoreTrustSeal (https://www.coretrustseal.org/why-certification/requirements/) selon différents critères qui sont réévalués régulièrement. Parmi ces critères il y a l’engagement sur la pérennité des données. Ils proposent une liste des entrepôts certifiés : https://www.coretrustseal.org/why-certification/certified-repositories/

  • Il existe plusieurs possibilités :

    • Rechercher dans des catalogues ou des annuaires qui peuvent vous aider à filtrer votre recherche d’entrepôts : CatOPIDoRre3dataOADOpenDOAR, etc.
    • Rechercher où déposent les pairs (pratique de la communauté) : chercher des données similaires via des moteurs de recherche (DataCite Search, Google Dataset Search, OpenAIRE Explore…) pour repérer les entrepôts dans lesquels elles sont déposées.
    • Vous renseigner auprès de collègues de la même discipline, quelles pratiques ils ont en ce qui concerne le partage de leurs données.
    • Vous faire aider par les personnels de soutien des universités ou de votre organisme.
  • A partir du moment où vous déposez dans un entrepôt certifié donc de confiance, les risques sont limités.

  • Oui, c’est tout à fait possible. Par exemple, des laboratoires privés ou des particuliers (dans le cadre de la science participative) peuvent partager des données.

  • Les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • La plupart des entrepôts permettent au déposant de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo).

  • Si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Cette pratique est même fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.
    Deux cas se posent :
    – Si les données appartiennent exactement au même jeu de données, il ne faut surtout pas dupliquer le jeu de données mais utiliser la notion de collections virtuelles qui existent sur de nombreuses plateformes (DataSuds / Recherche Data Gouv…).
    – Si les mêmes données appartiennent à plusieurs jeux de données, les données peuvent se retrouver de facto déposées à plusieurs endroits, mais il n’est pas conseillé de le faire. Dans ce cas, il faut peut-être réfléchir aux critères utilisés pour définir le jeu de donnée.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#endroits

  • L’utilisation de logiciels ou appareillages propriétaires n’empêche pas le partage des données générées. Par contre, les formats seront propriétaires et ne pourront pas toujours être convertis dans un format ouvert, ce qui est un frein à la conservation et à la réutilisation.

  • Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.

    Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • Si un jeu de données a déjà un DOI, certains entrepôts comme Zenodo permettent de récupérer ce DOI existant et n’attribue pas un autre DOI.

  • Le partage des données dans un entrepôt est souvent gratuit. Cependant, le coût peut varier en fonction de la volumétrie. Par exemple pour 4TU Research data, les dépôts sont gratuits jusqu’à 10 Go par an, payant au-delà (€ 4.50 per GB).

  • Il existe plusieurs types de financement (public, privé, fondations…) selon la ou les institutions responsables de l’entrepôt. Par exemple, l’entrepôt européen Zenodo est financé par la commission européenne.

  • Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu’une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l’attribution d’un DOI .
    Voici deux exemples de citations proposées par des entrepôts :
    – Duchêne, Eric, 2019, “Vitis vinifera cv. Riesling developmental stages”, https://doi.org/10.15454/GYSGNR, Recherche Data Gouv, V3, UNF:6:Qe/3b5e0IdlZsQ5EBqpHwA== [fileUNF]
    – Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854,
    Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science, 77(1), https://doi.org/10.1007/s13595-019-0893-0.
    Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation.
    Quand vous citez un jeu de données provenant d’un entrepôt spécifique, pensez à lui notifier l’article dès que celui-ci est publié pour que l’entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#citer

  • Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.

    • Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
    • Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
      • Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
      • Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.

    Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?

    La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.

  • – OAI-PMH (accès distants)
    – Native API (dépot de données et publication)
    – API de présentation de données (DC, json-ld)
    – Sword API (dépôt), Search API, Data access API, Metrics API et Native API sont les API proposées par Dataverse

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#API

  • Non, My Core (outil utilisé par le CNRS) est un outil qui permet le stockage et la sauvegarde individuelle de fichiers et le partage sécurisé. Il est plutôt utile pour le stockage et le partage de documents avec ses collaborateurs durant un projet. Il n’est pas adapté au partage de jeux de données.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Tous les entrepôts de données ne le permettent pas. Dans l’annuaire re3data (https://www.re3data.org/) vous pouvez trouver des entrepôts certifiés qui s’engagent à proposer un archivage à long terme. C’est notamment le cas de 4TU.ResearchData (https://www.re3data.org/repository/r3d100010216).
    Si l’entrepôt choisi ne permet pas l’archivage à long terme, il faut d’abord réfléchir à quelles données vous allez sélectionner pour un archivage pérenne, puis s’adresser au CINES qui vous accompagnera, tout en sachant que cela a un coût qui n’est pas négligeable. Si vous êtes dans un domaine des SHS, l’infrastructure Huma-Num peut également vous accompagner pour l’archivage de vos données.

  • Pour rechercher des entrepôts français : Cat OPIDoR (https://cat.opidor.fr/)

    Re3data (https://www.re3data.org/) notamment permet de rechercher des entrepôts de données dans différentes disciplines et selon plusieurs critères. La durée de stockage n’est pas systématiquement mentionnée. Il faut aller vérifier sur le site de l’entrepôt lui-même.

    La plupart des entrepôts sont gratuits mais certains peuvent être payants.  Il en existe également en accès restreint.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données dans un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Oui, Software Heritage vous permet de les déposer de façon pérenne, de les partager en accès libre, mais aussi de gérer les différentes versions.
    Pour aller plus loin : ressource DoRANum sur « les codes sources : définitions, enjeux et préservation » : https://doranum.fr/stockage-archivage/les-codes-sources-definition-enjeux-et-preservation_10_13143_7tj2-gw58/

  • Il faut déposer les données dans un entrepôt et le code source dans Software Heritage, puis mettre le lien vers le SWHID dans les métadonnées de la notice des données dans l’entrepôt pour lier les deux.
    Selon Violaine Louvet (membre du collège codes sources et logiciels du Comité pour la science ouverte), en dehors de petits scripts qui permettent la lecture des données, il faut séparer données et code :
    • Si le code est suffisamment important (en taille et en complexité)
    • Si il peut s’appliquer à d’autres données que ce jeu particulier
    • Si il évolue encore.

STOCKAGE & ARCHIVAGE

  • Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.

    Ensuite, pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.

  • Vous pouvez stocker et partager toutes vos données, à condition de :

    • Respecter d’éventuelles restrictions juridiques (ex.: on ne peut pas partager des données personnelles n’importe comment)
    • Documenter rigoureusement l’état de traitement de ces données (fournir des métadonnées de qualité).

    D’autres critères peuvent ensuite guider vos choix de données à préserver ou éliminer, comme le volume des données, leur degré d’unicité (si vos données peuvent facilement être recréées à partir de la documentation que vous avez produite, pas besoin de conserver les données brutes).

  • Les données générées pendant le processus de recherche peuvent être stockées dans un espace de stockage dédié mais toutes ne doivent pas nécessairement être partagées. Certaines données d’un projet peuvent ne pas être partagées pour différentes raisons : données sensibles, questions de sécurité, secret, brevet en cours, intérêts commerciaux…
    « Aussi ouvert que possible, aussi fermé que nécessaire ».
    Au moment du dépôt dans un entrepôt de données, une sélection des données à diffuser doit être réalisée.

  • De les trier, pas forcément, mais de réfléchir aux forces, faiblesses, opportunités et menaces que pourraient engendrer un tri, oui ! Cette question doit être abordée dans le PGD, même si c’est pour conclure que les données ne seront pas triées.

  • Il n’y a pas vraiment de critère objectif. Mais peu importe le volume des données de recherche, elles devraient toutes être prises en charge avec la même attention. Les questions à se poser restent les mêmes, quoique les réponses puissent différer (il ne sera pas toujours possible d’archiver à long terme des pétaoctets de données).

  • Il s’agit d’une norme internationale et c’est plus simple d’utiliser ce format pour trier ou retrouver plus facilement ses fichiers (par l’année).

  • Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts (accessibles et modifiables indépendamment d’un logiciel unique). Les formats ouverts vont permettre d’améliorer la préservation, le partage et la réutilisation à long terme des données.
    Cela dépend des logiciels utilisés. Si vous utilisez un logiciel propriétaire, car très utilisé dans votre communauté ou pour lequel vous avez une expertise, il faudra préciser si le format de fichiers pourra être converti ou utilisé par d’autres logiciels libres. Parfois il n’est pas possible de convertir dans un format ouvert. Dans tous les cas, il faudra bien « documenter » cet aspect en précisant quel logiciel vous avez utilisé pour vos données, ainsi que sa version.

  • Il existe de nombreux outils sur internet pour vous renseigner sur la question, par exemple le quiz Format ouvert ou fermé ?
    Vous pouvez également avoir recours à l’outil DROID qui permet d’analyser des fichiers dont on ne connaît pas forcément le format. Il vous donne ensuite la “fiche d’identité” du format en question.
    En cas de doute, renseignez-vous auprès d’un informaticien qui sera à même d’examiner la signature interne du fichier pour déterminer son format.

  • Sur DoRANum vous en saurez plus en consultant cette ressource Stockage, partage et archivage : quelles différences ?
    Mais vous n’aurez pas d’informations précises sur le matériel dont vous pouvez disposer dans votre propre organisme. Si vous n’avez pas connaissance de recommandations institutionnelles, vous devez vous renseigner en interne, auprès des personnes dédiées à l’appui à la recherche type data librarian, documentaliste, voire informaticiens.

  • Les retours d’expérience, y compris négatifs, sont un bon outil de sensibilisation.
    La “stratégie des petits pas” peut aussi fonctionner : sans forcément rédiger un PGD complet, pourquoi ne pas commencer par programmer des sauvegardes régulières sur un cloud sécurisé à l’aide d’un petit utilitaire gratuit ?

  • Vous pouvez utiliser ShareDocs ou Huma-Num Box. Voir https://www.huma-num.fr/services-et-outils/stocker.

  • Oui, il n’y a pas de « mauvaises réponses » dans le DMP. L’essentiel est de décrire vos pratiques de gestion de données, quelles qu’elles soient.

  • Oui, cela devrait se passer au niveau de chaque établissement.

  • Tant que chacune des deux parties comprend comment fonctionne son homologue, cela ne pose pas de problème : le PGD est très utile pour décrire ce genre de modalité.
    Notez bien que le PGD n’est pas censé imposer une façon de faire qui serait meilleure que les autres. Il encourage une réflexion approfondie sur certains aspects du travail scientifique qui, sinon, passeraient sous silence et pourraient poser souci.

  • Chaque organisme de recherche a la possibilité de proposer des infrastructures de stockage qui lui sont propres.
    Il est également possible pour chaque organisme d’avoir recours à des solutions commerciales identiques.
    En revanche, les infrastructures publiques telles que le Centre informatique national de l’enseignement supérieur n’hébergent en théorie que les données des organismes publics (sauf cas particuliers de projets collaboratifs).
    Et inversement, les organismes privés réservent l’utilisation de leurs serveurs de stockage à leurs personnels, sauf cas particuliers.

  • Pour tout ce qui concerne les plateformes de stockage des données, c’est à chaque équipe ou laboratoire de se renseigner sur les services proposés en local par son université ou par une infrastructure qui pourrait l’accompagner ou par son organisme de rattachement.

  • En réfléchissant à des stratégies de :

    • Sauvegarde mais aussi restauration de vos données
    • Protection de certains fichiers-maîtres (accessibles uniquement en lecture pour empêcher toute fausse manipulation)
    • Sécurité des données (qui peut y avoir accès, comment…)
    • Détournement de vos données (quels mauvais usages pourraient se développer ?)

    Si vos données sont très sensibles, n’hésitez pas à envisager un audit par des spécialistes de ces sujets. Ce genre de dépense peut être éligible à un financement.

  • Il existe l’outil Mattermost (utilisé à l’Inist-CNRS) qui propose une alternative à Slack : https://mattermost.com/

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Cette ressource (https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/nommage-des-fichiers-versioning-adopter-les-bons-reflexes/#titre1) donne des informations détaillées, notamment sur le logiciel de gestion de versions Git (https://git-scm.com/) et mentionne d’autres outils.
    Il existe également le logiciel de gestion de données iRODS : http://irods.org/

  • La conservation consiste à s’assurer qu’un document est toujours présent sur un support de stockage et qu’il conserve son intégrité.

    L’archivage va plus loin. Il permet aussi de :

    • donner accès au document, c’est-à-dire retrouver le document sur le support de stockage et pouvoir le lire (= ouvrir le ou les fichiers).
    • préserver l’intelligibilité du document, c’est-à-dire faire en sorte que le document reste compréhensible par ses utilisateurs potentiels à travers le temps.

    La sauvegarde (ou stockage) sécurisée ne prend en compte que les deux premiers objectifs sur les trois cités et seulement dans une perspective de court et moyen termes.

    Voir : CINES. Le concept d’archivage numérique pérenne. https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/

  • La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
    Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
    Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
    L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
    Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).

  • En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.

  • Le coût est celui de l’archivage (plus de 30 ans), des mises à jour de supports et de formats, etc… fixé par le CINES.

  • Pour la conservation à long terme (archivage pérenne), il faut avoir recours à des plateformes spécialisées, qui sont en mesure de vérifier régulièrement que les données entreposées chez elles ne se dégraderont pas avec le temps et continueront à être faciles à trouver, accessibles, interopérables et réutilisables, même si la technologie évolue. Ce service peut avoir un coût, à vérifier et planifier le plus tôt possible au cours d’un projet. Ce type de dépense est souvent éligible à une prise en charge par le financeur du projet.

  • Pour la France, il n’existe pour l’instant que le CINES.
    Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
    Le portail européen Open Science Cloud (EOSC) (https://open-science-cloud.ec.europa.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.

  • Tout dépend de la finalité de votre projet de recherche, mais on peut citer par exemple :

    • Des données personnelles, pour lesquelles le RGPD affirme un principe de limitation de la durée de conservation (sauf cas particuliers) https://net-helium.fr/blog/rgpd-quelle-duree-de-conservation-des-donnees-personnelles/47
    • Des données extrêmement volumineuses, dont l’archivage pérenne utiliserait trop de moyens
    • Des données qu’il serait très facile de reproduire à l’identique, pour peu que leur mode de production soit bien documenté
    • Etc.

    Effacement, destruction, élimination… tous ces termes sont à peu près synonymes, mais gardez à l’esprit que déplacer des fichiers dans la corbeille de son ordinateur ne suffit pas à réellement supprimer des données. Rapprochez-vous d’un informaticien pour avoir de l’aide sur cette thématique.
    Retenez également que toute suppression de données doit impérativement être documentée, notamment à l’aide de métadonnées complètes et précises, qui permettront de comprendre en quoi consistaient les données supprimées et pourquoi elles ont été éliminées. Ces métadonnées devront elles-mêmes être préservées et rendues FAIR. Pour obtenir de l’aide sur cette problématique, rapprochez-vous des archivistes de votre établissement (demandez-leur notamment de l’aide pour dresser l’équivalent d’un bordereau d’élimination…).
    Pour vous aider, vous pouvez également consulter le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/

  • Cela va beaucoup dépendre de votre projet. Penchez-vous sur cette question le plus tôt possible, et faites-vous aider. Essayez d’imaginer tous les problèmes qui pourraient survenir, pour trouver comment y parer…

  • Non, pas systématiquement. C’est la valeur des données qui doit être prise en compte : s’agit-il de données uniques ? De valeur patrimoniale ? Ou peut-être est-ce des données extrêmement couteuses (dans ce cas, il est plus rentable de les archiver que de les reproduire) ?
    La publication concerne le résultat de vos recherches sur ces données. Elle ne donne accès aux données qu’indirectement et pour ce faire il est indispensable de déposer au préalable vos données dans un entrepôt de données et de mentionner l’identifiant pérenne attribué à vos données dans votre publication.
    À noter que les données de recherche partagées dans un entrepôt peuvent être différentes de celles archivées de façon pérenne (choix souvent très ciblé).

  • Oui, car l’archivage pérenne du document numérique a pour objectif principal de conserver les données, les rendre accessibles et en préserver l’intelligibilité, et ce sur du long terme à savoir plus de 30 ans. Dans ce cas, l’accès aux données se fait sur demande.

DATA PAPERS

  • Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…

    Le data paper est

    • soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
    • soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.

    Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un PGD. C’est cependant un bon moyen de valoriser vos données.

    Vous avez deux manières de rendre visibles vos données :

    • soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
    • Soit vous rédigez une publication classique et, lorsque la revue le permet, vous faites un lien vers vos données déposées dans un entrepôt.

    Pour en savoir plus :
    Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/  
    Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/

  • Un plan de gestion de données (PGD) est créé dès le début d’un projet (voire en phase exploratoire) et l’accompagne. Il décrit qualitativement et quantitativement les données qui vont être manipulées et définit ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans le PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).

    Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessible, interprétable et réutilisable. Un data paper doit décrire les conditions d’acquisition des données, contenir la description fine de toutes les métadonnées et peut proposer des usages potentiels. Le data paper ne comporte pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche, ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.

    Le data paper et le PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Le data paper est dédié à la publication scientifique alors que le PGD permet une meilleure gestion du projet.

    Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#PGD

  • “Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
    Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016

  • Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.

  • A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.

  • On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
    Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
    Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.

  • Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.

  • Il convient de suivre les recommandations du guide pour les chercheurs “Partager les données liées aux publications scientifiques

ACCÈS VISUALISATION

  • Il n’y a pas de liste à proprement parler. Toutefois voici quelques outils :

    • Outils de visualisation pour l’accès aux données depuis un entrepôt :
    • Outils de visualisation pour une meilleure manipulation et appréhension des données :
      • Gephi (logiciel libre d’analyse et de visualisation de réseaux)
      • D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
      • Gargantext (plateforme web pour explorer des données textuelles)
      • QGIS (Système d’Information Géographique Libre et Open Source)

Votre question n’apparaît pas dans cette FAQ ?

Laissez-nous un message, nous vous répondrons au plus vite !