FOIRE AUX QUESTIONS

Dernière mise à jour : 01/09/2022

Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.

DORANUM

  • Oui, toutes les ressources sont sous la licence Etalab ou Creative Commons et sont librement réutilisables. Vous pouvez les télécharger, les intégrer sur votre site, les modifier pour les adapter à vos propres ressources. Vous pouvez aussi imprimer des fiches synthétiques et autres supports pour vos formations présentielles.

  • Nous proposons des formations en présentiel à la demande.
    Nous organisons régulièrement des webinaires de présentation de DoRANum. Le calendrier est annoncé dans les actualités du site et sur le site de l’Inist-CNRS.

  • Oui, nous pouvons contribuer à la réalisation de vos ressources de formation sur les données de la recherche. Précisez-nous votre demande via notre formulaire de contact.

  • Nous vous encourageons à contribuer à l’activité de DoRANum !

    Votre avis compte

    N’hésitez pas à nous laisser vos retours sur nos ressources (commentaires, évaluations), cela nous permettra de les améliorer. Toutes les remarques et suggestions sont les bienvenues.

    Réutilisez et partagez

    Réutilisez les ressources, en les intégrant sur votre site, en distribuant les imprimés lors de vos formations, en mixant nos contenus avec vos propres ressources… et partagez-les sur les réseaux sociaux si vous le souhaitez !

    Partenariat

    Nous pouvons collaborer sur un projet de formation autour des données de la recherche : création de nouvelles ressources pour des formations en présentiel ou distanciel, intégration des ressources DoRANum dans votre dispositif de formation.

  • DoRANum est une plateforme ouverte qu’il est tout à fait possible d’utiliser librement partout dans le monde (les ressources sont en français uniquement).

  • Il n’y a pas de possibilité d’abonnement aux actualités. Il faut se rendre directement sur la page des actualités pour les consulter : https://doranum.fr/actualites/

  • Non, il n’y a pas de contenu en langue anglaise.
    Cependant, l’une des ressources (Parcours interactif sur la gestion des données de la recherche) a été traduite en anglais pour la réalisation d’un MOOC dans le cadre du projet Oberred (Basics of managing and sharing research data). Il suffit de s’inscrire au MOOC pour y accéder.

ENJEUX & BÉNÉFICES

  • Le contexte général tend vers l’ouverture des données. Vous pouvez ainsi être obligé de partager vos données de recherche dans certains cas, comme :

    • pour l’obtention de financement de projets, à l’image des projets issus du programme Horizon Europe ;
    • pour la publication d’articles, à l’image de la revue PLOS ONE qui recommande, voire exige, l’accès aux données sous-jacentes des résultats rapportés dans l’article soumis.

    Les Plans nationaux pour la science ouverte, visent à “rendre obligatoire la diffusion ouverte des données de recherches issues de programmes financés par appels à projets sur fonds publics”.

  • Non, certaines données sont soumises à des exceptions définies par la loi, comme des données relevant du secret professionnel, des données personnelles ou encore protégées par le droit d’auteur.

  • Il n’y a pas de règles, le mieux est d’ouvrir les données le plus tôt possible. Les données sont souvent publiées au moment de la publication des résultats. Un embargo peut aussi être appliqué afin de permettre un délai d’exploitation des données.

  • Il s’agit des « […] données de la recherche nécessaires à la validation des résultats présentés dans les publications scientifiques […] ».
    Source : « Lignes directrices pour le libre accès aux publications scientifiques et aux données de la recherche dans Horizon 2020 » de la Commission européenne. (Titre original : Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 , Version 2.0, 30 October 2015, European Commission, Directorate General for Research and Innovation © Union européenne, 1995-2015).

    Pour en savoir plus, consulter le guide pour les chercheurs “Partager les données liées aux publications scientifiques

  • Il n’y a pas de règles, seul le chercheur est en mesure d’évaluer la valeur potentielle des données et de décider quelles données doivent être conservées au-delà du projet et pour combien de temps.

  • Il n’y a pas de recommandations du CNRS concernant les embargos sur les jeux de données

  • Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • « Tout ce qui se rapporte au contrôle qualité, c’est tout ce qui environne et permet de montrer la rigueur des méthodes et la qualité des données (Ex : processus de calibration, mesures répétées, contrôles standards positifs/négatifs, contrôle des données en double aveugle ou par évaluateur externe, etc.) ».

    Source : CoopIST Cirad – https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-pgd/6-garantir-la-comprehension-et-l-accessibilite-des-donnees

    La personne qui doit s’en charger : cela dépend du projet, du nombre de personnes dans le projet, comment vous vous répartissez les tâches, c’est du sur mesure.

  • Cette notion d’open data participe d’un mouvement qui considère l’information publique (y compris non scientifique) comme un bien commun dont la diffusion est d’intérêt public et général. Elle milite pour la mise à disposition en priorité des données produites par le secteur public (administration, établissements publics…), mais aussi des données d’origine privée (notamment d’organisations à but non lucratif comme Wikipédia).

    L’open data s’inscrit dans une démarche plus vaste de transparence et de participation des citoyens initiée par de nombreux gouvernements dont le gouvernement français.

    Le gouvernement français s’est efforcé d’encourager la mise à disposition de tous les documents et toutes les données publiques, non seulement dans une approche éthique de renforcement de la transparence de la politique, mais aussi dans une démarche économique cherchant à favoriser la création de richesses par une réappropriation par le secteur privé (entre autre).

    En savoir plus : https://doranum.fr/aspects-juridiques-ethiques/lois-pour-open-data_10_13143_k917-g053/

  • Chaque organisme fixe les règles selon lesquelles il exige ou non la mise à disposition des données générées grâce à ses financements (sachant qu’il existe souvent des possibilités de déroger à ces obligations de principe, pour respecter un cadre juridique particulier notamment).
    La plupart du temps, le seuil de financement au-dessus duquel les bailleurs de fonds imposent leurs conditions est de 50%.

ASPECTS JURIDIQUES, ÉTHIQUES, INTEGRITE SCIENTIFIQUE

  • Pour les agents CNRS, il faut s’adresser à sa délégation régionale, notamment au service « Partenariat et Valorisation » ou au service juridique s’il en existe un. Ce type de services existe également dans les universités.

  • Du fait que ce sont des données publiques elles sont effectivement directement diffusables, notamment si elles ont un intérêt environnemental, social, économique. Cependant, leur diffusion ne doit pas porter atteinte aux intérêts protégés par les articles L311-5 et L311-6 du Code des relations entre le public et les administrations : https://doranum.fr/wp-content/uploads/DoRANum_obligations_donnees_interet.pdf
    Ceci est indépendant du droit d’auteur. Cela dépend du type de données. Si vous diffusez par exemple des données brutes, issues de mesures, il n’y a pas vraiment d’auteur derrière. Elles appartiennent à l’établissement.
    «Il n’y a pas un droit d’auteur sur toutes les données. Il y a un droit d’auteur sur certaines données quand il s’agit d’œuvre de l’esprit au sens du code de la propriété intellectuelle et de sa branche sur le droit d’auteur. Celles qui ne sont pas des œuvres de l’esprit, sont des informations publiques. Le critère est l’originalité. Exemple : pour les images captées plus ou moins automatiquement, il n’y a pas d’originalité » (« Existe-t-il un droit d’auteur sur les données de recherche ? » –  https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/9hSmuqtQsI9h8HbuZ7KHg8tperjEEAlz )

    En complément, voici une autre ressource dans DoRANum : Les données de la recherche et les codes sources obligatoirement diffusables

  • Pour savoir si vous pouvez partager librement des données dont vous n’êtes pas l’auteur, il faut déterminer si elles sont communicables et diffusables. Afin de vous aider dans cette tâche, vous pouvez vous appuyer sur  l’outil d’analyse des données. Cet outil vous permettra d’analyser leur nature juridique et éthique.

    Si l’auteur a attribué une licence à ses données, celle-ci vous engage à respecter l’intégrité de ses données, à faire mention de la source des données et à indiquer la date de la dernière mise à jour.

  • Il vaut mieux ne pas parler de « propriété des données » à propos des données de recherche. La loi République numérique de 2016 a en effet instauré un principe d’ouverture par défaut des données, ce qui rend la notion de propriété globalement peu pertinente.

    La première étape consiste à identifier précisément ce que l’on appelle « données », car ce terme peut recouvrir des réalités très différentes.

    SI les « données » correspondent à des œuvres de l’esprit (c’est-à-dire des créations originales : textes, photos, interviews, etc.), alors elles sont couvertes par un droit d’auteur qui appartient aux chercheurs (si ce sont eux qui ont créé les contenus) ou à des tiers. La diffusion n’est alors possible qu’avec l’accord de ces chercheurs (ou des tiers en question).

    Si les « données » ne sont pas des œuvres de l’esprit, il s’agira alors vraisemblablement d’informations publiques (tableaux de chiffres, mesures, statistiques, etc.). Dans ce cas, les établissements de tutelle seront considérés comme les « producteurs » de ces informations (et non les chercheurs). Mais cela ne signifie pas pour autant que les établissements en sont « propriétaires ». D’après la loi pour une République numérique, les établissements ont en effet l’obligation de rendre ces données librement accessibles et réutilisables.

    Dans le cadre d’un projet ANR impliquant plusieurs partenaires, il vaut mieux en effet conclure un accord de consortium pour déterminer le statut des données produites et la répartition des responsabilités. Ce genre de questions doit normalement être analysés dans un Plan de Gestion de Données (Data Management Plan) dont l’ANR demande la production aux lauréats de ces appels depuis 2019.

    Pour résumer, soit les données sont des œuvres et les chercheurs gardent leurs droits dessus ; soit les données sont des informations publiques et la responsabilité passe aux établissements qui sont obligés de procéder à une libre diffusion.

    • Les données produites dans le cadre d’un projet de recherche appartiennent respectivement aux établissements dans lesquelles ces données sont produites. L’idéal est de le préciser dans l’accord de consortium. Si c’est trop tard il est en effet possible de faire une convention, mais cela ne paraît pas vraiment nécessaire. Nous vous conseillons de vous faire aider par un service d’appui juridique ou un service partenariat et valorisation pour ces questions.

    Complément d’information : https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/1rGzHw8YwCjkuU-HWxxebP6qiWVRpCPf

  • C’est dans le contrat de consortium qu’on décide de ces questions de paternité, puis de partage, ouverture. Le DMP n’apporte pas de garanties.

  • Les données brutes sont des données publiques lorsqu’elles ont été produites dans le cadre d’une administration de tutelle publique ou lorsqu’elles sont soumises à une obligation de diffusion par le financeur). Il ne s’agit pas d’un droit de propriété. “Les données publiques, par défaut, doivent être diffusées et rendues réutilisables” (Loi pour une République numérique). Attention cependant aux exceptions : photos (si ce sont des œuvres originales) et aux données personnelles (qui requièrent le consentement des personnes et doivent être anonymisées pour être diffusées). Dans le cas de partenariats, un accord de consortium doit répartir les droits et responsabilités sur les données.
    Source : Interview de Lionel Maurel – https://doranum.fr/aspects-juridiques-ethiques/questions-juridiques-liees-aux-donnees-de-la-recherche/

  • Il vaut mieux demander l’autorisation à sa hiérarchie afin d’être sûr d’être couvert juridiquement.
    Pour les données de recherche en cours de projet (la collecte des données est en cours, les chercheurs travaillent dessus …), les données ne sont pas achevées mais la loi ne dit pas quand elles pourront être transmises. Pour des informations plus détaillées : « Données ouvertes = données achevées ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/3QHTAeHBiLVfSH_K20Gqb5es6oIPxxTL et « Y-a-t-il un délai de mise à disposition des données ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/KNZXnU81cxTlVMIRmxe9Cx__PLF5r8xQ
    Les données numériques brutes sont des informations, il n’y a pas d’originalité, donc il ne s’agit pas d’œuvre au sens du droit d’auteur. Si ces informations sont rassemblées, elles constituent une base de données et sont soumises à l’ouverture par défaut.

    Ressource complémentaire : « Qui a la propriété intellectuelle de données numériques brutes ? » – https://doranum.fr/wp-content/uploads/TutoAmate/index.html#/lessons/3ndeoH13D4ARGn6Cz-1Jgz2oGxTWWq6g

  • Il est possible de se référer à ces documents :

    Dans tous les cas, les personnes les plus à même de répondre sont les juristes qui aideront à rédiger un contrat de collaboration et/ou un accord de consortium si besoin (dans le cas d’un projet financé par l’ANR par exemple).

  • Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Si les données que vous décrivez dans votre PGD vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Non ce n’est pas le rôle du PGD, c’est plutôt celui du cahier de laboratoire.

  • Non, le PGD n’a aucune valeur juridique.

  • Il y a deux cas possibles :
    – Si vous partagez des jeux de données publiques, vous devez utiliser la licence Etalab, compatible avec la CC-By 2.0. La paternité des données devra être mentionnée en cas de réutilisation des données.
    – Dans tous les autres cas, vous pouvez utiliser des licences Creative Commons, en fonction du type de données. Dans la pratique, dans le monde de la recherche notamment, les licences Creative Commons sont largement utilisées du fait qu’elles sont internationales.
    Pour en savoir plus : https://doranum.fr/aspects-juridiques-ethiques/questions-juridiques-liees-aux-donnees-de-la-recherche/

  • Dans un premier temps, les données protégées et sensibles doivent être sauvegardées dans un espace collaboratif sécurisé, avec accès limité aux partenaires du projet.

    • Dans le cas de données personnelles, si vous souhaitez les partager, il faudra les anonymiser avant le partage.
    • Pour les données protégées ou sensibles, cela dépend du type de données. Il est possible de partager dans un premier temps uniquement les métadonnées et indiquer que les données sont placées sous embargo en attendant la publication d’un brevet ou d’une publication (par exemple dans le cas de partenaires industriels).
    • Dans le cas de données confidentielles, vous n’aurez probablement pas la possibilité de les partager.Dans le cas de partenariats, il faudra indiquer dans le DMP quels sont les conditions de l’accord de Consortium en ce qui concerne la réutilisation des données.
  • Il est tout à fait possible de partager des données au cours de la réalisation d’un projet (sauf cadre juridique spécifique, comme le secret industriel ou le droit des données personnelles). Dans la plupart des cas, les financeurs n’exigent la mise à disposition des données qu’au moment de la publication des résultats scientifiques générées par le projet.
    À noter que l’obligation juridique d’ouverture des données publiques ne concerne que des documents “achevés”. Par conséquent, les documents et données préparatoires ne sont pas communicables. On peut en déduire que les cahiers de laboratoire sont également exclus de la réglementation sur l’ouverture des données (mais leur ouverture volontaire reste possible, et est même encouragée).
    Seule exception : les données relatives à l’émission de polluants dans l’air doivent être communiquées à toute personne qui en ferait la demande, même si le document administratif dans lequel elles figurent n’est pas achevé (Wikipédia. Convention d’Aarhus. 9 juillet 2022. https://fr.wikipedia.org/wiki/Convention_d%27Aarhus)

  • Ces deux notions ne sont pas du tout antagonistes.

    En droit français, le droit d’être reconnu comme auteur d’une œuvre de l’esprit est absolument inaliénable. Même l’auteur lui-même ne peut pas renoncer à sa paternité sur son œuvre. Diffuser des œuvres en libre accès ne remet pas en cause ce droit.
    Il faut en revanche prendre garde à cette notion d’œuvre de l’esprit, qui ne concerne pas forcément toutes les productions d’un chercheur au cours de ses travaux. S’il veut exercer des droits d’auteur sur ses données, notamment, il doit être en mesure de prouver que les données en question sont originales et portent l’empreinte de sa personnalité.

    En savoir plus sur le droit d’auteur : https://doranum.fr/aspects-juridiques-ethiques/droits-auteur_10_13143_hpv3-tz30/

  • En tant qu’œuvre de l’esprit et par défaut, le PGD est toujours la propriété intellectuelle de son auteur ou de ses auteurs.
    Dans la pratique, la plupart des auteurs de PGD acceptent que tout ou partie de texte de leurs plans soit réutilisé et personnalisé si nécessaire pour un autre plan, sans qu’il soit nécessaire de citer le(s) créateur(s) en tant que source.

  • Il est très important d’aborder dans le PGD les aspects de la gestion des données qui auront trait à une éventuelle confidentialité. Cela permet justement d’anticiper tous les problèmes susceptibles d’en découler.
    Il est tout à fait possible que le PGD lui-même soit tenu confidentiel, y compris à l’issue du projet.

  • Rapprochez-vous du Délégué à la Protection des Données de votre établissement de rattachement.

    Piste bibliographique : Réseau Sup DPO. Quinze recommandations aux chercheurs sur la protection des données dans le cadre de leurs activités de recherche. 16 janvier 2020. https://supdpo.fr/wp-content/uploads/2020/01/SupDPO-Recommandations-chercheurs-v1.pdf

  • Il existe plusieurs types de licences pour les logiciels open source, qui peuvent être plus ou moins restrictives.
    Par exemple :

    • La licence Apache autorise la modification et la distribution du code sous toute forme (libre ou propriétaire, gratuite ou commerciale), mais oblige le maintien du copyright lors de toute modification (et également du texte de la licence elle-même)
    • La licence BSD est l’une des moins restrictives dans le monde informatique et s’approche de la notion de « domaine public »
    • La licence GPL est également un peu contraignante puisqu’elle impose de redistribuer tout le programme avec ses sources complètes sous cette même licence dès lors qu’une partie du code utilisé est issu d’un programme sous licence GPL.
  • Pour tout questionnement sur ce sujet, rapprochez-vous du comité d’éthique de votre établissement.
    Si vous faites de la recherche clinique, vous aurez aussi besoin de prendre contact avec le Comité de protection des personnes de votre zone géographique.
    Pour des questions plus vastes, prenez contact avec le référent intégrité scientifique de votre établissement.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Généralités

  • La Commission européenne se prononce depuis longtemps en faveur du libre accès à la connaissance scientifique, mais elle ne peut qu’inciter les États membres de l’UE à adopter des politiques nationales, sans pouvoir imposer quoi que ce soit.
    Le Plan national pour la science ouverte en France est largement inspiré des recommandations formulées par la Commission européenne. La France est un des pays les plus avancés en termes de politique nationale sur la science ouverte, notamment grâce à la Loi pour une République numérique de 2016.
    La Coalition de l’édition savante et des ressources académiques (« Scholarly Publishing and Academic Resources Coalition », abrégé en SPARC) publie régulièrement des états des lieux des politiques nationales en Europe :

    À noter que la Commission européenne est également financeur de la recherche : à ce titre, elle est en mesure d’imposer la rédaction d’un PGD aux porteurs de projets de recherche qui acceptent de bénéficier de ses subventions (accord contractuel).
    Il en va de même pour les organismes de recherche membres de la Coalition S, qui imposent eux aussi l’ouverture des publications et données issues des projets qu’ils financent par le biais d’accords contractuels (Rentier Bernard. Mais quel est donc le statut du Plan S ? 7 janvier 2019. https://bernardrentier.wordpress.com/2019/01/06/mais-quel-est-donc-le-statut-du-plan-s/)

  • On peut citer les enjeux suivants :

    • Harmonisation des pratiques de gestion entre plusieurs partenaires
    • Aide à la planification d’un projet
    • Compréhension et FAIRisation des données générées par un projet
    • Réponse à une demande institutionnelle ou d’un financeur
    • Retour sur investissement dans le potentiel de réutilisation des données.
  • Au départ, il s’agit d’une exigence de la Commission européenne dans le cadre d’Horizon 2020 (décembre 2013).
    Le Ministère de l’Enseignement Supérieur et de la Recherche a suivi quelques années plus tard comme indiqué dans le texte du Deuxième Plan national pour la science ouverte (juillet 2021) :
    “ L’Agence nationale de la recherche et d’autres agences de financement demandent désormais l’accès ouvert aux publications et la rédaction de plans de gestion des données pour les projets qu’elles financent.”
    Le PGD est une obligation contractuelle dans le cadre de contrats signés par plusieurs parties, la plupart du temps un financeur de la recherche et un ou plusieurs chercheurs / laboratoires.

  • Tout chercheur qui s’investit dans un projet de recherche est à même de mettre en place un PGD ou d’en faire la suggestion à son équipe.
    Mais la rédaction d’un tel document peut aussi être imposée par un bailleur de fonds, ou plus rarement par un organisme de tutelle.

  • Chaque institution (établissements d’enseignement supérieur et recherche ou financeur de la recherche) est libre de fixer ses propres règles en termes de PGD (calendrier, proportion de financement à partir de laquelle le PGD est obligatoire, etc.).
    Certains établissements encouragent fortement leurs chercheurs à rédiger des PGD, leur mettent à disposition des modèles, mais n’ont pas d’exigence particulière de calendrier ou autre.
    Les financeurs de la recherche (ex.: ANR, Commission européenne…) exigent la plupart du temps :

    • une première version du PGD 6 mois après l’acceptation du projet
    • une version finale à la fin du projet
    • quand le projet dure un peu plus longtemps, il peut y avoir un jalon intermédiaire (2e version du PGD en milieu de projet)

    Généralement, les institutions exigent la rédaction d’un PGD quand ils assurent 50% minimum du financement du projet.

  • Le PGD en tant que document unique et structuré est plutôt utilisé par des organismes publics qui :

    • travaillent davantage en collaboration (ont besoin de documents de référence pour organiser leur travail) ;
    • ont davantage recours à des financements externes qui exigent d’eux la rédaction de ce type de documents.

    Mais les entreprises mettent assez fréquemment en place des documents assimilables à des rubriques de PGD : chartes de nommage, chartes de contrôle qualité des données, consignes de stockage/sauvegarde, etc.

  • Non le DMP n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.

  • Le PGD doit être initié quand le projet est accepté. Le DMP n’est pas demandé au dépôt du dossier. Il n’empêche que vous pouvez en amont du projet déjà réfléchir à la gestion de vos données.

  • Il faut considérer le DMP comme un réel outil de gestion de projet. C’est vraiment un guide qui permet d’anticiper la gestion des données aussi bien avec votre équipe qu’avec d’éventuels partenaires. Il peut aussi permettre de mieux argumenter une demande de subvention. Plus vous le commencez tôt,  mieux c’est !

  • L’ANR détaille ses procédures pour les PRCI avec la DFG ici : https://anr.fr/fileadmin/aap/2022/aapg-2022-ANR-DFG.pdf
    Pour 2022, c’est la DFG qui réalisera seule la sélection. Comme c’est indiqué sur cette page, l’ANR ne demande pas de plan de gestion de données au moment du dépôt d’une demande de PRCI et la DFG non plus. Pour autant, il est important de faire figurer dans le formulaire de candidature que les données seront gérées correctement et de montrer dans son dossier que le projet prend en compte ces enjeux. Les directives de la DFG pour la soumission de propositions de projet (allemand) stipulent que les propositions de projet soumises à la DFG doivent inclure une section sur le traitement des données de recherche. Cette section doit comprendre des informations sur le type, l’étendue et la documentation des données ainsi que sur le stockage prévu et les possibilités d’utilisation ultérieure. Il n’est actuellement pas nécessaire de mettre à jour ces informations au cours du projet.

    Tout est détaillé sur cette page : https://www.dfg.de/en/research_funding/principles_dfg_funding/research_data/research_funding/index.html

  • Il est effectivement conseillé de rédiger un plan de gestion des données. La plupart des organismes de financement européens le demandent. Dans le cas de projets Horizon 2020 ou Horizon Europe, le DMP est obligatoire. Ce n’est pas forcément compliqué à mettre en place. Toutes les questions que vous allez vous poser lors de la rédaction du DMP vont contribuer à une meilleure gestion, aussi bien du projet que des données, en amont et tout au long du projet.

  • Un PGD global suffit. Il peut être plus ou moins détaillé en fonction de l’ampleur du projet. Voici deux exemples :
    https://www.vision-itn.eu/wp-content/uploads/2019/10/VisIoN-D6.2.pdf
    https://www.cde4peace.eu/wp-content/uploads/sites/41/2020/11/CDE4Peace-D1.2-Data-Management-Plan.pdf

  • En dehors du cadre d’un projet financé, vous pouvez mettre en place un DMP dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.

  • Il ne semble pas nécessaire de rédiger un DMP dans ce cas.
    Pour plus de précisions, vous pouvez contacter l’ANR : scienceouverte@agencerecherche.fr

  • Le DMP doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.

  • Non ce n’est pas possible. Il faudra faire 2 DMP. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.
    Il faut rédiger un DMP pour chaque projet.

  • Si votre nouveau projet est financé, il vous sera demandé un nouveau DMP. Si besoin et si vous avez gardé votre ancien DMP, vous pourrez récupérer les informations et les recopier.

  • Le PGD peut être modifié à tout moment au cours d’un projet de recherche. Idéalement, dès qu’un élément de réponse change, il faut consigner cette modification dans le PGD.

    Exemples :

    • Nouveau jeu de données
    • Modification du volume estimé
    • Changement du logiciel utilisé pour le traitement des données
    • Changements de personnels
    • Avancée des réflexions sur le choix d’un standard de métadonnées
    • Avancée des réflexions sur le choix d’un entrepôt ou d’une plateforme d’archivage pérenne
    • Recommandations d’un juriste ou d’un comité d’éthique
    • Informations sur les coûts
    • etc.
  • Le DMP doit normalement être initié très tôt, dès le début du projet. Rédiger un DMP en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.

  • Vous pouvez rédiger votre DMP en français, il n’y a pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.

  • Dans la mesure où le DMP est un livrable exigé le plus souvent par le financeur, il est plus judicieux de rédiger votre DMP en anglais directement. DMP OPIDoR est disponible en anglais et en français. De nombreux modèles sont disponibles dans les deux langues.

  • Le DMP sera surtout lu par les collaborateurs, les chargés de projets scientifiques et les gestionnaires.
    Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
    Il faut bien comprendre que le DMP est avant tout un outil de réflexion et de gestion de projet, utile pour mettre en œuvre des bonnes pratiques de gestion des données de recherche.

  • Le PGD est à fournir maximum 6 mois après l’acceptation du projet et de son financement. La commission examine le projet et s’assure ensuite que les différentes versions du PGD sont bien rendues. L’ANR se réserve par exemple le droit de suspendre le versement si le PGD n’est pas rendu. En revanche, il n’existe pas pour l’instant de véritable évaluation qualitative des PGD rendus.

  • Ne pas hésiter à se faire accompagner en local (par les équipes de soutien à la recherche ou par un atelier de la donnée) ou par l’équipe OPIDoR.

  • Le PGD est un outil de gestion de projet qui permettra de gagner du temps et de se poser les bonnes questions concernant la gestion et le partage des données.
    Le PGD permet de définir et de mettre en place les actions indispensables pour gérer les données qui vont être collectées ou produites au cours d’un projet. Il est là pour faciliter la gestion des données de recherche et aide à organiser et anticiper toutes les étapes du cycle de vie des données.

  • L’idéal est d’élaborer votre DMP avec l’aide de différents acteurs d’un projet : scientifiques mais aussi informaticiens, data librarians, juristes… la rédaction et la mise à jour du DMP doivent être organisées en fonction des personnes ressource disponibles.

  • Il est difficile d’évaluer le temps nécessaire à la rédaction d’un DMP, c’est variable suivant le projet. La rédaction se fait au fur et à mesure de l’avancée de celui-ci. Un PGD pour une thèse menée de manière plus ou moins autonome sera bien plus facile et rapide à rédiger qu’un PGD se rapportant à un énorme projet pluridisciplinaire et pluri-établissements.
    Le DMP va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
    Le DMP peut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !

  • N’importe quel participant au projet peut être responsable de la rédaction d’un PGD. Il peut aussi s’agir d’une responsabilité collégiale.

  • C’est souvent le porteur du projet qui est désigné comme rédacteur principal et qui, de fait, invite les collaborateurs à contribuer au PGD. Mais il est tout à fait possible de désigner par exemple le gestionnaire des données comme rédacteur principal du PGD.

  • Les deux façons de faire sont recevables, à condition d’avoir réfléchi en amont aux forces, faiblesses, opportunités et menaces des deux modèles. Si le choix est fait de différencier les pratiques de gestion, il sera d’autant plus important de formaliser les décisions prises par chaque partenaire, afin de faciliter les échanges de données au sein même des équipes qui collaborent.

  • C’est tout à fait possible, notamment dans certains projets menés de manière solitaire.
    Mais, même dans ces cas, le responsable du PGD aura tout intérêt à solliciter l’avis de différents interlocuteurs (juriste, informaticien, bibliothécaire, archiviste, etc.) pour l’aider dans sa rédaction, à défaut de pouvoir l’aider dans la gestion quotidienne des données.

  • N’importe quel(s) participant(s) au projet peu(ven)t suivre la mise en place d’un PGD, mais pour des raisons politiques, il est souvent important que le(s) responsable(s) du projet s’implique(nt), ou au moins manifeste(nt) leur soutien.

  • Il s’agit là des responsabilités pour toutes les tâches qui auront trait à la gestion des données :

    • Qui est responsable de la rédaction du PGD et de sa mise à jour ?
    • Qui est responsable de la collecte (réalise la collecte ou supervise ceux qui la font) ?
    • Qui est responsable du traitement des données ?
    • Qui est responsable du stockage ?

    Il peut donc y avoir plusieurs responsables sur des tâches différentes, et avec des profils différents (ingénieur d’étude, technicien, documentaliste…).
    Il peut aussi arriver que toutes ces tâches soient assumées par une seule et même personne, et que cette personne ait en plus des responsabilités dans le pilotage du projet.

  • Cela fait partie des questions importantes à se poser en début de projet, pour anticiper ce genre de problème.
    La formalisation la plus fine et la plus précise possible (au sein d’un PGD par exemple) de toutes les tâches associées à la gestion des données procure un avantage indéniable.

  • Rien n’empêche d’inviter des chercheurs étrangers à collaborer sur un PGD via DMP OPIDoR.
    On peut aussi citer d’autres plateformes qui fonctionnent avec le même code source, et sur lesquelles des chercheurs français peuvent se créer un compte :

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de DMP, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre DMP à partir d’un outil bureautique.

  • Recourir à une plateforme présente plusieurs avantages :

    • Elles permettent un travail collaboratif plus facile que s’il s’agissait d’envoyer un fichier Word, et plus sécurisé que s’il s’agissait de compléter un document sur un espace en ligne comme GoogleDrive ou FramaPad ;
    • Elles centralisent plusieurs modèles de DMP proposés par différentes institutions, permettant de les comparer à un seul endroit et de choisir le plus pertinent pour son projet ;
    • Elles proposent le plus souvent de l’aide contextuelle sous forme de consignes ou d’infobulles visant à expliciter les réponses à indiquer dans chaque rubrique ; la longueur de ces aides dépend des points abordés ;
    • Elles permettent d’exporter les informations saisies sous la forme d’un document rédigé, dans plusieurs formats de fichier possibles (PDF, texte…) ;
    • Elles devraient permettre à terme d’encoder automatiquement les DMP eux-mêmes dans un format lisible par des machines (machine-actionable DMP).

    Certaines communautés scientifiques préfèrent d’autres outils que DMP OPIDoR, notamment des plateformes qui permettent de travailler dans des formats de fichiers spéciaux tels que MarkDown ou LaTeX. C’est aussi le cas des chercheurs qui ont besoin de remplir des documents supplémentaires, comme des déclarations de conformité RGPD qui font doublon avec les rubriques du PGD qui concernent les données personnelles.

  • Le plus simple est de faire une recherche :

    Par exemple, en mathématiques, il en existe 6 dans les PGD sélectionnés sur Phaidra : https://phaidra.univie.ac.at/search#?q=mathematics&page=1&pagesize=10&collection=o:1140797

  • Déposer son DMP dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple déposer votre plan dans l’entrepôt de données Zenodo, qui permet le dépôt de tous types de fichiers, et qui offre l’avantage de leur attribuer automatiquement un DOI.
    On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scénarii sont envisageables.

  • Des ateliers de la donnée vont être mis en place dans le cadre de Recherche Data Gouv (nouvelle plateforme nationale fédérée des données de la recherche). Ces ateliers se positionneront comme le point d’entrée en proximité locale des équipes de recherche sur toute nature de besoin relatif à la donnée. Les initiatives d’accompagnement existantes seront promues et les nouvelles initiatives seront encouragées. L’ambition est de déployer, dans une logique de partenariats entre des établissements d’un ou plusieurs sites, des dispositifs de mise en commun de ressources et compétences pour apporter, en proximité des chercheurs, un premier niveau d’expertise, sur toute problématique de l’ensemble du cycle de vie de la donnée.

  • Pour une première approche, vous pouvez consulter les ressources « en bref » et « l’essentiel » de la thématique « Plan de gestion de données » de DoRANum : https://doranum.fr/plan-gestion-donnees-dmp/
    Au niveau de votre organisme, dirigez-vous vers les data librarians ou documentalistes si possible.
    Enfin, vous pouvez obtenir de l’aide ou des informations sur la rédaction d’un plan de gestion de données en contactant l’équipe OPIDoR de l’Inist-CNRS : info-opidor@inist.fr
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • Vous devez répondre aux questions du DMP qui sont pertinentes par rapport à votre projet. Par ailleurs, vous ne pourrez pas répondre à toutes les questions dès le début du projet. Le DMP étant un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.

  • Il vaut mieux être le plus descriptif possible car il faut considérer le DMP comme un réel outil de gestion de vos données. Cela évite la perte de données (notamment, par exemple, après le départ d’une personne).

  • Il faut indiquer les difficultés et contraintes liées au partage des données, pourquoi vous ne pouvez pas les partager (données sensibles, confidentielles, etc.).

  • Il faut préciser tous les types de matériels et logiciels utilisés.
    Il est recommandé de déposer ses codes sources dans Software Heritage (archive universelle de logiciels qui garantit la pérennité des codes sources).

  • Parce que ce sont des disciplines qui potentiellement aussi déposent des projets ANR, des ERC soumis à financement et donc avec l’obligation de fournir un PGD.

    De façon globale, tous les projets de recherche quelles que soient les disciplines et à partir du moment où elles génèrent ou collectent des données ont un intérêt à se doter d’un PGD pour :

    • prévenir les potentielles pertes de données
    • gérer les traitements liés aux données personnelles ou sensibles ou des documents encore sous droit d’auteur (art contemporain par exemple).
  • C’est un  outil ou une application qui facilite la production de métadonnées et le dépôt des données dans un entrepôt.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Les coûts dans un DMP sont les coûts liés à la gestion des données de recherche.

  • Oui, tous les coûts peuvent être indiqués. Dans DMP OPIDoR il y a un nouvel onglet sur le budget qui récapitule tous les coûts.

  • Dans le DMP, il n’est question que des coûts liés à la gestion des données de recherche.

    Voici un exemple de réponse dans le DMP Hospitam : « La gestion des données occupera environ 25% du temps de l’ingénieur, soit environ 8h45 par semaine. Les ressources nécessaires pour la diffusion des données sont : les entrepôts de données comme Nakala. Les coûts à prévoir en dehors des coûts de ressources humaines sont par exemple, l’achat de disques durs externe (2 disques de 2To, entre 500€ et 650€ pour un disque dur SanDisk de 2To. »

    Recommandations :

    • Expliquer comment les ressources nécessaires (par exemple le temps) à la préparation des données pour le partage/préservation (curation des données) ont été chiffrées. Examiner et justifier soigneusement toutes les ressources nécessaires pour diffuser les données.
    • Il peut s’agir de frais de stockage, de coût matériel, de temps de personnel, de coûts de préparation des données pour le dépôt, de frais d’entrepôt et d’archivage.
    • Indiquer si des ressources supplémentaires sont nécessaires pour préparer les données en vue de leur dépôt ou pour payer tous les frais demandés par les entrepôts de données. Si oui, précisez le montant et comment ces coûts seront couverts.
  • Pour les projets financés par l’ANR, toutes les dépenses liées à la gestion des données sont éligibles durant le projet : acquisition, collecte, stockage, personnel dédié à la gestion des données… En cas de recours à un tiers, le coût de stockage des données est admissible jusqu’à 5 ans après la date de fin scientifique du projet, sous réserve que le contrat avec ce tiers soit conclu avant la fin scientifique du projet.
    (Source : Gala Garcia Reategui. La politique science ouverte de l’Agence Nationale de la Recherche et le DMP. https://octaviana.fr/document/VUN0041_02#?c=&m=&s=&cv=)

  • Ce temps est très difficile à estimer. Il dépend du type de données, des infrastructures mises à disposition ou non par les institutions (entrepôt), des moyens alloués à chaque projet (financier, humains) et des compétences des participants aux projets.
    Vous pouvez par ailleurs consulter cette page web où sont regroupés quelques liens vers des outils ou checklists concernant l’évaluation des coûts (financiers et en temps) de la gestion des données de recherche dans un projet.

  • Un “projet de thèse” est un excellent début de PGD, car il aborde des thématiques que l’on retrouve dans ce genre de documents (objectifs du projet de recherche, type de données qui serviront à l’appuyer, etc.).
    Mais un PGD va plus loin, est plus exhaustif qu’un projet de thèse. Il aborde davantage de notions. En outre, un PGD a vocation à être complété / corrigé tout au long du doctorat (ou de tout projet de recherche), alors qu’un “projet de thèse” est un livrable ponctuel.

  • Le PGD peut tout à fait être utilisé en tant que plan de gestion de donnée d’une structure, c’est-à-dire pour un laboratoire ou une équipe de recherche. Cela permettra de mettre en place une politique de gestion des données, et d’amener les chercheurs à se poser les bonnes questions. Le PGD est une bonne pratique au quotidien de gestion des données à mettre en place dans les unités de recherche.

  • Il est possible de rédiger un DMP sans qu’il soit lié à un projet de recherche. Le DMP permet d’appliquer de bonnes pratiques de gestion des données de recherche dans son laboratoire. Il existe même des modèles de PGD de structure (exemple celui de l’INRAE).

  • Le DMP peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des « DMP de structure » (à l’INRAE) qui établissent des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le DMP sert au centre à gérer ou prévoir les besoins en stockage. Le DMP devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul).

  • Il est possible de rédiger ce que l’on appelle un PGD de structure.
    Vous en avez un exemple avec celui proposé par l’INRAE (vous pouvez le retrouver dans la liste des modèles de DMP proposée sur DMP OPIDoR).
    Sinon, vous pouvez partir d’un modèle conçu pour des projets et ne pas tenir compte de toutes les parties plus administratives.
    L’intérêt est de pouvoir gérer les données d’une unité hors projet, par exemple d’anciennes données.
    Il n’y a pas de recommandations spécifiques.

  • Dans le cas d’un DMP pour une plateforme, une structure devra (comme pour un projet) décrire comment les données sont gérées dans ces structures, quelles ressources y sont attribuées… Vous pouvez utiliser pour cela un modèle de PGD de structure. Il n’y a pas de lien direct avec la certification mais la rédaction d’un DMP peut sûrement aider à structurer une demande de certification.

  • Bien sûr, c’est même recommandé. Le PGD doit être adapté à vos besoins, il ne sert que de vade-mecum pour vous aider à tirer le maximum de bénéfice de vos données.

  • Les chercheurs évoquent souvent les difficultés suivantes (pour lesquelles de nombreuses solutions existent) :

    • Manque de connaissances (notamment sur des points comme le cadre juridique, les questions d’éthique) ;
    • Manque de compétences (notamment sur des questions informatiques : formats de fichiers, protocoles de sauvegarde, standards de métadonnées…) ;
    • Manque de temps (surcharge administrative supplémentaire) ;
    • Manque de reconnaissance (la rédaction d’un PGD n’est pas encore assez valorisée, notamment dans les évaluations des chercheurs) ;
    • Ampleur de la tâche (notamment dans les gros projets multipartenaires impliquant plusieurs établissements dans plusieurs États) ;
    • Manque d’outils appropriés (notamment dans les disciplines qui utilisent plus volontiers des outils tels que LaTeX et ne voient pas l’intérêt de passer par DMP OPIDoR).
  • Les bonnes pratiques en matière de gestion des données existent en partie pour prévenir les risques potentiels :

    • Risques informatiques / matériels : perte de données ou des métadonnées, mauvaise conservation les rendant inutilisables…
    • Risques de sécurité : vol de données sensibles (personnelles, soumises à un secret quelconque…)
    • Risques scientifiques :
      • Conclusions erronées basées sur des données fabriquées, falsifiées ou tout simplement mal collectées / mal traitées / mal interprétées ;
      • Non reproductibilité de certaines expériences si les données et métadonnées ne sont pas bien gérées ni rendues FAIR ;
      • Manquements à l’intégrité scientifique dus à de mauvaises pratiques de citation des données…
    • Risques juridiques : non-respect du cadre juridique des données de la recherche (données sous droit d’auteur, données personnelles, données soumises à un secret quelconque…).
  • Il n’y a pas de précédent de fuites. Les données elles-mêmes ne sont pas hébergées sur les plateformes de rédaction de PGD. Il ne s’agit que du document qui les décrit.
    Les données personnelles contenues dans les PGD (noms des chercheurs responsables des projets et qui jouent un rôle dans la gestion des données) sont conservées dans le respect du RGPD par les institutions qui portent ces plateformes (l’Inist-CNRS pour DMP OPIDoR, le Digital Curation Centre pour DMPOnline et le California Digital Library pour DMPTool).

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Modèles de PGD

  • Les modèles de PGD dépendent des organismes qui les conçoivent (ceux-ci peuvent alors présenter une orientation disciplinaire spécifique) ou des organismes (financeurs, établissements de tutelle…) qui en imposent l’utilisation.
    Certains modèles de PGD pluridisciplinaires proposés par des financeurs comme la Commission européenne ou l’Agence nationale de la recherche peuvent convenir à des projets dans n’importe quelle discipline. Cependant, si vos recherches portent principalement sur des données à caractère sensible (recherche biomédicale par exemple), vous aurez peut-être intérêt à utiliser un modèle de PGD fourni par un établissement qui s’intéresse à ces problématiques.

    Quelques exemples de modèles disciplinaires :

  • Oui tout à fait. Tous les organismes auteurs de modèles de PGD les proposent dans un format ouvert, librement utilisable par tout un chacun.
    Ces modèles de PGD sont disponibles sur les sites internet de chaque organisme, mais aussi sur des plateformes centralisées telles que DMP OPIDoR.

  • Les financeurs peuvent proposer un modèle mais aucun modèle n’est obligatoire. Vous pouvez choisir celui qui vous convient le mieux, par exemple celui de votre établissement s’il en propose un. En ce qui concerne le modèle structuré, pour l’instant, il n’en existe qu’un : le modèle Science Europe (existe aussi en version anglaise – Science Europe: structured template).

  • Le DMP structuré est comme le DMP classique, il peut être modifié à tout moment suivant l’évolution du projet.
    Quel que soit le modèle choisi, il est recommandé toutefois de livrer à votre financeur 2 à 3 versions : au début du projet, au milieu du projet si celui est long et à la fin du projet. Dans le cas de projets financés, le financeur fixe le nombre de versions et leur périodicité.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Produits de recherche et jeux de données

  • ” Un jeu de données peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent “. Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée.

    Source : Gaillard Rémi. De l’open data à l’open research data : quelle(s) politique(s) pour les données de recherche ? Janvier 2014. https://www.enssib.fr/bibliotheque-numerique/notices/64131-de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche

  • Les deux ! Dans le DMP, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et analysées. Mais leur gestion peut être différenciée (dépôt dans un entrepôt différent, conditions de partage différentes, …)

  • Un PGD doit idéalement concerner absolument toutes les données collectées, produites, réutilisées, traitées, manipulées, comparées, analysées etc. au cours de la thèse. Et si vous avez oublié d’inclure certaines catégories de données au début de votre projet, vous pouvez les rajouter à tout moment, car le PGD doit évoluer tout au long de votre projet pour en refléter la réalité.
    En commençant la rédaction de votre PGD sur DMP OPIDoR, il vous sera demandé d’identifier vos “produits de recherche”: il s’agit justement des différents ensembles de données que vous allez collecter, produire etc. Le fait de “découper” ses matériaux de recherche en plusieurs “produits” sert à indiquer des spécificités de traitement entre ces produits. Dans un projet pluridisciplinaire, par exemple, on pourrait imaginer que les produits n’ont pas vocation à être déposés dans les mêmes entrepôts, par exemple, ni à être décrits selon les mêmes standards de métadonnées : d’où l’intérêt d’agencer les réponses aux questions posées par le PGD en produits distincts.
    Si vous manipulez des types de données très différents, certaines rubriques du PGD pourront être cruciales pour un type mais pas pour l’autre (ex.: les enjeux éthiques ne seront probablement pas très importants si vous manipulez des corpus de textes antiques, mais ils le seront si vous analysez les notes des élèves qui auront eu à étudier ces textes).

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …

  • Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.

  • Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
    Un type de données = un produit de recherche.

  • Tout à fait. Dans votre DMP, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.

  • Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre DMP (Data Management Plan également appelé PGD ou Plan de gestion des données). Cette évaluation peut en effet s’avérer difficile en début de projet. Il faut savoir que le DMP est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.

  • Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts car ils facilitent le partage et la réutilisation à long terme des données.

    Voir également une question similaire dans la rubrique Stockage & Archivage

  • Il n’y a qu’une seule personne contact possible pour un produit de recherche.
    Cependant, on peut définir plusieurs responsables, par exemple, du stockage ou de la production ou de la collecte des données…

  • Par exemple :

    • Si vous vous rendez compte qu’elles ont été mal collectées / mal produites (lacunes dans les données, mauvais étalonnage ou mauvais paramétrage des instruments, biais induit par la personne qui a réalisé la collecte…)
    • Si vous ne savez pas exactement dans quelles conditions des données existantes ont été produites (peut-être ont-elles des vices cachés)
    • Si elles ont été collectées d’une manière illicite (ex.: piratage de bases de données, interdit notamment dans le cadre du text and data mining)
    • Si le traitement prévu pour des données personnelles ne respecte pas le RGPD
    • Si l’utilisation prévue des données sous droit d’auteur porte atteinte à l’intégrité de l’œuvre (non-respect des droits moraux des auteurs)

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Contenu

  • Le PGD permet de formaliser au sein d’un document unique des informations utiles au suivi du projet et à la bonne gestion des résultats obtenus, auparavant dispersées entre divers acteurs ou documents.  Par exemple, dans l’accord de consortium signé entre les partenaires d’un projet européen, on trouve des informations qui pourront être reprises dans le PGD.
    L’objectif à terme est de rendre les PGD entièrement interopérables avec différents outils, afin de limiter au maximum la double saisie des informations (ex.: la rubrique “coûts” du PGD serait automatiquement alimentée par le logiciel de gestion budgétaire et comptable du laboratoire).

  • Tous les projets de recherche qui manipulent des données auraient intérêt à se doter d’un PGD. La base de la réflexion consiste à prendre le temps de s’interroger sur ce que peuvent être les données de sa thèse / de son projet :

    • Quels sont les éléments, numériques ou non, auxquels je tiens vraiment et qui seraient irremplaçables ou très longs et complexes à remplacer en cas de perte, de vol ou de problème technique ?
    • Si je devais relire et évaluer les travaux de collègues qui travaillent sur un sujet de recherche similaire au mien, de quoi aurais-je besoin pour vérifier leurs résultats, reproduire leurs expériences ou tout simplement reproduire leur cheminement intellectuel ?

    Toutes les réponses à ces questions sont recevables, y compris “je ne manipule que des sources secondaires / de la bibliographie / les publications d’autres chercheurs / des textes de loi publics”.
    Le PGD est ensuite utile pour se demander si les données en question impliquent des enjeux particuliers en termes de collecte, documentation, stockage, etc. Il est tout à fait envisageable d’expliquer dans ces parties du PGD que vos données ne sont pas concernées, en justifiant cet argument.

  • Le périmètre de ce qu’on entend par “données de la recherche” varie d’un établissement / financeur à l’autre. Mais d’une manière générale, on peut retenir une définition très pragmatique des données : « tous les matériaux analysés, interprétés ou utilisés lors d’une recherche, quelle que soit leur origine et la méthode utilisée » (M. Saby). Les données analogiques (non numériques ou non numérisées) ont toute leur place dans cette définition pragmatique (qui va différer de la définition strictement juridique des données).

    Toutes ces données matérielles (échantillons, cellules, organismes génétiquement modifiés, réactifs, prototypes, tessons, fragments d’œuvres d’art…) doivent faire l’objet d’une réflexion approfondie et être incluses dans le PGD. Toutes les questions relatives à la bonne gestion des données peuvent les concerner :

    • comment seront-elles produites / collectées ?
    • comment seront-elles stockées ?
    • qu’adviendra-t-il d’elles à la fin du projet ? Etc.

    Il est évident que ces données ne pourront pas être diffusées aussi largement que pourraient l’être des données numériques ou numérisées. Dans les cas où il n’est pas possible de rendre ces données analogiques Faciles à trouver, Accessibles, Interopérables et Réutilisables, ce sont les métadonnées décrivant ces données qui devront être enrichies et rendues FAIR.

  • Il est possible d’indiquer le lien entre les données et les publications qui vont être réalisées mais le PGD est bien centré sur la gestion des données elles-mêmes. À noter que son périmètre s’étend à toutes les données, pas seulement celles qui donneront lieu à une publication.

  • Oui, car vous allez à nouveau agir sur ces données. Comment les sélectionnerez-vous pour les réutiliser ? Où les stockerez-vous ? Quels traitements allez-vous leur appliquer ? Allez-vous les conserver après votre projet ? Etc.
    S’il vous manque des informations sur le contexte de production de ces données, le PGD est justement l’occasion d’expliquer ces lacunes en détails, afin que vous ne puissiez pas être pénalisé ensuite si un problème est mis au jour.

  • Oui, ce sont de bonnes pratiques en recherche académique.

  • À vous de prévoir ces aspects le plus en amont possible pendant votre projet, et de spécifier dans le PGD les conditions dans lesquelles vous souhaitez produire cette documentation. N’hésitez pas à proposer des exemples précis, à joindre en annexe du PGD.
    Prévoyez aussi comment effectuer le suivi de la bonne application de ces recommandations.

  • Ces critères varient énormément d’une discipline à l’autre. Apprendre ces critères fait partie de la formation de jeune chercheur : renseignez-vous auprès de chercheurs expérimentés dans votre domaine.
    Quelques critères généralistes :

    • Vérifier que les données ont été convenablement collectées (en ayant documenté le processus de collecte)
    • Vérifier que les traitements qu’ont subi les données ont été entièrement et correctement décrits
    • Favoriser un contrôle par une personne ou une instance tierce
    • Etc.

    N’hésitez pas non plus à consulter des PGD rédigés, ainsi que cette piste bibliographique :
    Batifol Véronique, Burnel Laurent, Johany François. “QualiNous”: un collectif pour accompagner les bonnes pratiques de gestion et de partage des données au Département SAD de l’Inra. 25 mars 2019. https://www6.inrae.fr/novae/content/download/5248/53479/version/2/file/2019-QualiNous-Cahier-technique-Inra.pdf

  • Ce qui fait la qualité ou la véracité d’une donnée varie d’une discipline à l’autre. Pensez notamment à consulter les métadonnées et la documentation relative au contexte de création / collecte des données qui vous sont ensuite mises à disposition.
    N’hésitez pas à prendre contact avec le(s) producteur(s) des données pour en savoir plus si vous avez un doute.

  • Idéalement, il faut fournir le plus de détails possible. Demandez-vous de quelles informations vous auriez besoin si vous étiez extérieur à votre projet de recherche, et que vous deviez reproduire votre expérience / refaire votre cheminement intellectuel vingt ans plus tard.
    Les informations à fournir concernent aussi bien des aspects scientifiques (quel protocole de collecte ? quelles questions de recherche ? quelles adaptations au terrain ? etc.) que des aspects techniques (quel matériel ? quels réactifs ? quels paramètres ? quelle périodicité ? etc.) ou informatiques (quelle version du logiciel ? quel éditeur ? quel script ? etc.). Ce sont des éléments indispensables à la robustesse de vos résultats scientifiques, y compris dans des disciplines non expérimentales où il n’est pas question de reproduire des expériences telles quelles mais d’au moins se mettre dans la peau d’un chercheur pour reproduire et comprendre son raisonnement.
    Pour avoir une idée des détails à fournir dans vos disciplines, n’hésitez pas à lire des PGD rédigés.

  • Quelques pistes pour évaluer les coûts (ne pas oublier les coûts en temps et en ressources humaines) :

  • Les dépenses à prévoir pour la gestion quotidienne des données, ou du moins, pour rendre les données ouvertes et FAIR, peuvent être prises en charge par les organismes de financement de la recherche.
    Seul prérequis : fournir une estimation suffisamment solide de ces futures dépenses au moment de la réponse à appels à projet, pour l’inclure dans la demande de financement.

MÉTADONNÉES

  • Tout va dépendre de votre type de données. Vous n’aurez pas forcément besoin de fournir des métadonnées de géolocalisation pour des données qui décrivent les réactions de bactéries face à des antibiotiques, par exemple.
    Commencez par repérer les pratiques dans votre discipline et pour le type de données que vous produisez : les métadonnées à fournir sont présentées dans le respect de certains standards. À vous ensuite de produire vos propres métadonnées, en les rendant conformes à ces standards.

    Exemple de métadonnées importantes quel que soit le type de données :

    • Description du contenu intellectuel
      • Titre
      • Résumé
      • Mots-clés
    • Caractéristiques techniques
      • Format
      • Logiciel utilisé pour la production ou le traitement
      • Version
      • Taille
    • Droits liés
      • Producteur des données
      • Droits d’accès
      • Droits de réutilisation
    • Relations impliquant les données
      • A pour partie…
      • Est une partie de…
      • A donné lieu à la publication…
  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#indis

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#indispensable

  • Il existe des ressources dans DoRANum dans la thématique Métadonnées, Standards, Formats : https://doranum.fr/metadonnees-standards-formats/
    Vous pouvez également vous adresser aux personnes qui peuvent vous accompagner dans les universités, auprès des ateliers de la donnée ou directement auprès du Service OPIDoR : info-opidor@inist.fr

  • Voici les informations qui permettent d’établir un référentiel en fonction des sujets des données de recherche d’un laboratoire :

    • Nomenclature :

    IUPAC gold book (https://goldbook.iupac.org/)

    • Vocabulaire Chimie et Matériaux :

    (http://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Actualites/Vocabulaire-de-la-chimie-et-des-materiaux-2018)

    • Vocabulaires plus généraux avec une partie consacrée à la chimie :

    Rameau (http://rameau.bnf.fr/)
    chimie (https://catalogue.bnf.fr/ark:/12148/cb119704650)

    Thesaurus Eurovoc
    36 SCIENCES
    3606 Sciences naturelles et appliquées
    (https://publications.europa.eu/fr/web/eu-vocabularies/th-top-concept-scheme/-/resource/eurovoc/100141?target=Browse&)

    GEMET
    chimie (https://www.eionet.europa.eu/gemet/fr/theme/6/concepts/)

    LCSH, Library of Congress Subjects Headings
    chimie (http://id.loc.gov/authorities/subjects/sh85022986.html)
    chimie physique (http://id.loc.gov/authorities/subjects/sh85023027.html)

    • Ontologies :

    CHEBI, Chemical Entities of Biological Interest
    (https://www.ebi.ac.uk/ols/ontologies/chebi)

    REX, Physico-chemical process
    (https://www.ebi.ac.uk/ols/ontologies/rex)

    CHMO, the chemical methods ontology
    (https://www.ebi.ac.uk/ols/ontologies/chmo)

    FIX, an ontology of physico-chemical methods and properties.
    (https://www.ebi.ac.uk/ols/ontologies/fix)

    CHEMINF, Chemical Information Ontology
    (http://www.ontobee.org/ontology/cheminf)

    MOP, Molecular Process Ontology
    (http://www.ontobee.org/ontology/mop)

    RXNO, Name Reaction Ontology
    (http://www.ontobee.org/ontology/rxno)

  • Dans un premier temps, faites vous accompagner par des documentalistes ou des data librarians.
    Vous pouvez aussi consulter la sur les schémas de métadonnées ainsi que la ressource « Outils de création de métadonnées ».

  • Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
    Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
    Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
    A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche DataCite Search.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • Il y a dans chaque établissement/structure, des personnes pour vous accompagner dans la gestion de vos données (et donc le renseignement des métadonnées), notamment les professionnels de l’information scientifique et technique (IST), mais aussi des informaticiens par exemple ou une cellule d’accompagnement spécifique. Il faut vous renseigner pour savoir qui peut vous accompagner en local et possède ces connaissances pour vous aider.

IDENTIFIANTS PÉRENNES : généralités

  • Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.

  • Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).

  • Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).

  • Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…

  • Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.

  • Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.

  • Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.

  • Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.

  • Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt :

    • soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ;
    • soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).
  • Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.

  • On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant, il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.

  • Si votre institution a un compte DataCite permettant d’attribuer des DOI, vous pourrez attribuer un DOI à votre DMP. Sinon, pour établir le contrat il faut contacter le service de l’Inist-CNRS en charge de l’attribution de DOI via le portail OPIDoR. Ce service procédera à l’ouverture d’un compte DataCite, et proposera un accompagnement dans la création de DOI.

  • L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.

  • En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite.

  • L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.

  • Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.

  • A l’Inist-CNRS via l’alias datasets@inist.fr

  • Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.

  • Les EPIC sont considérés comme public.

  • Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.

  • Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.

  • Tout organisme ayant une existence juridique.

  • Le préfixe est attribué à l’organisme qui signe le contrat.

  • Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.

  • C’est au cas par cas.

  • Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets@inist.fr

  • Oui, nous avons déjà des partenaires africains.

  • Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.

  • Chaque organisme producteur de données décide de son propre workflow.

  • Non, ce n’est pas possible. Il faut passer par votre institution.

DEPÔTS & ENTREPÔTS

  • Il y a de nombreuses raisons de déposer ses données. Concernant la publication des articles, le dépôt peut devenir une condition obligatoire. En effet, de plus en plus de revues demandent l’accès aux données, pour améliorer les conditions dans lesquelles les comités de lecture valident les articles. Au niveau du travail scientifique, la réutilisation des données permet de rentabiliser la recherche et d’accélérer l’innovation, car la collecte et le traitement des données peut être coûteux en temps et en argent. De nouvelles collaborations peuvent aussi être favorisées, puisque l’auteur des données est facilement identifiable.
    Par ailleurs, déposer ses données augmente la visibilité de ses recherches. Traditionnellement, les travaux sont visibles à partir des articles publiés. L’avantage de déposer les données liées aux articles est qu’elles deviennent autonomes. Les travaux peuvent donc être vus à partir des articles ou des données, ce qui multiplie donc les chances d’être cité.
    Le contexte politique est favorable à l’ouverture des données. Prenons l’exemple de l’Union Européenne, qui agit en tant que financeur dans le cadre du programme Horizon 2020. A ce jour, les projets inscrits dans ce programme doivent déposer leurs données dans un entrepôt. De son côté l’ANR – sans obliger les chercheurs qu’elle finance à partager dans un entrepôt par exemple – préconise une gestion des données selon l’adage « aussi ouvert que possible, aussi fermé que nécessaire ».
    Enfin, on parle également ici de Science ouverte et citoyenne. En effet, les recherches faites dans le cadre de financements publiques doivent faire preuve d’une certaine transparence vis-à-vis du citoyen.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vigilance

  • Le CNRS a une trop large couverture disciplinaire. Il est recommandé de déposer dans un entrepôt disciplinaire et/ou institutionnel ou dans Recherche Data Gouv prioritairement.

  • Dans re3data, vous pouvez sélectionner un entrepôt en fonction de différents critères, notamment le fait qu’un entrepôt soit certifié ou non. Vous pouvez également rechercher un entrepôt certifié sur le site CoreTrustSeal.

  • Les entrepôts sont certifiés par le CoreTrustSeal (https://www.coretrustseal.org/why-certification/requirements/) selon différents critères qui sont réévalués régulièrement. Parmi ces critères il y a l’engagement sur la pérennité des données. Ils proposent une liste des entrepôts certifiés : https://www.coretrustseal.org/why-certification/certified-repositories/

  • Il existe plusieurs possibilités :

    • Rechercher dans des catalogues ou des annuaires qui peuvent vous aider à filtrer votre recherche d’entrepôts : CatOPIDoRre3dataOADOpenDOAR, etc.
    • Rechercher où déposent les pairs (pratique de la communauté) : chercher des données similaires via des moteurs de recherche (DataCite Search, Google Dataset Search, OpenAIRE Explore…) pour repérer les entrepôts dans lesquels elles sont déposées.
    • Vous renseigner auprès de collègues de la même discipline, quelles pratiques ils ont en ce qui concerne le partage de leurs données.
    • Vous faire aider par les personnels de soutien des universités ou de votre organisme.
  • A partir du moment où vous déposez dans un entrepôt certifié donc de confiance, les risques sont limités.

  • Oui, c’est tout à fait possible. Par exemple, des laboratoires privés ou des particuliers (dans le cadre de la science participative) peuvent partager des données.

  • Les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • La plupart des entrepôts permettent au déposant de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo).

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#endroits

  • Non, si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Qui plus est, cette pratique est fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.

  • L’utilisation de logiciels ou appareillages propriétaires n’empêche pas le partage des données générées. Par contre, les formats seront propriétaires et ne pourront pas toujours être convertis dans un format ouvert, ce qui est un frein à la conservation et à la réutilisation.

  • Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.

    Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • Si un jeu de données a déjà un DOI, certains entrepôts comme Zenodo permettent de récupérer ce DOI existant et n’attribue pas un autre DOI.

  • Le partage des données dans un entrepôt est souvent gratuit. Cependant, le coût peut varier en fonction de la volumétrie. Par exemple pour 4TU Research data, les dépôts sont gratuits jusqu’à 10 Go par an, payant au-delà (€ 4.50 per GB).

  • Il existe plusieurs types de financement (public, privé, fondations…) selon la ou les institutions responsables de l’entrepôt. Par exemple, l’entrepôt européen Zenodo est financé par la commission européenne.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#citer

  • Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.

    • Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
    • Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
      • Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
      • Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.

    Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?

    La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#API

  • Non, My Core (outil utilisé par le CNRS) est un outil qui permet le stockage et la sauvegarde individuelle de fichiers et le partage sécurisé. Il est plutôt utile pour le stockage et le partage de documents avec ses collaborateurs durant un projet. Il n’est pas adapté au partage de jeux de données.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Tous les entrepôts de données ne le permettent pas. Dans l’annuaire re3data (https://www.re3data.org/) vous pouvez trouver des entrepôts certifiés qui s’engagent à proposer un archivage à long terme. C’est notamment le cas de 4TU.ResearchData (https://www.re3data.org/repository/r3d100010216).
    Si l’entrepôt choisi ne permet pas l’archivage à long terme, il faut d’abord réfléchir à quelles données vous allez sélectionner pour un archivage pérenne, puis s’adresser au CINES qui vous accompagnera, tout en sachant que cela a un coût qui n’est pas négligeable. Si vous êtes dans un domaine des SHS, l’infrastructure Huma-Num peut également vous accompagner pour l’archivage de vos données.

  • Pour rechercher des entrepôts français : Cat OPIDoR (https://cat.opidor.fr/)

    Re3data (https://www.re3data.org/) notamment permet de rechercher des entrepôts de données dans différentes disciplines et selon plusieurs critères. La durée de stockage n’est pas systématiquement mentionnée. Il faut aller vérifier sur le site de l’entrepôt lui-même.

    La plupart des entrepôts sont gratuits mais certains peuvent être payants.  Il en existe également en accès restreint.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données dans un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

STOCKAGE & ARCHIVAGE

  • Il s’agit d’une norme internationale et c’est plus simple d’utiliser ce format pour trier ou retrouver plus facilement ses fichiers (par l’année).

  • Sur DoRANum vous en saurez plus en consultant cette ressource Stockage, partage et archivage : quelles différences ?
    Mais vous n’aurez pas d’informations précises sur le matériel dont vous pouvez disposer dans votre propre organisme. Si vous n’avez pas connaissance de recommandations institutionnelles, vous devez vous renseigner en interne, auprès des personnes dédiées à l’appui à la recherche type data librarian, documentaliste, voire informaticiens.

  • Vous pouvez utiliser ShareDocs ou Huma-Num Box. Voir https://www.huma-num.fr/services-et-outils/stocker.

  • Oui, il n’y a pas de « mauvaises réponses » dans le DMP. L’essentiel est de décrire vos pratiques de gestion de données, quelles qu’elles soient.

  • Il existe l’outil Mattermost (utilisé à l’Inist-CNRS) qui propose une alternative à Slack : https://mattermost.com/

  • Oui, cela devrait se passer au niveau de chaque établissement.

  • La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
    Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/

  • Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.

    Ensuite, pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.

  • Utiliser des formats ouverts (accessibles et modifiables indépendamment d’un logiciel unique) n’est pas une règle, mais une recommandation. Les formats ouverts vont permettre d’améliorer la préservation et le partage des données. Cela dépend des logiciels utilisés. Si vous utilisez un logiciel propriétaire, car très utilisé dans votre communauté ou pour lequel vous avez une expertise, il faudra préciser si le format de fichiers pourra être converti ou utilisé par d’autres logiciels libres. Parfois il n’est pas possible de convertir dans un format ouvert. Dans tous les cas, il faudra bien « documenter » cet aspect en précisant quel logiciel vous avez utilisé pour vos données, ainsi que sa version.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Pour tout ce qui concerne les plateformes de stockage des données, c’est à chaque équipe ou laboratoire de se renseigner sur les services proposés en local par son université ou par une infrastructure qui pourrait l’accompagner ou par son organisme de rattachement.

  • Cette ressource (https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/nommage-des-fichiers-versioning-adopter-les-bons-reflexes/#titre1) donne des informations détaillées, notamment sur le logiciel de gestion de versions Git (https://git-scm.com/) et mentionne d’autres outils.
    Il existe également le logiciel de gestion de données iRODS : http://irods.org/

  • Les données générées pendant le processus de recherche peuvent être stockées dans un espace de stockage dédié mais toutes ne doivent pas nécessairement être partagées. Certaines données d’un projet peuvent ne pas être partagées pour différentes raisons : données sensibles, questions de sécurité, secret, brevet en cours, intérêts commerciaux…
    « Aussi ouvert que possible, aussi fermé que nécessaire ».
    Au moment du dépôt dans un entrepôt de données, une sélection des données à diffuser doit être réalisée.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
    Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
    L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
    Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).

  • En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.

  • Le coût est celui de l’archivage (plus de 30 ans), des mises à jour de supports et de formats, etc… fixé par le CINES.

  • Pour la France, il n’existe pour l’instant que le CINES.
    Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
    Le portail européen Open Science Cloud (EOSC) (https://marketplace.eosc-portal.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.

  • Vous pouvez stocker et partager toutes vos données, à condition de :

    • Respecter d’éventuelles restrictions juridiques (ex.: on ne peut pas partager des données personnelles n’importe comment)
    • Documenter rigoureusement l’état de traitement de ces données (fournir des métadonnées de qualité).

    D’autres critères peuvent ensuite guider vos choix de données à préserver ou éliminer, comme le volume des données, leur degré d’unicité (si vos données peuvent facilement être recréées à partir de la documentation que vous avez produite, pas besoin de conserver les données brutes).

  • Il n’y a pas vraiment de critère objectif. Mais peu importe le volume des données de recherche, elles devraient toutes être prises en charge avec la même attention. Les questions à se poser restent les mêmes, quoique les réponses puissent différer (il ne sera pas toujours possible d’archiver à long terme des pétaoctets de données).

  • De les trier, pas forcément, mais de réfléchir aux forces, faiblesses, opportunités et menaces que pourraient engendrer un tri, oui ! Cette question doit être abordée dans le PGD, même si c’est pour conclure que les données ne seront pas triées.

  • Tant que chacune des deux parties comprend comment fonctionne son homologue, cela ne pose pas de problème : le PGD est très utile pour décrire ce genre de modalité.
    Notez bien que le PGD n’est pas censé imposer une façon de faire qui serait meilleure que les autres. Il encourage une réflexion approfondie sur certains aspects du travail scientifique qui, sinon, passeraient sous silence et pourraient poser souci.

  • Chaque organisme de recherche a la possibilité de proposer des infrastructures de stockage qui lui sont propres.
    Il est également possible pour chaque organisme d’avoir recours à des solutions commerciales identiques.
    En revanche, les infrastructures publiques telles que le Centre informatique national de l’enseignement supérieur n’hébergent en théorie que les données des organismes publics (sauf cas particuliers de projets collaboratifs).
    Et inversement, les organismes privés réservent l’utilisation de leurs serveurs de stockage à leurs personnels, sauf cas particuliers.

  • En réfléchissant à des stratégies de :

    • Sauvegarde mais aussi restauration de vos données
    • Protection de certains fichiers-maîtres (accessibles uniquement en lecture pour empêcher toute fausse manipulation)
    • Sécurité des données (qui peut y avoir accès, comment…)
    • Détournement de vos données (quels mauvais usages pourraient se développer ?)

    Si vos données sont très sensibles, n’hésitez pas à envisager un audit par des spécialistes de ces sujets. Ce genre de dépense peut être éligible à un financement.

  • Les retours d’expérience, y compris négatifs, sont un bon outil de sensibilisation.
    La “stratégie des petits pas” peut aussi fonctionner : sans forcément rédiger un PGD complet, pourquoi ne pas commencer par programmer des sauvegardes régulières sur un cloud sécurisé à l’aide d’un petit utilitaire gratuit ?

  • Il existe de nombreux outils sur internet pour vous renseigner sur la question, par exemple le quiz Format ouvert ou fermé ?
    Vous pouvez également avoir recours à l’outil DROID qui permet d’analyser des fichiers dont on ne connaît pas forcément le format. Il vous donne ensuite la “fiche d’identité” du format en question.
    En cas de doute, renseignez-vous auprès d’un informaticien qui sera à même d’examiner la signature interne du fichier pour déterminer son format.

  • La conservation consiste à s’assurer qu’un document est toujours présent sur un support de stockage et qu’il conserve son intégrité.

    L’archivage va plus loin. Il permet aussi de :

    • donner accès au document, c’est-à-dire retrouver le document sur le support de stockage et pouvoir le lire (= ouvrir le ou les fichiers).
    • préserver l’intelligibilité du document, c’est-à-dire faire en sorte que le document reste compréhensible par ses utilisateurs potentiels à travers le temps.

    La sauvegarde (ou stockage) sécurisée ne prend en compte que les deux premiers objectifs sur les trois cités et seulement dans une perspective de court et moyen termes.

    Voir : CINES. Le concept d’archivage numérique pérenne. https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/

  • Pour la conservation à long terme (archivage pérenne), il faut avoir recours à des plateformes spécialisées, qui sont en mesure de vérifier régulièrement que les données entreposées chez elles ne se dégraderont pas avec le temps et continueront à être faciles à trouver, accessibles, interopérables et réutilisables, même si la technologie évolue. Ce service peut avoir un coût, à vérifier et planifier le plus tôt possible au cours d’un projet. Ce type de dépense est souvent éligible à une prise en charge par le financeur du projet.

  • Tout dépend de la finalité de votre projet de recherche, mais on peut citer par exemple :

    • Des données personnelles, pour lesquelles le RGPD affirme un principe de limitation de la durée de conservation (sauf cas particuliers) https://net-helium.fr/blog/rgpd-quelle-duree-de-conservation-des-donnees-personnelles/47
    • Des données extrêmement volumineuses, dont l’archivage pérenne utiliserait trop de moyens
    • Des données qu’il serait très facile de reproduire à l’identique, pour peu que leur mode de production soit bien documenté
    • Etc.

    Effacement, destruction, élimination… tous ces termes sont à peu près synonymes, mais gardez à l’esprit que déplacer des fichiers dans la corbeille de son ordinateur ne suffit pas à réellement supprimer des données. Rapprochez-vous d’un informaticien pour avoir de l’aide sur cette thématique.
    Retenez également que toute suppression de données doit impérativement être documentée, notamment à l’aide de métadonnées complètes et précises, qui permettront de comprendre en quoi consistaient les données supprimées et pourquoi elles ont été éliminées. Ces métadonnées devront elles-mêmes être préservées et rendues FAIR. Pour obtenir de l’aide sur cette problématique, rapprochez-vous des archivistes de votre établissement (demandez-leur notamment de l’aide pour dresser l’équivalent d’un bordereau d’élimination…).
    Pour vous aider, vous pouvez également consulter le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/

  • Cela va beaucoup dépendre de votre projet. Penchez-vous sur cette question le plus tôt possible, et faites-vous aider. Essayez d’imaginer tous les problèmes qui pourraient survenir, pour trouver comment y parer…

DATA PAPERS

  • Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…

    Le data paper est

    • soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
    • soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.

    Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un DMP. C’est cependant un bon moyen de valoriser vos données.

    Vous avez deux manières de rendre visibles vos données :

    • soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
    • Soit vous rédigez une publication classique et, lorsque la revue le permet, vous décrivez vos données dans les « supplementary data ». Cependant, vous pouvez être limités par la taille de fichiers imposée par la revue. Ces données ne sont pas toujours incluses dans le PDF de l’article, ni soumises à un examen par les pairs, ni potentiellement citables. Cela dépend des revues.

    Pour en savoir plus :
    Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/  
    Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/

  • “Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
    Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016

  • Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.

  • A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.

  • On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
    Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
    Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.

  • Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.

  • Il convient de suivre les recommandations du guide pour les chercheurs “Partager les données liées aux publications scientifiques

ACCÈS VISUALISATION

  • Il n’y a pas de liste à proprement parlé. Toutefois voici quelques outils :

    • Outils de visualisation pour l’accès aux données depuis un entrepôt :
    • Outils de visualisation pour une meilleure manipulation et appréhension des données :
      • Gephi (logiciel libre d’analyse et de visualisation de réseaux)
      • D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
      • Gargantext (plateforme web pour explorer des données textuelles)
      • QGIS (Système d’Information Géographique Libre et Open Source)

Votre question n’apparaît pas dans cette FAQ ?

Laissez-nous un message, nous vous répondrons au plus vite !