FOIRE AUX QUESTIONS

Dernière mise à jour : 23/11/2020

Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.

DORANUM

  • Oui, toutes les ressources sont sous la licence Etalab ou Creative Commons et sont librement réutilisables. Vous pouvez les télécharger, les intégrer sur votre site, les modifier pour les adapter à vos propres ressources. Vous pouvez aussi imprimer des fiches synthétiques et autres supports pour vos formations présentielles.

  • Oui, nous proposons des formations en présentiel à la demande.

  • Oui, nous organisons régulièrement des webinaires de présentation de DoRANum. Le calendrier sera annoncé dans les actualités du site.

  • Oui, nous pouvons contribuer à la réalisation de vos ressources de formation sur les données de la recherche. Précisez-nous votre demande via notre formulaire de contact.

  • Nous vous encourageons à contribuer à l’activité de DoRANum !

    Votre avis compte

    N’hésitez pas à nous laisser vos retours sur nos ressources (commentaires, évaluations), cela nous permettra de les améliorer. Toutes les remarques et suggestions sont les bienvenues.

    Réutilisez et partagez

    Réutilisez les ressources, en les intégrant sur votre site, en distribuant les imprimés lors de vos formations, en mixant nos contenus avec vos propres ressources… et partagez-les sur les réseaux sociaux si vous le souhaitez !

    Partenariat

    Nous pouvons collaborer sur un projet de formation autour des données de la recherche : création de nouvelles ressources pour des formations en présentiel ou distanciel, intégration des ressources DoRANum dans votre dispositif de formation.

  • DoRANum est une plateforme ouverte qu’il est tout à fait possible d’utiliser librement partout dans le monde (les ressources sont en français uniquement).

  • Il n’y a pas de possibilité d’abonnement aux actualités. Il faut se rendre directement sur la page des actualités pour les consulter : https://doranum.fr/actualites/

ENJEUX & BÉNÉFICES

  • Le contexte général tend vers l’ouverture des données. Vous pouvez ainsi être obligé de partager vos données de recherche dans certains cas, comme :

    • pour l’obtention de financement de projets, à l’image des projets issus du programme Horizon 2020;
    • pour la publication d’articles, à l’image de la revue PLOS ONE qui recommande, voire exige, l’accès aux données sous-jacentes des résultats rapportés dans l’article soumis.

    De nouvelles mesures vont être mis en place avec le Plan national pour la science ouverte, notamment une visant à “rendre obligatoire la diffusion ouverte des données de recherches issues de programmes financés par appels à projets sur fonds publics”.

  • Non, certaines données sont soumises à des exceptions définies par la loi, comme des données relevant du secret professionnel, des données personnelles ou encore protégées par le droit d’auteur.

  • Il s’agit des « […] données de la recherche nécessaires à la validation des résultats présentés dans les publications scientifiques […] ».
    Source : « Lignes directrices pour le libre accès aux publications scientifiques et aux données de la recherche dans Horizon 2020 » de la Commission européenne. (Titre original : Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 , Version 2.0, 30 October 2015, European Commission, Directorate General for Research and Innovation © Union européenne, 1995-2015)

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vigilance

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#definir

  • Il n’y a pas de règles, le mieux est d’ouvrir les données le plus tôt possible. Les données sont souvent publiées au moment de la publication des résultats. Un embargo peut aussi être appliqué afin de permettre un délai d’exploitation des données.

  • Il n’y a pas de règles, seul le chercheur est en mesure d’évaluer la valeur potentielle des données et de décider quelles données doivent être conservées au-delà du projet et pour combien de temps.

  • Il n’y a pas de recommandations du CNRS concernant les embargos sur les jeux de données

  • Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

ASPECTS JURIDIQUES, ÉTHIQUES, INTEGRITE SCIENTIFIQUE

  • Pour savoir si vous pouvez partager librement des données dont vous n’êtes pas l’auteur, il faut déterminer si elles sont communicables et diffusables. Afin de vous aider dans cette tâche, vous pouvez vous appuyer sur  l’outil d’analyse des données. Cet outil vous permettra d’analyser leur nature juridique et éthique.

    Si l’auteur a attribué une licence à ses données, celle-ci vous engage à respecter l’intégrité de ses données, à faire mention de la source des données et à indiquer la date de la dernière mise à jour.

  • Il vaut mieux ne pas parler de « propriété des données » à propos des données de recherche. La loi République numérique de 2016 a en effet instauré un principe d’ouverture par défaut des données, ce qui rend la notion de propriété globalement peu pertinente.

    La première étape consiste à identifier précisément ce que l’on appelle « données », car ce terme peut recouvrir des réalités très différentes.

    SI les « données » correspondent à des œuvres de l’esprit (c’est-à-dire des créations originales : textes, photos, interviews, etc.), alors elles sont couvertes par un droit d’auteur qui appartient aux chercheurs (si ce sont eux qui ont créé les contenus) ou à des tiers. La diffusion n’est alors possible qu’avec l’accord de ces chercheurs (ou des tiers en question).

    Si les « données » ne sont pas des œuvres de l’esprit, il s’agira alors vraisemblablement d’informations publiques (tableaux de chiffres, mesures, statistiques, etc.). Dans ce cas, les établissements de tutelle seront considérés comme les « producteurs » de ces informations (et non les chercheurs). Mais cela ne signifie pas pour autant que les établissements en sont « propriétaires ». D’après la loi pour une République numérique, les établissements ont en effet l’obligation de rendre ces données librement accessibles et réutilisables.

    Dans le cadre d’un projet ANR impliquant plusieurs partenaires, il vaut mieux en effet conclure un accord de consortium pour déterminer le statut des données produites et la répartition des responsabilités. Ce genre de questions doit normalement être analysés dans un Plan de Gestion de Données (Data Management Plan) dont l’ANR demande la production aux lauréats de ces appels depuis 2019.

    Pour résumer, soit les données sont des œuvres et les chercheurs gardent leurs droits dessus ; soit les données sont des informations publiques et la responsabilité passe aux établissements qui sont obligés de procéder à une libre diffusion.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#licence

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#ouvertes

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Les données brutes sont des données publiques lorsqu’elles ont été produites dans le cadre d’une administration de tutelle publique ou lorsqu’elles sont soumises à une obligation de diffusion par le financeur). Il ne s’agit pas d’un droit de propriété. “Les données publiques, par défaut, doivent être diffusées et rendues réutilisables” (Loi pour une République numérique). Attention cependant aux exceptions : photos (si ce sont des œuvres originales) et aux données personnelles (qui requièrent le consentement des personnes et doivent être anonymisées pour être diffusées). Dans le cas de partenariats, un accord de consortium doit répartir les droits et responsabilités sur les données.
    Source : Interview de Lionel Maurel – https://doranum.fr/aspects-juridiques-ethiques/questions-juridiques-liees-aux-donnees-de-la-recherche/

  • Non ce n’est pas le rôle du DMP, c’est plutôt celui du cahier de laboratoire.

  • Non, le DMP n’a aucune valeur juridique.

  • Pour les agents CNRS, il faut s’adresser à sa délégation régionale, notamment au service « Partenariat et Valorisation » ou au service juridique s’il en existe un. Ce type de services existe également dans les universités.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Généralités

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#PGD

  • La rédaction d’un DMP va effectivement demander un peu de temps, variable suivant le projet. Mais il va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
    Le DMP peut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !

  • Le DMP doit normalement être initié très tôt, dès le début du projet. Rédiger un DMP en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.

  • Le DMP doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.

  • En dehors du cadre d’un projet financé, vous pouvez mettre en place un DMP dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.

  • Quand le projet est accepté. Dans les dossiers pour financement H2020, il y a un paragraphe sur la gestion des données mais c’est pour « montrer » que cette problématique est prise en compte. Le DMP n’est pas demandé au dépôt du dossier. Il n’empêche que vous pouvez en amont du projet déjà réfléchir à la gestion de vos données.

  • Non le DMP n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.

  • La question a déjà été posée à l’ANR : vous pouvez rédiger votre DMP en français, pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.

  • Le DMP sera surtout lu par les collaborateurs, les chargés de projets scientifiques et les gestionnaires.
    Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
    Il faut bien comprendre que le DMP est avant tout un outil de réflexion et de gestion de projet, utile pour mettre en œuvre des bonnes pratiques de gestion des données de recherche.

  • Il n’y a pas de préconisations particulières. La taille dépendra du nombre de jeux de données décrits, de la complexité du projet…

  • Il est difficile d’évaluer le temps nécessaire à la rédaction d’un DMP. En effet, cette rédaction se fait au fur et à mesure de l’avancée d’un projet. Cela peut dépendre de la complexité du projet et des disciplines.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Déposer son DMP dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple déposer votre plan dans l’entrepôt de données Zenodo, qui permet le dépôt de tous types de fichiers, et qui offre l’avantage de leur attribuer automatiquement un DOI.
    On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scénarii sont envisageables.

  • Pour une première approche, vous pouvez consulter les ressources « en bref » et « l’essentiel » de la thématique « Plan de gestion de données » de DoRANum : https://doranum.fr/plan-gestion-donnees-dmp/
    Au niveau de votre organisme, dirigez-vous vers les data librarians ou documentalistes si possible.
    Enfin, vous pouvez obtenir de l’aide ou des informations sur la rédaction d’un plan de gestion de données en contactant l’équipe OPIDoR de l’Inist-CNRS : info-opidor@inist.fr
    Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.

  • Le PGD est une obligation vis-à-vis des financeurs qui en demandent un pour les projets qu’ils financent. Le PGD permet de bonnes pratiques dans la gestion des données de recherche. C’est aussi un outil de planification. Il permet également de mettre en contact différents acteurs : chercheurs, informaticiens, juristes, documentalistes, personnes accompagnant la gestion des données de recherche.

  • Le DMP peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des « DMP de structure » (à l’INRAE) qui établissent des plans de gestion pour une structure entière.
    Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le DMP sert au centre à gérer ou prévoir les besoins en stockage. Le DMP devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul).

  • Le DMP peut tout à fait être utilisé en tant que plan de gestion de donnée d’une structure, c’est-à-dire pour un laboratoire ou une équipe de recherche. Cela permettra de mettre en place une politique de gestion des données, et d’amener les chercheurs à se poser les bonnes questions. Le DMP est une bonne pratique au quotidien de gestion des données à mettre en place dans les unités de recherche.

  • Non, la personne contact pour les données est la personne qui gère les données au sein du projet, bien souvent le chercheur responsable du projet.

  • Vous devez rédiger un DMP par projet.

  • Non ce n’est pas possible. Il faudra faire 2 DMP. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.

  • L’idéal est d’élaborer votre DMP avec l’aide de différents acteurs d’un projet : scientifiques mais aussi informaticiens, data librarians, juristes… la rédaction et la mise à jour du DMP doivent être organisées en fonction des personnes ressource disponibles.

  • C’est souvent le porteur du projet qui est désigné comme rédacteur principal et qui, de fait, invite les collaborateurs à contribuer au PGD. Mais il est tout à fait possible de désigner par exemple le gestionnaire des données comme rédacteur principal du PGD.

  • Si votre nouveau projet est financé, il vous sera demandé un nouveau DMP. Si besoin et si vous avez gardé votre ancien DMP, vous pourrez récupérer les informations et les recopier.

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de DMP, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre DMP à partir d’un outil bureautique.

  • Il est possible de rédiger un DMP sans qu’il soit lié à un projet de recherche. Le DMP permet d’appliquer de bonnes pratiques de gestion des données de recherche dans son laboratoire. Il existe même des modèles de PGD de structure (exemple celui de l’INRAE).

  • Vous devez répondre aux questions du DMP qui sont pertinentes par rapport à votre projet. Par ailleurs, vous ne pourrez pas répondre à toutes les questions dès le début du projet. Le DMP étant un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.

  • Ne pas hésiter à se faire accompagner en local ou par l’équipe OPIDoR.

  • Ce temps est très difficile à estimer. Il dépend du type de données, des infrastructures mises à disposition ou non par les institutions (entrepôt), des moyens alloués à chaque projet (financier, humains) et des compétences des participants aux projets.
    Vous pouvez par ailleurs consulter la page web ci-dessous où sont regroupés quelques liens vers des outils ou checklists concernant l’évaluation des coûts (financiers et en temps) de la gestion des données de recherche dans un projet : https://www.ugent.be/en/research/datamanagement/before-research/costs.htm

  • Il est effectivement conseillé de rédiger un plan de gestion des données. La plupart des organismes de financement européens le demandent. Dans le cas de projets Horizon 2020 ou Horizon Europe, le DMP est obligatoire. Ce n’est pas forcément compliqué à mettre en place. Toutes les questions que vous allez vous poser lors de la rédaction du DMP vont contribuer à une meilleure gestion, aussi bien du projet que des données, en amont et tout au long du projet.

    Pour en savoir plus :

    Webinaires sur DMP OPIDoR : https://www.inist.fr/services/accompagner/webinaire/webinaire-dmp-opidor/

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Produits de recherche et jeux de données :

  • Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.

  • Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
    Un type de données = un produit de recherche.

  • Tout à fait. Dans votre DMP, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.

  • Les deux ! Dans le DMP, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et analysées. Mais leur gestion peut être différenciée (dépôt dans un entrepôt différent, conditions de partage différentes, …)

  • Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre MP (Data Management Plan également appelé PGD ou Plan de gestion des données). Cette évaluation peut en effet s’avérer difficile en début de projet. Il faut savoir que le DMP est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#convention

  • Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts car ils facilitent le partage et la réutilisation à long terme des données.

    Voir également une question similaire dans la rubrique Stockage & Archivage

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de DMP, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre DMP à partir d’un outil bureautique.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#definir

MÉTADONNÉES

  • Voici les informations qui permettent d’établir un référentiel en fonction des sujets des données de recherche d’un laboratoire :

    • Nomenclature :

    IUPAC gold book (https://goldbook.iupac.org/)

    • Vocabulaire Chimie et Matériaux :

    (http://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Actualites/Vocabulaire-de-la-chimie-et-des-materiaux-2018)

    • Vocabulaires plus généraux avec une partie consacrée à la chimie :

    Rameau (http://rameau.bnf.fr/)
    chimie (https://catalogue.bnf.fr/ark:/12148/cb119704650)

    Thesaurus Eurovoc
    36 SCIENCES
    3606 Sciences naturelles et appliquées
    (https://publications.europa.eu/fr/web/eu-vocabularies/th-top-concept-scheme/-/resource/eurovoc/100141?target=Browse&)

    GEMET
    chimie (https://www.eionet.europa.eu/gemet/fr/theme/6/concepts/)

    LCSH, Library of Congress Subjects Headings
    chimie (http://id.loc.gov/authorities/subjects/sh85022986.html)
    chimie physique (http://id.loc.gov/authorities/subjects/sh85023027.html)

    • Ontologies :

    CHEBI, Chemical Entities of Biological Interest
    (https://www.ebi.ac.uk/ols/ontologies/chebi)

    REX, Physico-chemical process
    (https://www.ebi.ac.uk/ols/ontologies/rex)

    CHMO, the chemical methods ontology
    (https://www.ebi.ac.uk/ols/ontologies/chmo)

    FIX, an ontology of physico-chemical methods and properties.
    (https://www.ebi.ac.uk/ols/ontologies/fix)

    CHEMINF, Chemical Information Ontology
    (http://www.ontobee.org/ontology/cheminf)

    MOP, Molecular Process Ontology
    (http://www.ontobee.org/ontology/mop)

    RXNO, Name Reaction Ontology
    (http://www.ontobee.org/ontology/rxno)

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#indis

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#indispensable

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vocabulaire

  • Il existe des ressources dans DoRANum dans la thématique Métadonnées, Standards, Formats : https://doranum.fr/metadonnees-standards-formats/
    Vous pouvez également vous adresser aux personnes qui peuvent vous accompagner dans les universités ou directement auprès du Service OPIDoR : info-opidor@inist.fr

  • Dans un premier temps, faites vous accompagner par des documentalistes ou des data librarians.
    Vous pouvez aussi consulter « la minute : les schémas de métadonnées »
    https://doranum.fr/metadonnees-standards-formats/schemas-metadonnees/ ainsi que la ressource
    « Outils de création de métadonnées » : https://doranum.fr/metadonnees-standards-formats/outilscreation-metadonnees/.

  • Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
    Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
    Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
    A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche Datacite Search.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

IDENTIFIANTS PÉRENNES : généralités

  • Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#perenne

  • Un identifiant pérenne (Persistent identifier ou PID) est un code alphanumérique associé à un objet ou ressource de façon permanente. Il est disponible et gérable à long terme ; il ne changera pas si l’objet est renommé ou déplacé (changement de site, d’entrepôts de données…).
    Un identifiant pérenne fait correspondre en permanence l’identité de la ressource à sa localisation sur le web. Il existe 2 grands types : les identifiants pérennes objet (pour les publications et données) et contributeur (pour les auteurs et institutions).
    Les identifiants pérennes (ex : DOI, ARK) permettent de :
    Accéder à la ressource sur le long terme
    • Faciliter la découverte, le partage et la réutilisation des ressources et des données
    • Faciliter le référencement et la citation
    Ils concourent à la visibilité et au partage des données et ainsi à les rendre FAIR (Findable-Accessible-Interoperable-Reusable).
    Pour en savoir plus : https://doranum.fr/identifiants-perennes-pid/

  • Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.

  • DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.

  • Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).

  • Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.

  • Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.

  • Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).

  • Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.

  • Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt : – Soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ; – Soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).

  • Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…

  • Hal est national. DOI est international.

  • Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.

  • On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant, il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.

  • Si votre institution a un compte DataCite permettant d’attribuer des DOI, vous pourrez attribuer un DOI à votre DMP. Sinon, pour établir le contrat il faut contacter le service de l’Inist-CNRS en charge de l’attribution de DOI via le portail OPIDoR. Ce service procédera à l’ouverture d’un compte DataCite, et proposera un accompagnement dans la création de DOI.

  • L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.

  • En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite. .
    Ce modèle économique appliqué par l’Inist-CNRS est appelé à évoluer à partir de janvier 2021.

  • L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.

  • Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.

  • A l’Inist-CNRS via l’alias datasets@inist.fr

  • Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.

  • Les EPIC sont considérés comme public.

  • Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.

  • Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.

  • Tout organisme ayant une existence juridique.

  • Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.

  • Le préfixe est attribué à l’organisme qui signe le contrat.

  • C’est au cas par cas.

  • Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets@inist.fr

  • Oui, nous avons déjà des partenaires africains.

  • Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.

  • Chaque organisme producteur de données décide de son propre workflow.

  • Oui, l’accès à l’API DOIn for DataCite est gratuit. C’est une application open source qui permet d’attribuer ou de mettre à jour un grand nombre de DOI.

  • Non, ce n’est pas possible. Il faut passer par votre institution.

DEPÔTS & ENTREPÔTS

  • Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.

    Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.

    • Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
    • Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
      • Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
      • Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.

    Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?

    La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#entrepot

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#duree

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#endroits

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#API

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vigilance

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#partage

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#citer

  • Oui, vous pouvez partager vos données sans être affilié à une institution.

  • Il convient de :
    – Suivre les recommandations du financeur, du consortium, de l’institution ou de l’éditeur / la revue.
    – Si un entrepôt de confiance est préconisé, consulter la liste des entrepôts certifiés.
    – Rechercher de préférence un entrepôt disciplinaire : pour cela, consulter les répertoires d’entrepôts (re3data, OAD, Open DOAR, FAIRsharing, Cat OPIDoR…) en recherchant sur la discipline/domaine ou par mots-clés
    – Rechercher où déposent les pairs (pratique de la communauté) : chercher des données similaires via des moteurs de recherche (DataCite Search, Google Dataset Search, OpenAIRE Explore…) pour repérer les entrepôts dans lesquels elles sont déposées.
    Ces recherches permettent généralement d’identifier plusieurs entrepôts potentiels.
    Il est ensuite souvent nécessaire d’affiner la sélection en regardant plus précisément les caractéristiques et fonctionnalités proposées par les entrepôts : richesse des métadonnées, attribution d’un identifiant pérenne, choix d’une licence, formats de fichiers, gestion des versions, gestion des accès (par exemple possibilité d’embargo), localisation du serveur, institution responsable de l’entrepôt…
    Vous pouvez également consulter la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#endroit et https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#choisir

  • A ce jour il n’existe pas d’entrepôt national.

  • Il existe des répertoires en ligne comme re3data et FAIRsharing databases qui permettent de trouver des entrepôts par sujet, type de contenu ou pays. Vous pouvez également consulter le répertoire Open Access Directory qui propose une liste d’entrepôts de données internationaux par disciplines.

  • A partir du moment où vous déposez dans un entrepôt certifié donc de confiance, les risques sont limités.

  • Un entrepôt de données ne s’engage normalement pas sur la conservation à long terme comme une plateforme d’archivage du type de celle du CINES. Cependant, certains entrepôts certifiés proposent un archivage à long terme (ex : 4TU.ResearchData).

  • Le partage des données dans un entrepôt est souvent gratuit. Cependant, le coût peut varier en fonction de la volumétrie. Par exemple pour 4TU Research data, les dépôts sont gratuits jusqu’à 10 Go par an, payant au-delà (€ 4.50 per GB).

  • L’utilisation de logiciels ou appareillages propriétaires n’empêche pas le partage des données générées. Par contre, les formats seront propriétaires et ne pourront pas toujours être convertis dans un format ouvert, ce qui est un frein à la conservation et à la réutilisation.

  • Les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.

  • Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • La plupart des entrepôts permettent au déposant de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo).

  • Il y a de nombreuses raisons de déposer ses données. Concernant la publication des articles, le dépôt peut devenir une condition obligatoire. En effet, de plus en plus de revues demandent l’accès aux données, pour améliorer les conditions dans lesquelles les comités de lecture valident les articles. Au niveau du travail scientifique, la réutilisation des données permet de rentabiliser la recherche et d’accélérer l’innovation, car la collecte et le traitement des données peut être coûteux en temps et en argent. De nouvelles collaborations peuvent aussi être favorisées, puisque l’auteur des données est facilement identifiable.
    Par ailleurs, déposer ses données augmente la visibilité de ses recherches. Traditionnellement, les travaux sont visibles à partir des articles publiés. L’avantage de déposer les données liées aux articles est qu’elles deviennent autonomes. Les travaux peuvent donc être vus à partir des articles ou des données, ce qui multiplie donc les chances d’être cité.
    Le contexte politique est favorable à l’ouverture des données. Prenons l’exemple de l’Union Européenne, qui agit en tant que financeur dans le cadre du programme Horizon 2020. A ce jour, les projets inscrits dans ce programme doivent déposer leurs données dans un entrepôt. De son côté l’ANR – sans obliger les chercheurs qu’elle finance à partager dans un entrepôt par exemple – préconise une gestion des données selon l’adage « aussi ouvert que possible, aussi fermé que nécessaire ».
    Enfin, on parle également ici de Science ouverte et citoyenne. En effet, les recherches faites dans le cadre de financements publiques doivent faire preuve d’une certaine transparence vis-à-vis du citoyen.

  • Non, si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Qui plus est, cette pratique est fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.

  • Non, My Core (outil utilisé par le CNRS) est un outil qui permet le stockage et la sauvegarde individuelle de fichiers et le partage sécurisé. Il est plutôt utile pour le stockage et le partage de documents avec ses collaborateurs durant un projet. Il n’est pas adapté au partage de jeux de données.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • Si un jeu de données a déjà un DOI, certains entrepôts comme Zenodo permettent de récupérer ce DOI existant et n’attribue pas un autre DOI.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données dans un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Il existe plusieurs types de financement (public, privé, fondations…) selon la ou les institutions responsables de l’entrepôt. Par exemple, l’entrepôt européen Zenodo est financé par la commission européenne.

  • Tous les entrepôts de données ne le permettent pas. Dans l’annuaire re3data (https://www.re3data.org/) vous pouvez trouver des entrepôts certifiés qui s’engagent à proposer un archivage à long terme. C’est notamment le cas de 4TU.ResearchData (https://www.re3data.org/repository/r3d100010216). Si l’entrepôt choisi ne permet pas l’archivage à long terme, il faut d’abord réfléchir à quelles données vous allez sélectionner pour un archivage pérenne, puis s’adresser au CINES qui vous accompagnera, tout en sachant que cela a un coût qui n’est pas négligeable. Si vous êtes dans un domaine des SHS, l’infrastructure Huma-Num peut également vous accompagner pour l’archivage de vos données.

  • Pour rechercher des entrepôts français : Cat OPIDoR (https://cat.opidor.fr/)

    Re3data (https://www.re3data.org/) notamment permet de rechercher des entrepôts de données dans différentes disciplines et selon plusieurs critères. La durée de stockage n’est pas systématiquement mentionnée. Il faut aller vérifier sur le site de l’entrepôt lui-même.

    La plupart des entrepôts sont gratuits mais certains peuvent être payants.  Il en existe également en accès restreint.

  • Les entrepôts sont certifiés par le CoreTrustSeal (https://www.coretrustseal.org/why-certification/requirements/) selon différents critères qui sont réévalués régulièrement. Parmi ces critères il y a l’engagement sur la pérennité des données. Ils proposent une liste des entrepôts certifiés : https://www.coretrustseal.org/why-certification/certified-repositories/

STOCKAGE & ARCHIVAGE

  • Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.

    Pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.

  • Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
    Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
    L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
    Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#partage

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#convention

  • Sur DoRANum vous en saurez plus en consultant cette ressource “Les trois niveaux de sauvegarde des données de la recherche”. 
    Mais vous n’aurez pas d’informations précises sur le matériel dont vous pouvez disposer dans votre propre organisme. Si vous n’avez pas connaissance de recommandations institutionnelles, vous devez vous renseigner en interne, auprès des personnes dédiées à l’appui à la recherche type data librarian, documentaliste, voire informaticiens.

  • Vous pouvez utiliser ShareDocs ou Huma-Num Box. Voir https://www.huma-num.fr/services-et-outils/stocker.

  • Oui, il n’y a pas de « mauvaises réponses » dans le DMP. L’essentiel est de décrire vos pratiques de gestion de données, quelles qu’elles soient.

  • Il existe l’outil Mattermost (utilisé à l’Inist-CNRS) qui propose une alternative à Slack : https://mattermost.com/

  • Oui, cela devrait se passer au niveau de chaque établissement.

  • La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
    Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/

  • Toutes les données générées pendant le processus de recherche doivent être stockées dans un espace de stockage dédié mais toutes ne doivent pas nécessairement être partagées. Certaines données d’un projet peuvent ne pas être partagées pour différentes raisons : données sensibles, questions de sécurité, secret, brevet en cours, intérêts commerciaux…
    « Aussi ouvert que possible, aussi fermé que nécessaire ».
    Au moment du dépôt dans un entrepôt de données, une sélection des données à diffuser doit être réalisée.

  • Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
    Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.

  • Utiliser des formats ouverts (accessibles et modifiables indépendamment d’un logiciel unique) n’est pas une règle, mais une recommandation. Les formats ouverts vont permettre d’améliorer la préservation et le partage des données. Cela dépend des logiciels utilisés. Si vous utilisez un logiciel propriétaire, car très utilisé dans votre communauté ou pour lequel vous avez une expertise, il faudra préciser si le format de fichiers pourra être converti ou utilisé par d’autres logiciels libres. Parfois il n’est pas possible de convertir dans un format ouvert. Dans tous les cas, il faudra bien « documenter » cet aspect en précisant quel logiciel vous avez utilisé pour vos données, ainsi que sa version.

  • C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
    Source : https://fr.wikipedia.org/wiki/Center_for_Open_Science

  • En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.

  • Pour la France, il n’existe pour l’instant que le CINES.
    Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
    Le portail européen Open Science Cloud (EOSC) (https://marketplace.eosc-portal.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.

  • L’entrepôt de données permet le dépôt et la conservation des données à plus ou moins long terme, dans un but de partage et de diffusion.
    Une plateforme d’archivage comme celle du Cines permet la conservation à long terme des données avec un objectif d’en garantir la lisibilité (migration de formats, émulation, prévention de l’obsolescence).
    Cependant, l’un des critères d’obtention de la certification CoreTrustSeal pour les entrepôts de confiance est d’offrir un service d’archivage en termes de norme OAIS. Un plan de préservation des données doit également être présenté. C’est le cas notamment pour l’entrepôt 4TU.ResearchData.

  • Pour tout ce qui concerne les plateformes de stockage des données, c’est à chaque équipe ou laboratoire de se renseigner sur les services proposés en local par son université ou par une infrastructure qui pourrait l’accompagner ou par son organisme de rattachement.

  • Dans un premier temps, les données protégées et sensibles doivent être sauvegardées dans un espace collaboratif sécurisé, avec accès limité aux partenaires du projet.

    • Dans le cas de données personnelles, si vous souhaitez les partager, il faudra les anonymiser avant le partage.
    • Pour les données protégées ou sensibles, cela dépend du type de données. Il est possible de partager dans un premier temps uniquement les métadonnées et indiquer que les données sont placées sous embargo en attendant la publication d’un brevet ou d’une publication (par exemple dans le cas de partenaires industriels).
    • Dans le cas de données confidentielles, vous n’aurez probablement pas la possibilité de les partager.Dans le cas de partenariats, il faudra indiquer dans le DMP quels sont les conditions de l’accord de Consortium en ce qui concerne la réutilisation des données.

    Pour en savoir plus :
    La communicabilité des données de recherche : https://doranum.fr/aspects-juridiques-ethiques/communicabilite-donnees-recherche/

  • Le stockage des données concerne la sauvegarde des données tout au long du projet. L’idéal est de choisir un espace collaboratif de stockage sécurisé et restreint aux collaborateurs du projet.

    Un entrepôt de données permet de partager des données, préalablement sélectionnées, avec toute la communauté scientifique.

    Pour en savoir plus :

    Les 3 niveaux de sauvegarde des données de la recherche : https://doranum.fr/stockage-archivage/les-trois-niveaux-de-sauvegarde-des-donnees-de-la-recherche/

  • Il s’agit d’une norme internationale et c’est plus simple d’utiliser ce format pour trier ou retrouver plus facilement ses fichiers (par l’année).

DATA PAPERS

  • “Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
    Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016

  • On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
    Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
    Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.

  • A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail “Atelier données” intitulé « Comment améliorer le dépôt et le partage de données de recherche ?” » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#PGD

  • Il convient de suivre les recommandations de la revue ou de l’éditeur : Il est souvent possible de fournir les données supplémentaires en annexe de la publication mais il est préférable de déposer les données dans un entrepôt de données. Des entrepôts de données sont recommandés par exemple par Elsevier , Springer Nature, PlOS ONE, Scientific Data.

  • Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.

  • Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…

    Le data paper est

    • soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
    • soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.

    Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un DMP. C’est cependant un bon moyen de valoriser vos données.

    Vous avez deux manières de rendre visibles vos données :

    • soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
    • Soit vous rédigez une publication classique et, lorsque la revue le permet, vous décrivez vos données dans les « supplementary data ». Cependant, vous pouvez être limités par la taille de fichiers imposée par la revue. Ces données ne sont pas toujours incluses dans le PDF de l’article, ni soumises à un examen par les pairs, ni potentiellement citables. Cela dépend des revues.

    Pour en savoir plus :
    Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/  
    Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/

  • Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.

ACCÈS VISUALISATION

  • Oui, vous pouvez utiliser :

    • Les moteurs de recherche intégrés sur les sites des entrepôts de données ;
    • Les méta-moteurs de recherche (catalogue de données) permettant de rechercher des données dans plusieurs entrepôts.
  • Il n’y a pas de liste à proprement parlé. Toutefois voici quelques outils :

    • Outils de visualisation pour l’accès aux données depuis un entrepôt :
    • Outils de visualisation pour une meilleure manipulation et appréhension des données :
      • Gephi (logiciel libre d’analyse et de visualisation de réseaux)
      • D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
      • Gargantext (plateforme web pour explorer des données textuelles)
      • QGIS (Système d’Information Géographique Libre et Open Source)

Votre question n’apparaît pas dans cette FAQ ?

Laissez-nous un message, nous vous répondrons au plus vite !