FOIRE AUX QUESTIONS

Dernière mise à jour : 11/09/2020

Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.

DORANUM

  • Oui, toutes les ressources sont sous la licence Etalab ou Creative Commons et sont librement réutilisables. Vous pouvez les télécharger, les intégrer sur votre site, les modifier pour les adapter à vos propres ressources. Vous pouvez aussi imprimer des fiches synthétiques et autres supports pour vos formations présentielles.

  • Oui, nous proposons des formations en présentiel à la demande.

  • Oui, nous organisons régulièrement des webinaires de présentation de DoRANum. Le calendrier sera annoncé dans les actualités du site.

  • Oui, nous pouvons contribuer à la réalisation de vos ressources de formation sur les données de la recherche. Précisez-nous votre demande via notre formulaire de contact.

  • Nous vous encourageons à contribuer à l’activité de DoRANum !

    Votre avis compte

    N’hésitez pas à nous laisser vos retours sur nos ressources (commentaires, évaluations), cela nous permettra de les améliorer. Toutes les remarques et suggestions sont les bienvenues.

    Réutilisez et partagez

    Réutilisez les ressources, en les intégrant sur votre site, en distribuant les imprimés lors de vos formations, en mixant nos contenus avec vos propres ressources… et partagez-les sur les réseaux sociaux si vous le souhaitez !

    Partenariat

    Nous pouvons collaborer sur un projet de formation autour des données de la recherche : création de nouvelles ressources pour des formations en présentiel ou distanciel, intégration des ressources DoRANum dans votre dispositif de formation.

ENJEUX & BÉNÉFICES

  • Le contexte général tend vers l’ouverture des données. Vous pouvez ainsi être obligé de partager vos données de recherche dans certains cas, comme :

    • pour l’obtention de financement de projets, à l’image des projets issus du programme Horizon 2020;
    • pour la publication d’articles, à l’image de la revue PLOS ONE qui recommande, voire exige, l’accès aux données sous-jacentes des résultats rapportés dans l’article soumis.

    De nouvelles mesures vont être mis en place avec le Plan national pour la science ouverte, notamment une visant à « rendre obligatoire la diffusion ouverte des données de recherches issues de programmes financés par appels à projets sur fonds publics ».

  • Non, certaines données sont soumises à des exceptions définies par la loi, comme des données relevant du secret professionnel, des données personnelles ou encore protégées par le droit d’auteur.

  • Il s’agit des « […] données de la recherche nécessaires à la validation des résultats présentés dans les publications scientifiques […] ».
    Source : « Lignes directrices pour le libre accès aux publications scientifiques et aux données de la recherche dans Horizon 2020 » de la Commission européenne. (Titre original : Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 , Version 2.0, 30 October 2015, European Commission, Directorate General for Research and Innovation © Union européenne, 1995-2015)

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vigilance

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#definir

  • Il n’y a pas de règles, le mieux est d’ouvrir les données le plus tôt possible. Les données sont souvent publiées au moment de la publication des résultats. Un embargo peut aussi être appliqué afin de permettre un délai d’exploitation des données.

  • Il n’y a pas de règles, seul le chercheur est en mesure d’évaluer la valeur potentielle des données et de décider quelles données doivent être conservées au-delà du projet et pour combien de temps.

  • Il n’y a pas de recommandations du CNRS concernant les embargos sur les jeux de données

ASPECTS JURIDIQUES, ÉTHIQUES, INTEGRITE SCIENTIFIQUE

  • Pour savoir si vous pouvez partager librement des données dont vous n’êtes pas l’auteur, il faut déterminer si elles sont communicables et diffusables. Afin de vous aider dans cette tâche, vous pouvez vous appuyer sur  l’outil d’analyse des données. Cet outil vous permettra d’analyser leur nature juridique et éthique.

    Si l’auteur a attribué une licence à ses données, celle-ci vous engage à respecter l’intégrité de ses données, à faire mention de la source des données et à indiquer la date de la dernière mise à jour.

  • Il vaut mieux ne pas parler de « propriété des données » à propos des données de recherche. La loi République numérique de 2016 a en effet instauré un principe d’ouverture par défaut des données, ce qui rend la notion de propriété globalement peu pertinente.

    La première étape consiste à identifier précisément ce que l’on appelle « données », car ce terme peut recouvrir des réalités très différentes.

    SI les « données » correspondent à des œuvres de l’esprit (c’est-à-dire des créations originales : textes, photos, interviews, etc.), alors elles sont couvertes par un droit d’auteur qui appartient aux chercheurs (si ce sont eux qui ont créé les contenus) ou à des tiers. La diffusion n’est alors possible qu’avec l’accord de ces chercheurs (ou des tiers en question).

    Si les « données » ne sont pas des œuvres de l’esprit, il s’agira alors vraisemblablement d’informations publiques (tableaux de chiffres, mesures, statistiques, etc.). Dans ce cas, les établissements de tutelle seront considérés comme les « producteurs » de ces informations (et non les chercheurs). Mais cela ne signifie pas pour autant que les établissements en sont « propriétaires ». D’après la loi pour une République numérique, les établissements ont en effet l’obligation de rendre ces données librement accessibles et réutilisables.

    Dans le cadre d’un projet ANR impliquant plusieurs partenaires, il vaut mieux en effet conclure un accord de consortium pour déterminer le statut des données produites et la répartition des responsabilités. Ce genre de questions doit normalement être analysés dans un Plan de Gestion de Données (Data Management Plan) dont l’ANR demande la production aux lauréats de ces appels depuis 2019.

    Pour résumer, soit les données sont des œuvres et les chercheurs gardent leurs droits dessus ; soit les données sont des informations publiques et la responsabilité passe aux établissements qui sont obligés de procéder à une libre diffusion.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#licence

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#ouvertes

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Généralités

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#PGD

  • La rédaction d’un DMP va effectivement demander un peu de temps, variable suivant le projet. Mais il va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
    Le DMP peut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !

  • Le DMP doit normalement être initié très tôt, dès le début du projet. Rédiger un DMP en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.

  • Le DMP doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.

  • En dehors du cadre d’un projet financé, vous pouvez mettre en place un DMP dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.

  • Quand le projet est accepté. Dans les dossiers pour financement H2020, il y a un paragraphe sur la gestion des données mais c’est pour « montrer » que cette problématique est prise en compte. Le DMP n’est pas demandé au dépôt du dossier. Il n’empêche que vous pouvez en amont du projet déjà réfléchir à la gestion de vos données.

  • Non le DMP n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.

  • La question a déjà été posée à l’ANR : vous pouvez rédiger votre DMP en français, pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.

  • Le DMP sera surtout lu par les collaborateurs d’un même projet. Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
    Actuellement, le DMP est uniquement un livrable et n’est pas évalué. Les organismes vérifient uniquement la présence des différentes versions du DMP dans les livrables. Il est possible que le contenu des DMP soit évalué à l’avenir, mais il n’en est pas question pour le moment.

  • Il n’y a pas de préconisations particulières. La taille dépendra du nombre de jeux de données décrits, de la complexité du projet…

  • Il est difficile d’évaluer le temps nécessaire à la rédaction d’un DMP. En effet, cette rédaction se fait au fur et à mesure de l’avancée d’un projet. Cela peut dépendre de la complexité du projet et des disciplines.

  • Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.

  • Déposer son DMP dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple déposer votre plan dans l’entrepôt de données Zenodo, qui permet le dépôt de tous types de fichiers, et qui offre l’avantage de leur attribuer automatiquement un DOI.
    On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scénarii sont envisageables.

PLAN DE GESTION DE DONNÉES (DMP DATA MANAGEMENT PLAN) : Produits de recherche et jeux de données :

  • Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …

  • Oui, le DMP concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.

  • Oui, vous pouvez décrire ce type de données dans votre DMP si vous pensez que c’est pertinent et utile à la compréhension du projet.

  • Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.

  • Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
    Un type de données = un produit de recherche.

  • Tout à fait. Dans votre DMP, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.

  • Les deux ! Dans le DMP, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.

  • Le DMP doit contenir les informations sur toutes les données produites, brutes et analysées. Mais leur gestion peut être différenciée (dépôt dans un entrepôt différent, conditions de partage différentes, …)

  • Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre MP (Data Management Plan également appelé PGD ou Plan de gestion des données). Cette évaluation peut en effet s’avérer difficile en début de projet. Il faut savoir que le DMP est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#convention

  • Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts car ils facilitent le partage et la réutilisation à long terme des données.

    Voir également une question similaire dans la rubrique Stockage & Archivage

  • Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
    En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
    DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de DMP, des exemples ou des réponses par défaut.
    Vous avez aussi la possibilité de rédiger votre DMP à partir d’un outil bureautique.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#definir

MÉTADONNÉES

IDENTIFIANTS PÉRENNES : généralités

  • Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#perenne

  • Un identifiant pérenne (Persistent identifier ou PID) est un code alphanumérique associé à un objet ou ressource de façon permanente. Il est disponible et gérable à long terme ; il ne changera pas si l’objet est renommé ou déplacé (changement de site, d’entrepôts de données…).
    Un identifiant pérenne fait correspondre en permanence l’identité de la ressource à sa localisation sur le web. Il existe 2 grands types : les identifiants pérennes objet (pour les publications et données) et contributeur (pour les auteurs et institutions).
    Les identifiants pérennes (ex : DOI, ARK) permettent de :
    Accéder à la ressource sur le long terme
    • Faciliter la découverte, le partage et la réutilisation des ressources et des données
    • Faciliter le référencement et la citation
    Ils concourent à la visibilité et au partage des données et ainsi à les rendre FAIR (Findable-Accessible-Interoperable-Reusable).
    Pour en savoir plus : https://doranum.fr/identifiants-perennes-pid/

  • Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.

  • DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.

  • Dans ce cas, comment gérer les différentes versions ? On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant Il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.

  • Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).

  • Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.

  • Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.

  • Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).

  • Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.

  • Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt : – Soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ; – Soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).

  • Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…

  • Hal est national. DOI est international.

  • Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.

  • L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.

  • En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite. .
    Ce modèle économique appliqué par l’Inist-CNRS est appelé à évoluer à partir de janvier 2021.

  • L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.

  • Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.

  • A l’Inist-CNRS via l’alias datasets@inist.fr

  • Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.

  • Les EPIC sont considérés comme public.

  • Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.

  • Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.

  • Tout organisme ayant une existence juridique.

  • Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.

  • Le préfixe est attribué à l’organisme qui signe le contrat.

  • C’est au cas par cas.

  • Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets@inist.fr

  • Oui, nous avons déjà des partenaires africains.

  • Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.

  • Chaque organisme producteur de données décide de son propre workflow.

  • Oui, l’accès à l’API DOIn for DataCite est gratuit. C’est une application open source qui permet d’attribuer ou de mettre à jour un grand nombre de DOI.

  • Non, ce n’est pas possible. Il faut passer par votre institution.

DEPÔTS & ENTREPÔTS

  • Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.

    Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.

    • En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
    • En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
    • Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
    • Exemple sur le portail Dataverse de Harvard
  • Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.

    • Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
    • Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
      • Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
      • Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.

    Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?

    La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#endroit

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#choisir

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#entrepot

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#duree

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#endroits

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#API

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#vigilance

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#partage

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#citer

STOCKAGE & ARCHIVAGE

  • Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.

    Pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.

  • Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
    Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
    L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
    Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#partage

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#convention

DATA PAPERS

  • « Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet »
    Extrait de : « Revues publiant des Data papers ». Laurence Dedieu, octobre 2016

  • On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.

    Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).

    Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.

  • A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.

  • La réponse à cette question se trouve dans la synthèse des échanges qui se sont tenus lors du hackathon du groupe de travail « Atelier données » intitulé « Comment améliorer le dépôt et le partage de données de recherche ? » » : https://mi-gt-donnees.pages.math.unistra.fr/site/FAQ.html#PGD

ACCÈS VISUALISATION

  • Oui, vous pouvez utiliser :

    • Les moteurs de recherche intégrés sur les sites des entrepôts de données ;
    • Les méta-moteurs de recherche (catalogue de données) permettant de rechercher des données dans plusieurs entrepôts.
  • Il n’y a pas de liste à proprement parlé. Toutefois voici quelques outils :

    • Outils de visualisation pour l’accès aux données depuis un entrepôt :
    • Outils de visualisation pour une meilleure manipulation et appréhension des données :
      • Gephi (logiciel libre d’analyse et de visualisation de réseaux)
      • D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
      • Gargantext (plateforme web pour explorer des données textuelles)
      • QGIS (Système d’Information Géographique Libre et Open Source)

Votre question n’apparaît pas dans cette FAQ ?

Laissez-nous un message, nous vous répondrons au plus vite !