FOIRE AUX QUESTIONS
Dernière mise à jour : 24/03/2025
Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.
Puis-je me servir des ressources présentes sur DoRANum ?
Les ressources pédagogiques DoRANum sont librement réutilisables selon les conditions fixées par les licences utilisées. Lorsque cela est possible, les ressources sont sous la Licence ouverte Etalab. Dans le cas où une ressource utilise des éléments (images, textes,…) porteurs d’une licence plus restrictive, cette licence sera appliquée à la ressource dans son ensemble. Elles peuvent aussi être intégrées sur votre site internet ou votre plateforme web. En savoir plus.
Proposez-vous des formations en présentiel ou à distance ?
Nous proposons des formations en présentiel à la demande. Nous organisons régulièrement des webinaires dont le calendrier est annoncé sur le site de l’Inist-CNRS.
L'équipe de DoRANum peut-elle participer à la réalisation de mes ressources pédagogiques ?
Dans la mesure où votre projet correspond au cahier des charges de la plateforme DoRANum, il est possible de collaborer avec l’équipe en vue d’une publication sur la plateforme. Précisez-nous votre demande via notre formulaire de contact.
Comment se tenir au courant de l'actualité de DoRANum ?
Y a-t-il des contenus en langue anglaise sur DoRANum ?
Oui, les fiches synthétiques des 9 thématiques de DoRANum sont traduites en anglais, et les vidéos “minutes” proposent des sous-titres anglais. Il est prévu que d’autres ressources soient également traduites.
Qui peut m'aider à mettre en œuvre les bonnes pratiques de gestion des données de la recherche ?
Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.
Le PGD concerne-t-il toutes les données ? Par exemple celles issues de contrats avec industriels ?
Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.
Le PGD peut-il être considéré comme une trace d’antériorité pour la propriété intellectuelle/industrielle (brevet, publications, etc) ?
Non ce n’est pas le rôle du PGD, c’est plutôt celui du cahier de laboratoire.
Le PGD a-t-il une valeur juridique ? Si oui, laquelle ?
Non, le PGD n’a aucune valeur juridique. C’est un livrable dans le cadre de projets financés, et non un contrat. Il ne permet donc pas de garantir légalement l’exécution du processus de diffusion des données défini dans le PGD.
Un projet de recherche soumis à confidentialité est-il compatible avec un PGD ?
Il est très important d’aborder dans le PGD les aspects de la gestion des données qui auront trait à une éventuelle confidentialité. Cela permet justement d’anticiper tous les problèmes susceptibles d’en découler.
Il est tout à fait possible que le PGD lui-même soit tenu confidentiel, y compris à l’issue du projet.Comment identifier le délégué à la protection des données de notre organisme ?
Vous devez vous rapprocher du service juridique de votre institution de rattachement. Vous pouvez aussi consulter cette liste.
Qui choisit d'utiliser ou de mettre en place un PGD ?
Tout chercheur qui s’investit dans un projet de recherche est à même de mettre en place un PGD ou d’en faire la suggestion à son équipe.
Mais la rédaction d’un tel document peut aussi être imposée par un bailleur de fonds, ou plus rarement par un organisme de tutelle.Doit-on rédiger un PGD en amont de la demande pour avoir plus de chance d’être financé ?
Non le PGD n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.
Faut-il attendre que le projet soit retenu pour un financement/un appel à projet pour commencer à rédiger un PGD ?
Au contraire, commencer à rédiger un PGD en amont peut permettre de mieux argumenter une demande de subvention. En effet, le PGD est un réel outil de gestion de projet. C’est un guide qui permet d’anticiper la gestion des données aussi bien avec votre équipe qu’avec d’éventuels partenaires. Plus vous le commencez tôt, mieux c’est !
La rédaction d'un PGD est-elle recommandée uniquement dans le cadre d'un projet financé ?
La rédaction d’un PGD est recommandée pour tout projet, qu’il soit financé ou non. Dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple), le PGD permet d’anticiper l’organisation et la gestion des données, et ainsi de gagner en temps et en efficacité !
Je réutilise des données existantes. Est-ce que je dois les inclure dans la rédaction du PGD ?
Le PGD doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.
Puis-je rédiger un seul PGD pour plusieurs projets ?
Non, ce n’est pas possible. Il faut rédiger un PGD par projet. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.
Est-il possible de rédiger un PGD général pour notre laboratoire ?
Il est tout à fait possible de rédiger un PGD hors projet, pour gérer plus efficacement les données au niveau d’un laboratoire. Les modèles de PGD pour les entités sont bien adaptés dans ce cas. Plusieurs de ces modèles sont disponibles sur DMP OPIDoR.
Il est dit que le PGD est un document évolutif. À partir de quel moment doit-on envisager son évolution ?
Le PGD peut être modifié à tout moment au cours d’un projet de recherche. Idéalement, dès qu’un élément de réponse change, il faut consigner cette modification dans le PGD.
Exemples :
- Nouveau jeu de données
- Modification du volume estimé
- Changement du logiciel utilisé pour le traitement des données
- Changements de personnels
- Avancée des réflexions sur le choix d’un standard de métadonnées
- Avancée des réflexions sur le choix d’un entrepôt ou d’une plateforme d’archivage pérenne
- Recommandations d’un juriste ou d’un comité d’éthique
- Informations sur les coûts
- etc.
Dans le cadre d'un projet financé par l'ANR, est-il recommandé de rédiger le PGD en anglais ?
Vous pouvez rédiger votre PGD en français, il n’y a pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.
Faut-il rédiger le PGD en français ou en anglais ?
Dès lors qu’il y a des partenaires ou financeurs non francophones impliqués dans le projet, il est plus judicieux de rédiger votre PGD en anglais directement. Cela facilite la collaboration pour sa rédaction ou la relecture pour les financeurs. L’interface DMP OPIDoR est disponible en anglais et en français. De nombreux modèles sont également disponibles dans les deux langues.
Qui peut lire mon PGD ?
Le PGD pourra être lu par les collaborateurs du projet et par les financeurs.
Si vous décidez de le rendre public (sur DMP OPIDoR par exemple), votre PGD pourra également être consulté par des personnes extérieures au projet (chercheurs, doctorants, personnels d’appui à la recherche…). Cela pourra augmenter la visibilité de votre projet et favoriser les échanges autour des pratiques de gestion des données.Qui est responsable de la rédaction du PGD ? Est-ce qu'une personne spécifique (le chef du projet par exemple) est obligée de le faire ?
N’importe quel participant au projet peut être responsable de la rédaction d’un PGD. Il peut aussi s’agir d’une responsabilité collégiale.
Existe-t-il des plateformes de PGD pour des collaborations internationales ?
Il est possible d’utiliser DMP OPIDoR dans le cadre de collaborations internationales. En effet, l’outil est disponible aussi en anglais et les collaborateurs étrangers peuvent se créer un compte gratuitement.
Par ailleurs, il existe d’autres outils anglophones parmi lesquels :-
- DMPOnline (UK)
- DMPTool (US)
- Data Stewardship Wizard
- ARGOS
- …
-
Quels critères doivent être considérés pour aider au choix de l'outil pour la rédaction d'un plan de gestion de données ?
Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
Il est tout à fait possible de rédiger votre PGD à partir d’un outil bureautique; cependant, il existe des outils dédiés à la rédaction de PGD.
En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de PGD, des exemples ou des réponses par défaut.Quels sont les avantages à utiliser une plateforme pour rédiger un PGD ?
Recourir à une plateforme présente plusieurs avantages :
- Elles permettent un travail collaboratif plus facile que s’il s’agissait d’envoyer un fichier Word, et plus sécurisé que s’il s’agissait de compléter un document sur un espace en ligne comme GoogleDrive ou FramaPad ;
- Elles centralisent plusieurs modèles de PGD proposés par différentes institutions, permettant de les comparer à un seul endroit et de choisir le plus pertinent pour son projet ;
- Elles proposent le plus souvent de l’aide contextuelle sous forme de consignes ou d’infobulles visant à expliciter les réponses à indiquer dans chaque rubrique ; la longueur de ces aides dépend des points abordés ;
- Elles permettent d’exporter les informations saisies sous la forme d’un document rédigé, dans plusieurs formats de fichier possibles (PDF, texte…) ;
- Elles devraient permettre à terme d’encoder automatiquement les PGD eux-mêmes dans un format lisible par des machines (machine-actionable DMP).
Certaines communautés scientifiques préfèrent d’autres outils que DMP OPIDoR, notamment des plateformes qui permettent de travailler dans des formats de fichiers spéciaux tels que MarkDown ou LaTeX. C’est aussi le cas des chercheurs qui ont besoin de remplir des documents supplémentaires, comme des déclarations de conformité RGPD qui font doublon avec les rubriques du PGD qui concernent les données personnelles.
Existe-t-il d'autres sites qui proposent des PGD publics ? Où trouver des PGD dans une discipline particulière ?
Le plus simple est de vous référer à la sélection de sources d’accès à des PGD du site CoopIST du CIRAD, dans laquelle vous trouverez différentes plateformes de création de PGD qui proposent des PGD publics. Il y en a également dans des bases de données bibliographiques, des archives ouvertes de publications, des entrepôts de données de recherche, des moteurs de recherche académiques et des revues scientifiques.
Un PGD peut-il être déposé en archive ouverte ?
Déposer son PGD dans une archive ouverte comme HAL est tout à fait possible. Cela permet de partager vos pratiques en matière de gestion de données auprès de vos pairs. N’oubliez pas de relier le PGD et les jeux de données qu’il décrit en renseignant les identifiants pérennes dans leurs métadonnées.
Faut-il répondre à toutes les questions du PGD ?
Il est important de répondre à toutes les questions : soit vous avez la réponse et vous la renseignez, soit vous n’avez pas encore la réponse et vous le mentionnez, soit vous n’êtes pas concerné et vous l’indiquez.
Aucune réponse n’est définitive, le DMP est un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.Si on est en ZRR, quel est impact sur le PGD ?
Il faut indiquer les difficultés et contraintes liées au partage des données, pourquoi vous ne pouvez pas les partager (données sensibles, confidentielles, etc.).
Un "projet de thèse" peut-il être considéré comme un plan de gestion des données quelle que soit la discipline ?
Un “projet de thèse” est un excellent début de PGD, car il aborde des thématiques que l’on retrouve dans ce genre de documents (objectifs du projet de recherche, type de données qui serviront à l’appuyer, etc.).
Mais un PGD va plus loin, est plus exhaustif qu’un projet de thèse. Il aborde davantage de notions. En outre, un PGD a vocation à être complété / corrigé tout au long du doctorat (ou de tout projet de recherche), alors qu’un “projet de thèse” est un livrable ponctuel.Un PGD peut-il être mis en place pour gérer toutes les données d'une équipe ?
Un PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des “PGD d’entité” qui établissent des plans de gestion pour une structure entière.
Y-a-t-il des précédents de fuites de données des plateformes de rédaction d’un PGD ? Sont-elles assez sécurisées ?
Il ne peut pas y avoir de fuite de données car les plateformes de rédaction n’ont pas vocation à héberger des données de recherche. Leur objectif consiste uniquement à permettre aux auteurs des données de les décrire à l’aide d’un PGD.
Les modèles de PGD d'organismes ou de financeurs peuvent-ils être réutilisés librement ?
Oui tout à fait. La majorité des modèles de PGD sont proposés dans un format ouvert, librement utilisable par tout un chacun.
Quel est le modèle exigé par les financeurs ?
Les financeurs peuvent proposer un modèle mais aucun modèle n’est obligatoire. Vous pouvez choisir celui qui vous convient le mieux, par exemple celui de votre établissement s’il en propose un.
Doit-on parler de données brutes ou de données traitées ? Les données brutes d'un type unique pouvant générer divers types de données traitées.
Les deux ! Dans le PGD, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.
Doit-on considérer les données brutes et les données analysées/traitées de la même manière ?
Le PGD doit contenir les informations sur toutes les données produites, brutes et traitées. De part leur nature, leur gestion est généralement différente. Selon le projet et les coûts (collecte, stockage), elles n’ont peut-être pas toutes vocation à être partagées. Il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement, si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.
Les logiciels développés au cours d'un projet font-ils partie des " données " ? Faut-il les inclure dans le PGD ?
Cela dépend de votre approche, de votre projet de recherche. Le logiciel peut jouer un triple rôle dans la recherche :
- Il sert d’outil dans de nombreux domaines, en traitant efficacement divers types de données pour construire et tester des modèles visant à étayer ou invalider des hypothèses.
- Il peut constituer en lui-même un résultat de recherche, en tant que preuve d’existence d’une solution algorithmique efficace pour un problème donné.
- Il peut être lui-même objet de recherche. En particulier, la communauté scientifique s’intéresse aux modes de développement des logiciels et à la preuve de leurs propriétés, en lien notamment avec la transparence et la confiance dans les traitements informatisés.
Dans tous les cas, il est recommandé de les inclure dans le PGD et de déposer les codes sources dans un entrepôt (indiquer l’entrepôt choisi dans le PGD).
A noter qu’il existe des modèles de PGD spécialement dédiés aux logiciels comme le modèle PRESOFT.
Doit-on élaborer un PGD lors de la réutilisation de données n’ayant initialement pas fait l’objet d’un PGD ? (Cas des données plus anciennes)
Oui, car vous allez à nouveau agir sur ces données. Comment les sélectionnerez-vous pour les réutiliser ? Où les stockerez-vous ? Quels traitements allez-vous leur appliquer ? Allez-vous les conserver après votre projet ? Etc.
S’il vous manque des informations sur le contexte de production de ces données, le PGD est justement l’occasion d’expliquer ces lacunes en détails, afin que vous ne puissiez pas être pénalisé ensuite si un problème est mis au jour.Quelles sont les informations demandées sur le traitement des données ? A quel point faut-il rentrer dans les détails ?
Idéalement, il faut fournir le plus de détails possible. Demandez-vous de quelles informations vous auriez besoin si vous étiez extérieur à votre projet de recherche, et que vous deviez reproduire votre expérience / refaire votre cheminement intellectuel vingt ans plus tard.
Les informations à fournir concernent aussi bien des aspects scientifiques (quel protocole de collecte ? quelles questions de recherche ? quelles adaptations au terrain ? etc.) que des aspects techniques (quel matériel ? quels réactifs ? quels paramètres ? quelle périodicité ? etc.) ou informatiques (quelle version du logiciel ? quel éditeur ? quel script ? etc.).
Pour avoir une idée des détails à fournir dans vos disciplines, n’hésitez pas à lire des PGD rédigés.
Comment, concrètement, associer des métadonnées à des données ?
Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche DataCite Search.Lorsqu’on dépose des données dans un entrepôt, quelle documentation fournir en complément ?
Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire d’expliquer les entêtes des colonnes, les unités utilisées, les acronymes, etc.
Qu’est-ce qu’une landing page ? où se trouve-t-elle ?
Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).
A partir de quand doit-on donner un identifiant pérenne (PID) à une donnée ? Selon quelle granularité ?
Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.
Les métadonnées d'un DOI sont-elles en accès ouvert ?
Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.
Si on change d’entrepôt, peut-on garder le même DOI ?
Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt :
- Soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ;
- Soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).
Concernant la redondance des identifiants pérennes (PID), est-il nécessaire d’avoir un DOI si on a déjà un identifiant HAL ?
Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.
Est-ce possible d'attribuer un identifiant pérenne à un plan de gestion de données ?
Oui, cela est possible en le déposant par exemple dans l’archive ouverte HAL.
Le CNRS propose-t-il un entrepôt de données ?
Le CNRS dispose d’un espace institutionnel nommé “CNRS research data” dans l’entrepôt national pluridisciplinaire Recherche Data Gouv.
Sur quel critère l'entrepôt de données est évalué pour être certifié conforme ? Existe-t-il une liste d’entrepôts fiables ?
Il existe plusieurs certifications pour les entrepôts de données. La plus répandue est la certification CoreTrustSeal. Les entrepôts sont évalués selon différents critères. Parmi ces critères il y a l’engagement sur la pérennité des données. La liste des critères de certification est accessible sur le site du CTS.
Qui valide les données que l'on peut déposer si elles n'ont pas fait l'objet de publications scientifiques ? Tout le monde peut déposer ses données de recherche sans évaluation par les pairs ?
La plupart du temps, les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.
Est-il utile de déposer les données à plusieurs endroits ?
Si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Cette pratique est même fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.
Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#endroits
Peut-on faire évoluer un jeu de données déposé dans un entrepôt ? Faut-il générer un nouveau DOI ?
Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.
Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une ” empreinte numérique ” permettant d’attester de la fiabilité (authenticité et intégrité) des données.
- En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
- En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle ” empreinte numérique “
- Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
- Exemple sur le portail Dataverse de Harvard
Comment citer mes données ?
Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu’une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l’attribution d’un DOI .
Voici deux exemples de citations proposées par des entrepôts :
– Duchêne, Eric, 2019, “Vitis vinifera cv. Riesling developmental stages”, https://doi.org/10.15454/GYSGNR, Recherche Data Gouv, V3, UNF:6:Qe/3b5e0IdlZsQ5EBqpHwA== [fileUNF]
– Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854,
Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science, 77(1), https://doi.org/10.1007/s13595-019-0893-0.
Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation.
Quand vous citez un jeu de données provenant d’un entrepôt spécifique, pensez à lui notifier l’article dès que celui-ci est publié pour que l’entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#citer
Peut-on savoir qui a accès aux jeux de données dans un entrepôt et pour quelle utilisation-réutilisation ?
Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage. Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?
La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.
Peut-on mettre un embargo sur des données lorsque la publication d'un article est envisagée ?
Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données. A savoir que certains entrepôts (comme l’entrepôt Recherche Data Gouv) offrent la possibilité de générer une URL privée permettant de donner un accès reservé aux données pour les relecteurs d’un article.
Pouvez-vous nous donner des noms de logiciels de gestion de versions de données ? Lorsqu'on a beaucoup de données, et que celles-ci peuvent évoluer (plusieurs versions), quels logiciels utiliser pour faire le tri ?
Cette ressource (https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/nommage-des-fichiers-versioning-adopter-les-bons-reflexes/#titre2) donne des informations détaillées, notamment sur le logiciel de gestion de versions Git (https://git-scm.com/), et mentionne d’autres outils.
Il existe également le logiciel de gestion de données iRODS : http://irods.org/Quelle est la durée de stockage à moyen terme et à long terme des données ?
La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/Pendant combien d’années après la fin du projet se préoccupe-t-on du devenir des données ?
Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.Les mêmes données peuvent-elles être à la fois dans un entrepôt de données et dans un site d’archivage pérenne ?
Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).Y a-t-il des serveurs nationaux dédiés (au CNRS par exemple) qui peuvent nous aider pour l'archivage à moindre coût ?
En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.
Quel est le coût de l’archivage à long terme ? Qu'appelle-t-on à long terme ?
Le coût est celui de l’archivage (plus de 30 ans), des mises à jour de supports et de formats, etc… fixé par le CINES.
Comment se fait la conservation à long terme et faut-il prévoir des charges supplémentaires ?
Pour la conservation à long terme (archivage pérenne), il faut avoir recours à des plateformes spécialisées, qui sont en mesure de vérifier régulièrement que les données entreposées chez elles ne se dégraderont pas avec le temps et continueront à être faciles à trouver, accessibles, interopérables et réutilisables, même si la technologie évolue. Ce service peut avoir un coût, à vérifier et planifier le plus tôt possible au cours d’un projet. Ce type de dépense est souvent éligible à une prise en charge par le financeur du projet.
Pour l'archivage pérenne, il n’existe que le CINES ?
Pour la France, il n’existe pour l’instant que le CINES.
Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
Le portail européen Open Science Cloud (EOSC) (https://open-science-cloud.ec.europa.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.Quels types de données pourraient faire l’objet d’une destruction ? Est-ce la même chose que l’effacement ?
Tout dépend de la finalité de votre projet de recherche, mais on peut citer par exemple :
- Des données personnelles, pour lesquelles le RGPD affirme un principe de limitation de la durée de conservation (sauf cas particuliers) https://net-helium.fr/blog/rgpd-quelle-duree-de-conservation-des-donnees-personnelles/47
- Des données extrêmement volumineuses, dont l’archivage pérenne utiliserait trop de moyens
- Des données qu’il serait très facile de reproduire à l’identique, pour peu que leur mode de production soit bien documenté
- Etc.
Effacement, destruction, élimination… tous ces termes sont à peu près synonymes, mais gardez à l’esprit que déplacer des fichiers dans la corbeille de son ordinateur ne suffit pas à réellement supprimer des données. Rapprochez-vous d’un informaticien pour avoir de l’aide sur cette thématique.
Retenez également que toute suppression de données doit impérativement être documentée, notamment à l’aide de métadonnées complètes et précises, qui permettront de comprendre en quoi consistaient les données supprimées et pourquoi elles ont été éliminées. Ces métadonnées devront elles-mêmes être préservées et rendues FAIR. Pour obtenir de l’aide sur cette problématique, rapprochez-vous des archivistes de votre établissement (demandez-leur notamment de l’aide pour dresser l’équivalent d’un bordereau d’élimination…).
Pour vous aider, vous pouvez également consulter le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/Comment faire un plan de préservation des données viable ?
Cela va beaucoup dépendre de votre projet. Penchez-vous sur cette question le plus tôt possible, et faites-vous aider. Essayez d’imaginer tous les problèmes qui pourraient survenir, pour trouver comment y parer…
Quand les données font l'objet d'une publication, doit-on aussi les archiver à long terme ?
Non, pas systématiquement. C’est la valeur des données qui doit être prise en compte : s’agit-il de données uniques ? De valeur patrimoniale ? Ou peut-être est-ce des données extrêmement couteuses (dans ce cas, il est plus rentable de les archiver que de les reproduire) ?
La publication concerne le résultat de vos recherches sur ces données. Elle ne donne accès aux données qu’indirectement et pour ce faire il est indispensable de déposer au préalable vos données dans un entrepôt de données et de mentionner l’identifiant pérenne attribué à vos données dans votre publication.
À noter que les données de recherche partagées dans un entrepôt peuvent être différentes de celles archivées de façon pérenne (choix souvent très ciblé).Des données archivées restent-elles accessibles comme des données partagées ?
Oui, car l’archivage pérenne du document numérique a pour objectif principal de conserver les données, les rendre accessibles et en préserver l’intelligibilité, et ce sur du long terme à savoir plus de 30 ans. Dans ce cas, l’accès aux données se fait sur demande.
Pouvez-vous préciser ce qu'est réellement un data paper ? Est-ce obligatoire d'accompagner un article de son data paper ? Est-il nécessaire de faire un data paper pour chaque article référencé dans un PGD ?
Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…
Le data paper est
- soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
- soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.
Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un PGD. C’est cependant un bon moyen de valoriser vos données.
Vous avez deux manières de rendre visibles vos données :
- soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
- Soit vous rédigez une publication classique et, lorsque la revue le permet, vous faites un lien vers vos données déposées dans un entrepôt.
Pour en savoir plus :
Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/
Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/Quelle est la différence entre un plan de gestion de données et un data paper ?
Un plan de gestion de données (PGD) est créé dès le début d’un projet (voire en phase exploratoire) et l’accompagne. Il décrit qualitativement et quantitativement les données qui vont être manipulées et définit ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans le PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).
Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessible, interprétable et réutilisable. Un data paper doit décrire les conditions d’acquisition des données, contenir la description fine de toutes les métadonnées et peut proposer des usages potentiels. Le data paper ne comporte pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche, ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.
Le data paper et le PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Le data paper est dédié à la publication scientifique alors que le PGD permet une meilleure gestion du projet.
Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#PGD
Les Data papers sont-ils plus courts que les articles classiques ?
“Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016Quand intervient le data paper ?
Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.
Quels types de données peuvent faire l'objet d'un Data paper ?
A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.
Peut-on publier un Data paper d'un jeu de données dynamique ?
On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.Peut-on publier des data papers avec des données secondaires (ex. de FAOSTAT) retravaillées pour sortir de nouvelles séries, ou combinant de façon originale des données secondaires de différentes sources ? Comment sont gérés les droits dans ces cas-là ?
Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.
Il y a beaucoup de journaux qui demandent de donner l’accès aux données brutes. Comment fait-on ?
Il convient de suivre les recommandations du guide pour les chercheurs “Partager les données liées aux publications scientifiques“
Avez-vous des exemples de data papers ?
- Exemples de revues publiant des data papers : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/5-liens-utiles-exemples-et-guides
- Tracking vegetation phenology across diverse North American biomes using PhenoCam imagery : 2 data papers très complets ont été rédigés sur des données photographiques permettant d’étudier l’évolution de la phénologie de la végétation dans différents écosystèmes à travers l’Amérique du Nord.
- https://www.nature.com/articles/sdata201828
- https://www.nature.com/articles/s41597-019-0229-9
- Les images sont également visualisables en temps réel sur la page du projet PhenoCam (https://phenocam.nau.edu/webcam/gallery/).
Existe t-il une liste d'outils de visualisation ?
Il n’y a pas de liste à proprement parler. Toutefois voici quelques outils :
- Outils de visualisation pour l’accès aux données depuis un entrepôt :
- ICOS Carbon Portal (en cours de construction)
- STRING data base
- Swiss model repository
- Outils de visualisation pour une meilleure manipulation et appréhension des données :
- Gephi (logiciel libre d’analyse et de visualisation de réseaux)
- D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
- Gargantext (plateforme web pour explorer des données textuelles)
- QGIS (Système d’Information Géographique Libre et Open Source)
- Outils de visualisation pour l’accès aux données depuis un entrepôt :
Votre question n’apparaît pas dans cette FAQ ?
Laissez-nous un message, nous vous répondrons au plus vite !