FOIRE AUX QUESTIONS
Dernière mise à jour : 17/12/2024
Vous avez une question sur les activités proposées par DoRANum ou sur les données de la recherche ? Vous trouverez probablement une réponse ici ! Dans le cas contraire, vous pouvez contribuer au développement de cette FAQ en nous envoyant votre question.
Puis-je me servir des ressources présentes sur DoRANum ?
Les ressources pédagogiques DoRANum sont librement réutilisables selon les conditions fixées par les licences utilisées. Lorsque cela est possible, les ressources sont sous la Licence ouverte Etalab. Dans le cas où une ressource utilise des éléments (images, textes,…) porteurs d’une licence plus restrictive, cette licence sera appliquée à la ressource dans son ensemble. Elles peuvent aussi être intégrées sur votre site internet ou votre plateforme web. En savoir plus.
Proposez-vous des formations en présentiel ou à distance ?
Nous proposons des formations en présentiel à la demande. Nous organisons régulièrement des webinaires dont le calendrier est annoncé sur le site de l’Inist-CNRS.
L'équipe de DoRANum peut-elle participer à la réalisation de mes ressources pédagogiques ?
Dans la mesure où votre projet correspond au cahier des charges de la plateforme DoRANum, il est possible de collaborer avec l’équipe en vue d’une publication sur la plateforme. Précisez-nous votre demande via notre formulaire de contact.
Comment se tenir au courant de l'actualité de DoRANum ?
Y a-t-il des contenus en langue anglaise sur DoRANum ?
Oui, les fiches synthétiques des 9 thématiques de DoRANum sont traduites en anglais, et les vidéos “minutes” proposent des sous-titres anglais. Il est prévu que d’autres ressources soient également traduites.
Qui peut m'aider à mettre en œuvre les bonnes pratiques de gestion des données de la recherche ?
Si vous en avez la possibilité, il ne faut pas hésiter à demander de l’aide aux personnes compétentes dans votre organisme pour chaque thématique (service juridique, informaticiens, documentalistes, data librarian etc…).
Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.
Le PGD concerne-t-il toutes les données ? Par exemple celles issues de contrats avec industriels ?
Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.
Le PGD peut-il être considéré comme une trace d’antériorité pour la propriété intellectuelle/industrielle (brevet, publications, etc) ?
Non ce n’est pas le rôle du PGD, c’est plutôt celui du cahier de laboratoire.
Le PGD a-t-il une valeur juridique ? Si oui, laquelle ?
Non, le PGD n’a aucune valeur juridique. C’est un livrable dans le cadre de projets financés, et non un contrat. Il ne permet donc pas de garantir légalement l’exécution du processus de diffusion des données défini dans le PGD.
Un projet de recherche soumis à confidentialité est-il compatible avec un PGD ?
Il est très important d’aborder dans le PGD les aspects de la gestion des données qui auront trait à une éventuelle confidentialité. Cela permet justement d’anticiper tous les problèmes susceptibles d’en découler.
Il est tout à fait possible que le PGD lui-même soit tenu confidentiel, y compris à l’issue du projet.Comment identifier le délégué à la protection des données de notre organisme ?
Vous devez vous rapprocher du service juridique de votre institution de rattachement. Vous pouvez aussi consulter cette liste.
Qui choisit d'utiliser ou de mettre en place un PGD ?
Tout chercheur qui s’investit dans un projet de recherche est à même de mettre en place un PGD ou d’en faire la suggestion à son équipe.
Mais la rédaction d’un tel document peut aussi être imposée par un bailleur de fonds, ou plus rarement par un organisme de tutelle.Doit-on rédiger un PGD en amont de la demande pour avoir plus de chance d’être financé ?
Non le PGD n’est exigé que si vous êtes financé et ne peut donc pas être un critère pour être lauréat d’un appel à projet. Par contre réfléchir à la gestion des données de recherche et anticiper les besoins dans le domaine peut sûrement aider à structurer ou bien préparer son dossier.
Est-il vrai qu'il est recommandé de commencer à renseigner un PGD même sans avoir été retenu pour l'appel à projet ?
Il faut considérer le PGD comme un réel outil de gestion de projet. C’est vraiment un guide qui permet d’anticiper la gestion des données aussi bien avec votre équipe qu’avec d’éventuels partenaires. Il peut aussi permettre de mieux argumenter une demande de subvention. Plus vous le commencez tôt, mieux c’est !
Le FNS (Fond national suisse) exige le PGD comme critère d’évaluation dès le dépôt du dossier de demande de financement / de candidature. Qu'en est-il des autres agences du type DFG (Deutsche Forschungsgemeinschaft) lors des PRCI (Projet de recherche collaborative – international) des ANR ?
L’ANR détaille ses procédures pour les PRCI avec la DFG ici : https://anr.fr/fileadmin/aap/2022/aapg-2022-ANR-DFG.pdf
Pour 2022, c’est la DFG qui réalisera seule la sélection. Comme c’est indiqué sur cette page, l’ANR ne demande pas de plan de gestion de données au moment du dépôt d’une demande de PRCI et la DFG non plus. Pour autant, il est important de faire figurer dans le formulaire de candidature que les données seront gérées correctement et de montrer dans son dossier que le projet prend en compte ces enjeux. Les directives de la DFG pour la soumission de propositions de projet (allemand) stipulent que les propositions de projet soumises à la DFG doivent inclure une section sur le traitement des données de recherche. Cette section doit comprendre des informations sur le type, l’étendue et la documentation des données ainsi que sur le stockage prévu et les possibilités d’utilisation ultérieure. Il n’est actuellement pas nécessaire de mettre à jour ces informations au cours du projet.Tout est détaillé sur cette page : https://www.dfg.de/en/research_funding/principles_dfg_funding/research_data/research_funding/index.html
Est-il conseillé de faire un plan de gestion des données quand on présente un projet européen Marie Curie Starting Grant ? Cela est-il compliqué à mettre en place ?
Il est effectivement conseillé de rédiger un plan de gestion des données. La plupart des organismes de financement européens le demandent. Dans le cas de projets Horizon Europe, le PGD est obligatoire. Ce n’est pas forcément compliqué à mettre en place. Toutes les questions que vous allez vous poser lors de la rédaction du PGD vont contribuer à une meilleure gestion, aussi bien du projet que des données, en amont et tout au long du projet.
Pour un réseau européen type ITN (Innovative Training Networks) ou COFUND, faut-il un PGD global ou un par projet de thèse ?
Un PGD global suffit. Il peut être plus ou moins détaillé en fonction de l’ampleur du projet. Voici un exemple :
https://www.cde4peace.eu/wp-content/uploads/sites/41/2020/11/CDE4Peace-D1.2-Data-Management-Plan.pdfJ'envisage de faire un PGD si j'obtiens le financement ANR. Dans quel autre cas est-ce préconisé de faire un PGD ?
En dehors du cadre d’un projet financé, vous pouvez mettre en place un PGD dans le cadre de tout autre projet, ou dans le cadre de votre travail quotidien (avec votre équipe, votre laboratoire, votre structure par exemple). Cela permettra de mettre en place une politique bien définie de gestion des données.
Doit-on rédiger des PGD lorsqu'on coordonne un programme qui finance des projets de recherche? Les projets eux même vont faire des PGD mais doit-on en faire un pour les données des AAP (appels à projets) puisqu'on conserve les projets déposés ? Que fait l'ANR sur ces données depuis les 1ers AAP de 2005 ?
Il ne semble pas nécessaire de rédiger un PGD dans ce cas.
Pour plus de précisions, vous pouvez contacter l’ANR : scienceouverte@agencerecherche.frPour les projets en cours, doit-on faire un PGD pour les données existantes ?
Le PGD doit contenir les informations sur toutes les données produites mais également sur les données existantes réutilisées au cours du projet.
Est-il possible de fusionner deux projets en un seul projet pour un PGD, parce qu’ils se soucient du même sujet ? Dois-je faire un PGD pour chaque projet ou pour tous mes projets ?
Non ce n’est pas possible. Il faudra faire 2 PGD. C’est d’autant plus vrai si les projets sont financés par des organismes de financement différents.
Il faut rédiger un PGD pour chaque projet.Doit-on re-rédiger un nouveau PGD pour un projet déposé 3 ou 4 ans après, en suite d’un projet précédent terminé ?
Si votre nouveau projet est financé, il vous sera demandé un nouveau PGD. Si besoin et si vous avez gardé votre ancien PGD, vous pourrez récupérer les informations et les recopier.
Peut-on rédiger un PGD général pour notre laboratoire ou doit-on faire un PGD par projet ou un mixte ?
- 1er cas de figure : les financeurs demandent de rédiger un plan de gestion pour chacun de vos projets de recherche.
- 2ème cas de figure : il est tout à fait possible de rédiger un PGD hors projet, pour gérer plus efficacement les données au niveau d’un laboratoire. Le modèle de DMP “d’entité” est bien adapté dans ce cas.
Exemples de modèles de PGD d’entité disponibles dans DMP OPIDoR :
– Celui proposé par l’INRAE
– Celui proposé par AgroParisTech
– Celui proposé par Science Europe
Il est dit que le PGD est un document évolutif. À partir de quel moment doit-on envisager son évolution ?
Le PGD peut être modifié à tout moment au cours d’un projet de recherche. Idéalement, dès qu’un élément de réponse change, il faut consigner cette modification dans le PGD.
Exemples :
- Nouveau jeu de données
- Modification du volume estimé
- Changement du logiciel utilisé pour le traitement des données
- Changements de personnels
- Avancée des réflexions sur le choix d’un standard de métadonnées
- Avancée des réflexions sur le choix d’un entrepôt ou d’une plateforme d’archivage pérenne
- Recommandations d’un juriste ou d’un comité d’éthique
- Informations sur les coûts
- etc.
Quelle est l’importance du PGD par rapport aux données déjà déposées dans un entrepôt ?
Le PGD doit normalement être initié très tôt, dès le début du projet. Rédiger un PGD en fin de projet, après le dépôt des données dans un entrepôt, aura moins d’intérêt pour ce projet mais cela va cependant permettre de se poser rétrospectivement les questions relatives à la gestion des données (nommage des fichiers, documentation…) et cette réflexion pourra servir pour de futurs projets similaires.
Dans le cadre d'un projet financé par l'ANR, est-il recommandé de rédiger le PGD en anglais ?
Vous pouvez rédiger votre PGD en français, il n’y a pas de préconisations de l’ANR dans le choix de la langue de rédaction. Cependant, dans le cas de partenariat avec des organismes ou laboratoires étrangers, ceux-ci pourraient demander une version anglaise. Dans ce cas, cela facilite également les collaborations pour la rédaction du PGD.
Si la demande de financement est en anglais, le PGD doit-il également être rédigé en anglais?
Dans la mesure où le PGD est un livrable exigé le plus souvent par le financeur, il est plus judicieux de rédiger votre PGD en anglais directement. DMP OPIDoR est disponible en anglais et en français. De nombreux modèles sont disponibles dans les deux langues.
Au final, qui lit les PGD ?
Le PGD sera surtout lu par les collaborateurs, les chargés de projets scientifiques et les gestionnaires.
Cela permettra de clarifier la politique de gestion des données mise en place pour ce projet.
Il faut bien comprendre que le PGD est avant tout un outil de réflexion et de gestion de projet, utile pour mettre en œuvre des bonnes pratiques de gestion des données de recherche.N'importe quel projet est-il accepté ou y a-t-il une commission qui examine les dossiers ?
Le PGD est à fournir maximum 6 mois après l’acceptation du projet et de son financement. La commission examine le projet et s’assure ensuite que les différentes versions du PGD sont bien rendues. L’ANR se réserve par exemple le droit de suspendre le versement si le PGD n’est pas rendu. En revanche, il n’existe pas pour l’instant de véritable évaluation qualitative des PGD rendus.
Le PGD n'a pas été dimensionné et budgété au départ. Cela n'a pas été spécifié au moment de l'écriture du projet qu'il fallait un PGD. Nous n'avons pas les compétences pour.
Ne pas hésiter à se faire accompagner en local (par les équipes de soutien à la recherche ou par un atelier de la donnée) ou par l’équipe OPIDoR.
Comment convaincre les collègues de l'utilité du PGD, en tant que référent PGD pour son unité ?
Le PGD est un outil de gestion de projet qui permettra de gagner du temps et de se poser les bonnes questions concernant la gestion et le partage des données.
Le PGD permet de définir et de mettre en place les actions indispensables pour gérer les données qui vont être collectées ou produites au cours d’un projet. Il est là pour faciliter la gestion des données de recherche et aide à organiser et anticiper toutes les étapes du cycle de vie des données.Comment est envisagé la création, l'utilisation et la mise à jour du PGD : par le chercheur/enseignant-chercheur et/ou par une assistance locale dans le laboratoire (gestionnaire, assistant administratif, communication, etc.) ?
L’idéal est d’élaborer votre PGD avec l’aide de différents acteurs d’un projet : scientifiques mais aussi informaticiens, data librarians, juristes… la rédaction et la mise à jour du PGD doivent être organisées en fonction des personnes ressource disponibles.
Combien de temps faut-il envisager pour rédiger proprement le PGD ? J'ai en tête que plusieurs personnes doivent être nécessaires autour de cette question car il y a plusieurs aspects : la donnée (données brutes sortie capteur, instrument), sa gestion, sa sauvegarde (informaticien), le chercheur (données élaborées, graphiques, publications etc...)
Il est difficile d’évaluer le temps nécessaire à la rédaction d’un PGD, c’est variable suivant le projet. La rédaction se fait au fur et à mesure de l’avancée de celui-ci. Un PGD pour une thèse menée de manière plus ou moins autonome sera bien plus facile et rapide à rédiger qu’un PGD se rapportant à un énorme projet pluridisciplinaire et pluri-établissements.
Le PGD va permettre d’anticiper très tôt toutes les questions relatives à la gestion des données (nommage des fichiers, choix de l’entrepôt, documentation à préparer…) et favoriser ainsi la mise en place de bonnes pratiques de gestion tout au long du projet. C’est également une opportunité de dialogue entre les différents acteurs d’un projet : scientifiques, informaticiens, data librarians, juristes…
Le PGDpeut ainsi devenir un document de référence et faire gagner du temps aux chercheurs !Qui est responsable de la rédaction du PGD ? Est-ce qu'une personne spécifique (le chef du projet par exemple) est obligée de le faire ?
N’importe quel participant au projet peut être responsable de la rédaction d’un PGD. Il peut aussi s’agir d’une responsabilité collégiale.
Est-ce au porteur du projet de gérer le PGD en invitant les collaborateurs ?
C’est souvent le porteur du projet qui est désigné comme rédacteur principal et qui, de fait, invite les collaborateurs à contribuer au PGD. Mais il est tout à fait possible de désigner par exemple le gestionnaire des données comme rédacteur principal du PGD.
Le responsable de la rédaction du PGD peut-il être extérieur au projet, un documentaliste par exemple ?
Oui, c’est possible si cette personne est intégrée dès le début du projet et qu’elle suit ses évolutions au plus près.
Toutefois, c’est le chercheur porteur du projet qui est le plus souvent responsable de la rédaction du PGD car c’est lui qui connait le mieux les jeux de données, les traitements etc. Par contre, co-rédiger un PGD avec un documentaliste est une excellente idée.Lors d'une collaboration, la gestion des données doit-elle se faire ensemble ou de façon à différencier les données des deux différents groupes ?
Les deux façons de faire sont recevables, à condition d’avoir réfléchi en amont aux forces, faiblesses, opportunités et menaces des deux modèles. Si le choix est fait de différencier les pratiques de gestion, il sera d’autant plus important de formaliser les décisions prises par chaque partenaire, afin de faciliter les échanges de données au sein même des équipes qui collaborent.
Le document laisse penser à certains endroits que le tout est géré en équipe. Une seule personne peut-elle gérer l'ensemble des aspects abordés dans le modèle ?
C’est tout à fait possible, notamment dans certains projets menés de manière solitaire.
Mais, même dans ces cas, le responsable du PGD aura tout intérêt à solliciter l’avis de différents interlocuteurs (juriste, informaticien, bibliothécaire, archiviste, etc.) pour l’aider dans sa rédaction, à défaut de pouvoir l’aider dans la gestion quotidienne des données.Qui s'occupe de suivre la mise en place d’un PGD ? Quel est le rôle du “coordinateur” ?
N’importe quel(s) participant(s) au projet peu(ven)t suivre la mise en place d’un PGD, mais pour des raisons politiques, il est souvent important que le(s) responsable(s) du projet s’implique(nt), ou au moins manifeste(nt) leur soutien.
Lorsque l'on parle de responsabilités dans le cadre du PGD, fait-on référence au rôle des personnes dans un projet ou au niveau d'accès qu'elles ont aux composantes du projet ?
Il s’agit là des responsabilités pour toutes les tâches qui auront trait à la gestion des données :
- Qui est responsable de la rédaction du PGD et de sa mise à jour ?
- Qui est responsable de la collecte (réalise la collecte ou supervise ceux qui la font) ?
- Qui est responsable du traitement des données ?
- Qui est responsable du stockage ?
- …
Il peut donc y avoir plusieurs responsables sur des tâches différentes, et avec des profils différents (ingénieur d’étude, technicien, documentaliste…).
Il peut aussi arriver que toutes ces tâches soient assumées par une seule et même personne, et que cette personne ait en plus des responsabilités dans le pilotage du projet.Comment anticiper les changements de responsabilités en cas de modification de personnels liés au projet ?
Cela fait partie des questions importantes à se poser en début de projet, pour anticiper ce genre de problème.
La formalisation la plus fine et la plus précise possible (au sein d’un PGD par exemple) de toutes les tâches associées à la gestion des données procure un avantage indéniable.Existe-t-il des plateformes de PGD pour des collaborations internationales ?
Rien n’empêche d’inviter des chercheurs étrangers à collaborer sur un PGD via DMP OPIDoR.
On peut aussi citer d’autres plateformes sur lesquelles des chercheurs français peuvent se créer un compte :- DMPOnline (UK)
- DMPTool (US)
- Data Stewardship Wizard
- ARGOS
Quels critères doivent être considérés pour aider au choix de l'outil pour la rédaction d'un plan de gestion de données ?
Il n’existe pas à proprement parler de recommandations concernant le choix d’un outil.
En France, DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels. Il suffit de créer un compte pour rédiger son (ses) plan(s) de gestion des données. Vous pouvez créer, exporter et partager votre DMP. C’est un outil collaboratif qui facilite les échanges entre les partenaires d’un même projet et les services d’accompagnement.
DMP OPIDoR est également personnalisable par tout organisme de recherche pour la mise en place de sa politique de données. Il est possible d’ajouter des modèles et des recommandations de PGD, des exemples ou des réponses par défaut.
Vous avez aussi la possibilité de rédiger votre PGD à partir d’un outil bureautique.Quels sont les avantages à utiliser une plateforme pour rédiger un PGD ?
Recourir à une plateforme présente plusieurs avantages :
- Elles permettent un travail collaboratif plus facile que s’il s’agissait d’envoyer un fichier Word, et plus sécurisé que s’il s’agissait de compléter un document sur un espace en ligne comme GoogleDrive ou FramaPad ;
- Elles centralisent plusieurs modèles de PGD proposés par différentes institutions, permettant de les comparer à un seul endroit et de choisir le plus pertinent pour son projet ;
- Elles proposent le plus souvent de l’aide contextuelle sous forme de consignes ou d’infobulles visant à expliciter les réponses à indiquer dans chaque rubrique ; la longueur de ces aides dépend des points abordés ;
- Elles permettent d’exporter les informations saisies sous la forme d’un document rédigé, dans plusieurs formats de fichier possibles (PDF, texte…) ;
- Elles devraient permettre à terme d’encoder automatiquement les PGD eux-mêmes dans un format lisible par des machines (machine-actionable DMP).
Certaines communautés scientifiques préfèrent d’autres outils que DMP OPIDoR, notamment des plateformes qui permettent de travailler dans des formats de fichiers spéciaux tels que MarkDown ou LaTeX. C’est aussi le cas des chercheurs qui ont besoin de remplir des documents supplémentaires, comme des déclarations de conformité RGPD qui font doublon avec les rubriques du PGD qui concernent les données personnelles.
La plateforme DMP OPIDoR permet-elle la rédaction simultanée par multiples rédacteurs ?
Vous pouvez tout à fait rédiger un PGD de manière collaborative. Par contre cela ne peut pas se faire de manière simultanée. Pour plus de fluidité, il est conseillé aux contributeurs d’utiliser la zone « commentaires ».
Les personnes bénéficiant du statut de “Copropriétaire” et “Editeur” ont le droit d’effectuer des changements et de modifier les réponses.
Les personnes dotées du statut “Lecture seule” ne peuvent pas faire de modifications dans le PGD mais elles peuvent participer indirectement sous la forme de commentaires. A charge aux personnes habilitées à intervenir dans la rédaction du PGD d’intégrer, ou non, les suggestions de modification.
Remarque : pour un meilleur suivi, un encadré indique sous chaque question qui est intervenu en dernier et à quel moment.Existe-t-il d'autres sites qui proposent des PGD publics ? Où trouver des PGD dans une discipline particulière ?
Le plus simple est de vous référer à la sélection de sources d’accès à des PGD du site CoopIST du CIRAD, dans laquelle vous trouverez différentes plateformes de création de PGD qui proposent des PGD publics. Il y en a également dans des bases de données bibliographiques, des archives ouvertes de publications, des entrepôts de données de recherche, des moteurs de recherche académiques et des revues scientifiques.
Un PGD peut-il être déposé en archive ouverte, serait-ce pertinent ?
Déposer son PGD dans une archive ouverte ou un entrepôt de données (même si le DMP n’est pas une donnée au sens exacte du terme) est tout à fait pertinent. Cela permettra de partager vos pratiques en matière de gestion de données auprès de vos pairs. Vous pouvez par exemple le déposer sur HAL. Vous pouvez également le déposer dans l’entrepôt de données Recherche Data Gouv qui offre l’avantage de lui attribuer automatiquement un DOI.
On pourrait même envisager qu’il soit publié sur un catalogue institutionnel au même titre qu’une publication et faire un lien vers les données elles-mêmes déposées dans un entrepôt institutionnel ou un entrepôt disciplinaire reconnu par la communauté. Plusieurs scenarii sont envisageables.Des personnes sont ou vont-elles être formées à l'aide pour la rédaction du PGD sans avoir à contacter plusieurs personnes avec des compétences complémentaires ?
Des ateliers de la donnée on été mis en place dans le cadre de Recherche Data Gouv (plateforme nationale fédérée des données de la recherche). Ces ateliers se positionnent comme le point d’entrée en proximité locale des équipes de recherche sur toute nature de besoin relatif à la donnée. Les initiatives d’accompagnement existantes sont promues et les nouvelles initiatives sont encouragées. L’ambition est de déployer, dans une logique de partenariats entre des établissements d’un ou plusieurs sites, des dispositifs de mise en commun de ressources et compétences pour apporter, en proximité des chercheurs, un premier niveau d’expertise, sur toute problématique de l’ensemble du cycle de vie de la donnée.
Y a-t-il des personnes avec qui parler d’un plan de gestion « global » des données ? Pour un débutant, il y a tellement de ressources qu’on se demande par où commencer…
Pour une première approche, vous pouvez consulter les ressources « en bref » et « l’essentiel » de la thématique « Plan de gestion de données » de DoRANum : https://doranum.fr/plan-gestion-donnees-dmp/
Au niveau de votre organisme, dirigez-vous vers les data librarians ou documentalistes si possible.
Enfin, vous pouvez obtenir de l’aide ou des informations sur la rédaction d’un plan de gestion de données en contactant l’équipe OPIDoR de l’Inist-CNRS : info-opidor[at]inist.fr
Vous pouvez aussi consulter le catalogue CatOPIDoR qui recense les services dédiés aux données de la recherche en France. Vous pourrez filtrer votre recherche par localisation et voir quels organismes peuvent vous aider dans votre démarche.Faut-il répondre à toutes les questions du PGD ?
Vous devez répondre aux questions du PGD qui sont pertinentes par rapport à votre projet. Par ailleurs, vous ne pourrez pas répondre à toutes les questions dès le début du projet. Le DMP étant un document évolutif, vous pourrez compléter les réponses aux questions au fur et à mesure de l’avancée du projet.
Faut-il être le plus descriptif possible dans le PGD ou ne faut-il pas aller trop dans les détails ?
Il vaut mieux être le plus descriptif possible car il faut considérer le PGD comme un réel outil de gestion de vos données. Cela évite la perte de données (notamment, par exemple, après le départ d’une personne).
Si on est en ZRR, quel est impact sur le PGD ?
Il faut indiquer les difficultés et contraintes liées au partage des données, pourquoi vous ne pouvez pas les partager (données sensibles, confidentielles, etc.).
Pour quelles raisons et dans quelle mesure les sciences humaines (l'histoire de l'art, la philosophie) auraient-elles recours à des PGD ?
Parce que ce sont des disciplines qui potentiellement aussi déposent des projets ANR, des ERC soumis à financement et donc avec l’obligation de fournir un PGD.
- Exemples de PGD en SHS : Projet Hospitam (financé ERC) : https://dmp.opidor.fr/plans/4223/export.pdf
- Projet TRANSFUNERAIRE (financé ANR) : https://dmp.opidor.fr/plans/6619/export.pdf
De façon globale, tous les projets de recherche quelles que soient les disciplines et à partir du moment où elles génèrent ou collectent des données ont un intérêt à se doter d’un PGD pour :
- prévenir les potentielles pertes de données
- gérer les traitements liés aux données personnelles ou sensibles ou des documents encore sous droit d’auteur (art contemporain par exemple).
Un "projet de thèse" peut-il être considéré comme un plan de gestion des données quelle que soit la discipline ?
Un “projet de thèse” est un excellent début de PGD, car il aborde des thématiques que l’on retrouve dans ce genre de documents (objectifs du projet de recherche, type de données qui serviront à l’appuyer, etc.).
Mais un PGD va plus loin, est plus exhaustif qu’un projet de thèse. Il aborde davantage de notions. En outre, un PGD a vocation à être complété / corrigé tout au long du doctorat (ou de tout projet de recherche), alors qu’un “projet de thèse” est un livrable ponctuel.Un étudiant en thèse doit-il faire 1 PGD pour l'ensemble de ses recherches ou 1 par manip par exemple ?
Le PGD peut tout à fait être utilisé en tant que plan de gestion de donnée d’une entité, c’est-à-dire pour un laboratoire ou une équipe de recherche. Cela permettra de mettre en place une politique de gestion des données, et d’amener les chercheurs à se poser les bonnes questions. Le PGD est une bonne pratique au quotidien de gestion des données à mettre en place dans les unités de recherche.
J’ai l’impression qu’un PGD est toujours lié à un projet de recherche. Dois-je me soucier, en tant que responsable de service, de pré-rédiger un PGD pour mon public qui produit des données numériques ?
Il est possible de rédiger un PGD sans qu’il soit lié à un projet de recherche. Le PGD permet d’appliquer de bonnes pratiques de gestion des données de recherche dans son laboratoire. Il existe même des modèles de PGD d’entité (exemple celui de l’INRAE).
Le PGD est-il forcément lié à un projet ou peut-il être mis en place pour gérer toutes les données d'une équipe ?
Le PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des « PGD d’entité » (à l’INRAE) qui établissent des plans de gestion pour une structure entière.
Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le PGD sert au centre à gérer ou prévoir les besoins en stockage. Le PGD devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul).Y a-t-il un intérêt à avoir un PGD global pour une unité de recherche? Si oui, y a-t-il des recommandations sur la manière de le concevoir ? des exemples ?
Il est possible de rédiger ce que l’on appelle un PGD d’entité.
Vous en avez deux exemples avec celui proposé par l’INRAE et celui de Science Europe (vous pouvez les retrouver dans la liste des modèles de DMP proposée sur DMP OPIDoR).
Sinon, vous pouvez partir d’un modèle conçu pour des projets et ne pas tenir compte de toutes les parties plus administratives.
L’intérêt est de pouvoir gérer les données d’une unité hors projet, par exemple d’anciennes données.
Il n’y a pas de recommandations spécifiques.Qu'en est-il pour une plateforme (ou un plateau technique) ? Quel lien avec la certification (ISO par exemple) ?
Dans le cas d’un PGD pour une plateforme, l’entité devra (comme pour un projet) décrire comment les données sont gérées, quelles ressources y sont attribuées… Vous pouvez utiliser pour cela un modèle de PGD d’entité. Il n’y a pas de lien direct avec la certification mais la rédaction d’un PGD peut sûrement aider à structurer une demande de certification.
La rédaction d’un PGD peut-elle dépendre du type de données qui sont traitées ?
Bien sûr, c’est même recommandé. Le PGD doit être adapté à vos besoins, il ne sert que de vade-mecum pour vous aider à tirer le maximum de bénéfice de vos données.
Quels sont les limites, inconvénients ou principaux problèmes rencontrés avec le PGD ?
Les chercheurs évoquent souvent les difficultés suivantes (pour lesquelles de nombreuses solutions existent) :
- Manque de connaissances (notamment sur des points comme le cadre juridique, les questions d’éthique) ;
- Manque de compétences (notamment sur des questions informatiques : formats de fichiers, protocoles de sauvegarde, standards de métadonnées…) ;
- Manque de temps (surcharge administrative supplémentaire) ;
- Manque de reconnaissance (la rédaction d’un PGD n’est pas encore assez valorisée, notamment dans les évaluations des chercheurs) ;
- Ampleur de la tâche (notamment dans les gros projets multipartenaires impliquant plusieurs établissements dans plusieurs États) ;
- Manque d’outils appropriés (notamment dans les disciplines qui utilisent plus volontiers des outils tels que LaTeX et ne voient pas l’intérêt de passer par DMP OPIDoR).
Y a-t-il des risques liés à la gestion des données et métadonnées ?
Les bonnes pratiques en matière de gestion des données existent en partie pour prévenir les risques potentiels :
- Risques informatiques / matériels : perte de données ou des métadonnées, mauvaise conservation les rendant inutilisables…
- Risques de sécurité : vol de données sensibles (personnelles, soumises à un secret quelconque…)
- Risques scientifiques :
- Conclusions erronées basées sur des données fabriquées, falsifiées ou tout simplement mal collectées / mal traitées / mal interprétées ;
- Non reproductibilité de certaines expériences si les données et métadonnées ne sont pas bien gérées ni rendues FAIR ;
- Manquements à l’intégrité scientifique dus à de mauvaises pratiques de citation des données…
- Risques juridiques : non-respect du cadre juridique des données de la recherche (données sous droit d’auteur, données personnelles, données soumises à un secret quelconque…).
Y a-t-il des précédents de fuites de données des plateformes de rédaction d’un PGD ? Sont-elles assez sécurisées ?
Il n’y a pas de précédent de fuites. Les données elles-mêmes ne sont pas hébergées sur les plateformes de rédaction de PGD. Il ne s’agit que du document qui les décrit.
Les données personnelles contenues dans les PGD (noms des chercheurs responsables des projets et qui jouent un rôle dans la gestion des données) sont conservées dans le respect du RGPD par les institutions qui portent ces plateformes (l’Inist-CNRS pour DMP OPIDoR, le Digital Curation Centre pour DMPOnline et le California Digital Library pour DMPTool).
Y a-t-il un format spécifique de PGD selon les différentes disciplines ?
Les modèles de PGD dépendent des organismes qui les conçoivent (ceux-ci peuvent alors présenter une orientation disciplinaire spécifique) ou des organismes (financeurs, établissements de tutelle…) qui en imposent l’utilisation.
Certains modèles de PGD pluridisciplinaires proposés par des financeurs comme la Commission européenne ou l’Agence nationale de la recherche peuvent convenir à des projets dans n’importe quelle discipline. Cependant, si vos recherches portent principalement sur des données à caractère sensible (recherche biomédicale par exemple), vous aurez peut-être intérêt à utiliser un modèle de PGD fourni par un établissement qui s’intéresse à ces problématiques.Quelques exemples de modèles disciplinaires :
- INRAE – Modèle Projet (Sciences agronomiques) : https://dmp.opidor.fr/template_export/32410048.pdf
- MASA (Archéologie) : https://dmp.opidor.fr/template_export/1957837363.pdf
- PACEA (Archéologie, Anthropologie) : https://dmp.opidor.fr/template_export/1210404545.pdf
- PRODIG (Géographie) : https://dmp.opidor.fr/template_export/1262828877.pdf
- ICM (Neurosciences) : https://dmp.opidor.fr/template_export/1502632890.pdf
- Inserm (Santé) : https://dmp.opidor.fr/template_export/2076044748.pdf
- Plan de Gestion de Logiciel de la Recherche (Projet PRESOFT) : https://dmp.opidor.fr/template_export/1241559633.pdf
La Commission européenne a établi un modèle de PGD qui lui est propre, un autre organisme peut-il utiliser le même modèle sans en avoir l'autorisation préalable ?
Oui tout à fait. Tous les organismes auteurs de modèles de PGD les proposent dans un format ouvert, librement utilisable par tout un chacun.
Ces modèles de PGD sont disponibles sur les sites internet de chaque organisme, mais aussi sur des plateformes centralisées telles que DMP OPIDoR.Quel est le modèle exigé par les financeurs ?
Les financeurs peuvent proposer un modèle mais aucun modèle n’est obligatoire. Vous pouvez choisir celui qui vous convient le mieux, par exemple celui de votre établissement s’il en propose un.
Je souhaiterais créer un formulaire de PGD sur le modèle de l'ANR pour mon université, comment je pourrais le faire ?
Vous pouvez contacter l’équipe OPIDoR (info-opidor[at]inist.fr) pour mettre en place un modèle personnalisé avec des recommandations spécifiques à votre université ou étudier les options les plus adaptées.
Quid d'un PGD pour quelque chose de moins strictement structuré, comme une thèse ou les travaux d'une équipe ? Avez-vous des retours d'expérience, des conseils ou formations à ce propos ?
Le PGD peut tout à fait être mis en place pour gérer les données d’une équipe et ce, en dehors d’un projet. Il existe d’ailleurs des modèles de PGD « d’entité » (à l’INRAE notamment) qui permettent d’établir des plans de gestion pour une structure entière.
Dans d’autres cadres (centre d’archives, ou d’hébergement de données) le PGD sert au centre à gérer ou prévoir les besoins en stockage. Le PGD devient ainsi un outil pour anticiper les besoins (en stockage, volume d’heures de calcul…).
En ce qui concerne les thèses, le PGD est de plus en plus souvent utilisé car c’est un bon outil de gestion et de planification.
Comment définir un jeu de données ?
” Un jeu de données peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent “. Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée.
Source : Gaillard Rémi. De l’open data à l’open research data : quelle(s) politique(s) pour les données de recherche ? Janvier 2014. https://www.enssib.fr/bibliotheque-numerique/notices/64131-de-l-open-data-a-l-open-research-data-quelles-politiques-pour-les-donnees-de-recherche
Doit-on parler de données brutes ou de données traitées ? Les données brutes d'un type unique pouvant générer divers types de données traitées.
Les deux ! Dans le PGD, vous devez expliquer le processus de création ou collecte de vos données. Donc la façon dont vous traitez les données.
Doit-on considérer les données brutes et les données analysées/traitées de la même manière ? Elles n'intéressent pas les mêmes personnes. Comment fait-on ?
Le PGD doit contenir les informations sur toutes les données produites, brutes et traitées. Cependant leur gestion peut être différente. Par exemple concernant le dépôt et le partage, les données brutes et les données traitées peuvent être déposées dans des entrepôts différents, avec des conditions de partage différents. Pour des raisons de coûts, il pourra parfois être plus judicieux de ne partager que les données brutes accompagnées de toutes les informations sur les traitements (méthodes, scripts..). Inversement si les données brutes sont facilement reproductibles à faible coût, il sera peut-être plus intéressant de ne diffuser que les données traitées.
J’ai l’impression de ne pas avoir de données. Est-ce vraiment le cas ?
Les données peuvent revêtir une multitude de formes : quantitatives, qualitatives, relevés de terrain sous forme de fichiers tabulés, entretiens enregistrés, audio, vidéo, etc. Il arrive que, pour certains projets, le terme de « données » paraisse inadapté. La définition est large (voir la définition des données de la recherche ci-dessus).
En philosophie, par exemple, on peut avoir l’impression de ne pas en produire. Pour autant, il existe dans cette discipline de nombreux matériaux produits préalablement à la publication d’un article. Par exemple, une base de données compilées de textes de philosophes antiques lemmatisés. Si le fait de rédiger un plan de gestion de données ne vous semble pas nécessaire, alors il faut remettre en perspective les matériaux produits avant d’écrire un article. Sur quoi vous appuyez-vous pour le réaliser ? Vous pouvez penser à tous les matériaux auxquels vous tenez vraiment et qui seraient irremplaçables ou très longs à recréer, s’ils n’étaient pas sauvegardés ou conservés en sécurité. Ainsi, les sources réutilisées peuvent être considérées comme des données, mais aussi les notes, les brouillons, les logiciels, les flux de travail, les protocoles. Tous ces ensembles peuvent former ensemble un jeu ou des jeux de données cohérents, à partir desquels un PGD pourrait être rédigé.
Source : Couperin. Groupe de travail science ouverte. Définitions et foire aux questions. https://gtso.couperin.org/gtdonnees/definitions-et-bonnes-pratiques/
Un PGD peut-il concerner l'ensemble des données traitées au cours de la thèse (puisqu'il est évolutif) où faut-il classifier en fonction du secteur abordé (sujet) ?
Un PGD doit idéalement concerner absolument toutes les données collectées, produites, réutilisées, traitées, manipulées, comparées, analysées etc. au cours de la thèse. Et si vous avez oublié d’inclure certaines catégories de données au début de votre projet, vous pouvez les rajouter à tout moment, car le PGD doit évoluer tout au long de votre projet pour en refléter la réalité.
En commençant la rédaction de votre PGD sur DMP OPIDoR, il vous sera demandé d’identifier vos “produits de recherche”: il s’agit justement des différents ensembles de données que vous allez collecter, produire etc. Le fait de “découper” ses matériaux de recherche en plusieurs “produits” sert à indiquer des spécificités de traitement entre ces produits. Dans un projet pluridisciplinaire, par exemple, on pourrait imaginer que les produits n’ont pas vocation à être déposés dans les mêmes entrepôts, par exemple, ni à être décrits selon les mêmes standards de métadonnées : d’où l’intérêt d’agencer les réponses aux questions posées par le PGD en produits distincts.
Si vous manipulez des types de données très différents, certaines rubriques du PGD pourront être cruciales pour un type mais pas pour l’autre (ex.: les enjeux éthiques ne seront probablement pas très importants si vous manipulez des corpus de textes antiques, mais ils le seront si vous analysez les notes des élèves qui auront eu à étudier ces textes).Est-ce que ça concerne toutes les données ? Par exemple celles issues de contrats avec industriels ?
Oui, le PGD concerne toutes les données produites ou réutilisées au cours d’un projet, quel que soit leur type ou leur nature. Par contre, si vos données sont soumises à restrictions (brevet par exemple), vous devez indiquer pourquoi vous ne pouvez pas les rendre publiques.
Le PGD concerne-t-il les données qui ne seront partagées qu'entre membres du projet et ne seront pas rendues publiques (ex. des projets R et D en sciences de l'ingénieur) ?
Oui, vous pouvez décrire ce type de données dans votre PGD si vous pensez que c’est pertinent et utile à la compréhension du projet.
Pourriez-vous préciser la relation entre données et produit de recherche ? Sur quels critères sépare-t-on les données en "produits de recherche" ? (données partagées vs données confidentielles ? ou différents types de données ?)
Les données de recherches sont les données que vous créez, analysez pendant votre projet de recherche et qui servent à valider les résultats de vos recherches. Pendant votre projet il se peut également que vous créiez des produits de recherche pouvant présenter un potentiel de réutilisation comme par exemple un code informatique, des modèles (économiques ou autres), des protocoles …
Les produits de recherche sont à compléter une fois les produits obtenus ou cela peut être aussi de la prévision ?
Vous pouvez tout à fait anticiper la saisie de vos produits de recherche. Vous pourrez par la suite compléter votre saisie au fur et à mesure de l’avancée du projet.
Quel est le niveau de détail demandé pour les produits de la recherche (si plusieurs patients, plusieurs produits?). Si lors d'une expérience on fait l'acquisition de graphes et d'images, cela fait deux produits ?
Dans le PGD, vous déclarerez tous les produits de recherche qui vont nécessiter une gestion spécifique (processus de création différents, natures différentes, formats différents).
Un type de données = un produit de recherche.Est-ce que, par exemple, on peut dire "courbes électrochimiques" pour indiquer qu'on aura des centaines de courbes dans un projet ?
Tout à fait. Dans votre PGD, l’important est de décrire la nature et le type des données que vous allez produire ou réutiliser. Il n’est pas nécessaire d’en donner le nombre précis.
Un échantillon biologique (du type sang, tumeur...) recueilli au cours d'une recherche pour être analysé peut-il être considéré comme un produit de recherche ? Est-ce différent si l'échantillon est conservé à l'issue de la recherche (dans une biothèque) ?
Un échantillon biologique pris isolément n’est pas considéré comme un produit de recherche.
S’il fait partie d’une collection et qu’il est conservé à l’issue de la recherche, dans ce cas, l’ensemble des échantillons utilisés pour cette recherche peut être considéré comme un jeu de données et donc comme un produit de recherche. L’idée est que de ce fait le produit de recherche peut être géré et partagé.Dans les produits de recherche, il y a les " workflow ". Auriez-vous un exemple de workflow qu'on trouve souvent dans les PGD ?
Cela concerne principalement le traitement des données (souvent des traitements informatiques).
Exemples :
- Dans le PGD d’entité sur la plateforme Metabolome de Bordeaux :
Workflow : Séquence de traitement de données – ex fichiers de macrocommandes issues de NMRProcFlow, Jupyter notebooks. - Dans le PGD de l’infrastructure OLA :
Les workflow des principales données du SI sont ci-dessous :
– pour la physico-chimie : Workflow-traitement-Physico-Chimie-OLA.png
– pour la détermination et le comptage du zooplancton : Workflow-analyse-du-zooplancton.png
– pour l’insertion de ces données vers le SI OLA : Workflow-insertion-des-donnees-vers-le-SIOLA.png
Dans DMP OPIDoR vous pouvez retrouver les définitions des différents types de produits de recherche : https://dmp.opidor.fr/static/research_output_types.
Voici la définition (traduction) du type Workflow : série structurée d’étapes pouvant être exécutées pour produire un résultat final, offrant aux utilisateurs un moyen de mettre en oeuvre leur travail de manière plus reproductible.- Dans le PGD d’entité sur la plateforme Metabolome de Bordeaux :
Je participe à un projet européen ou ANR et je ne sais pas évaluer la volumétrie de métadonnées en début du projet. Est-ce que je pourrai l’augmenter, la diminuer en cours de projet ? Comment ?
Il vous est demandé d’évaluer la volumétrie de vos données et métadonnées associées et de l’indiquer dans la 2eme partie de votre PGD. Cette évaluation peut en effet s’avérer difficile en début de projet. Le PGD est un document évolutif qui peut être complété tout au long de votre projet. C’est la version finale qui devra indiquer la volumétrie exacte des données et métadonnées en lien avec votre projet.
Peut-il y avoir plusieurs personnes responsables d'une production donnée ? Chaque partenaire qui génère un jeu de données peut-il être responsable de sa mise à jour ?
Il n’y a qu’une seule personne contact possible pour chaque produit de recherche. Il est donc tout à fait possible de confier la responsabilité de chaque jeu de données à des personnes différentes.
Cependant, on peut définir plusieurs responsables, par exemple, du stockage ou de la production ou de la collecte des données…Pour quelles raisons écarterait-on l’utilisation de certaines sources de données ?
Par exemple :
- Si vous vous rendez compte qu’elles ont été mal collectées / mal produites (lacunes dans les données, mauvais étalonnage ou mauvais paramétrage des instruments, biais induit par la personne qui a réalisé la collecte…)
- Si vous ne savez pas exactement dans quelles conditions des données existantes ont été produites (peut-être ont-elles des vices cachés)
- Si elles ont été collectées d’une manière illicite (ex.: piratage de bases de données, interdit notamment dans le cadre du text and data mining)
- Si le traitement prévu pour des données personnelles ne respecte pas le RGPD
- Si l’utilisation prévue des données sous droit d’auteur porte atteinte à l’intégrité de l’œuvre (non-respect des droits moraux des auteurs)
Les logiciels développés au cours d'un projet font-ils partie des " données " ? Faut-il les inclure dans le PGD ?
Cela dépend de votre approche, de votre projet de recherche. Le logiciel peut jouer un triple rôle dans la recherche :
- Il sert d’outil dans de nombreux domaines, en traitant efficacement divers types de données pour construire et tester des modèles visant à étayer ou invalider des hypothèses.
- Il peut constituer en lui-même un résultat de recherche, en tant que preuve d’existence d’une solution algorithmique efficace pour un problème donné.
- Il peut être lui-même objet de recherche. En particulier, la communauté scientifique s’intéresse aux modes de développement des logiciels et à la preuve de leurs propriétés, en lien notamment avec la transparence et la confiance dans les traitements informatisés.
Dans tous les cas, il est recommandé de les inclure dans le PGD et de déposer les codes sources dans un entrepôt (indiquer l’entrepôt choisi dans le PGD).
A noter qu’il existe des modèles de PGD spécialement dédiés aux logiciels comme le modèle PRESOFT.
Les éléments qui sont définis dans un PGD doivent-ils être définis uniquement dans le PGD ou bien se trouvent-ils aussi dans d’autres documents ?
Le PGD permet de formaliser au sein d’un document unique des informations utiles au suivi du projet et à la bonne gestion des résultats obtenus, auparavant dispersées entre divers acteurs ou documents. Par exemple, dans l’accord de consortium signé entre les partenaires d’un projet européen, on trouve des informations qui pourront être reprises dans le PGD.
L’objectif à terme est de rendre les PGD entièrement interopérables avec différents outils, afin de limiter au maximum la double saisie des informations (ex.: la rubrique “coûts” du PGD serait automatiquement alimentée par le logiciel de gestion budgétaire et comptable du laboratoire).La création d'un PGD semble plus indiquée pour les doctorats en sciences dures. Comment l'adapter aux sciences dites douces telles que le droit ?
Tous les projets de recherche qui manipulent des données auraient intérêt à se doter d’un PGD. La base de la réflexion consiste à prendre le temps de s’interroger sur ce que peuvent être les données de sa thèse / de son projet :
- Quels sont les éléments, numériques ou non, auxquels je tiens vraiment et qui seraient irremplaçables ou très longs et complexes à remplacer en cas de perte, de vol ou de problème technique ?
- Si je devais relire et évaluer les travaux de collègues qui travaillent sur un sujet de recherche similaire au mien, de quoi aurais-je besoin pour vérifier leurs résultats, reproduire leurs expériences ou tout simplement reproduire leur cheminement intellectuel ?
Toutes les réponses à ces questions sont recevables, y compris “je ne manipule que des sources secondaires / de la bibliographie / les publications d’autres chercheurs / des textes de loi publics”.
Le PGD est ensuite utile pour se demander si les données en question impliquent des enjeux particuliers en termes de collecte, documentation, stockage, etc. Il est tout à fait envisageable d’expliquer dans ces parties du PGD que vos données ne sont pas concernées, en justifiant cet argument.Si on dépend de plusieurs tutelles, que doit-on indiquer ?
Il est conseillé de déclarer votre organisme de tutelle principal.
Vous pourrez suivre les recommandations des autres organismes de rattachement en les sélectionnant avant de rédiger votre PGD, s’ils sont disponibles dans la liste des organismes offrant des recommandations.Comment traiter les données matérielles (telles que des échantillons de produits synthétisés dans le cadre d'un projet de recherche en chimie organique, par exemple) ?
Le périmètre de ce qu’on entend par “ données de la recherche ” varie d’un établissement / financeur à l’autre. Mais d’une manière générale, on peut retenir une définition très pragmatique des données : « tous les matériaux analysés, interprétés ou utilisés lors d’une recherche, quelle que soit leur origine et la méthode utilisée » (M. Saby). Les données analogiques (non numériques ou non numérisées) ont toute leur place dans cette définition pragmatique (qui va différer de la définition strictement juridique des données).
Toutes ces données matérielles (échantillons, cellules, organismes génétiquement modifiés, réactifs, prototypes, tessons, fragments d’œuvres d’art…) doivent faire l’objet d’une réflexion approfondie et être incluses dans le PGD. Toutes les questions relatives à la bonne gestion des données peuvent les concerner :
- Comment seront-elles produites / collectées ?
- Comment seront-elles stockées ?
- Qu’adviendra-t-il d’elles à la fin du projet ? Etc.
Il est évident que ces données ne pourront pas être diffusées aussi largement que pourraient l’être des données numériques ou numérisées. Dans les cas où il n’est pas possible de rendre ces données analogiques Faciles à trouver, Accessibles, Interopérables et Réutilisables, ce sont les métadonnées décrivant ces données qui devront être enrichies et rendues FAIR.
En ce qui concerne la collecte des données, j'ai une question sur un exemple pour une plateforme : 1) les données sont produites par des instruments. 2) Ces données sont analysées en première étape par un logiciel constructeur. Elles sont quantifiées en seconde étape par des logiciels maison. Que faut-il préciser dans le PGD ? - Pour 1 et 2, uniquement le type de matériel et la version du logiciel constructeur ? Pour 3, uniquement la version du logiciel maison ou celui-ci doit-il être publié aussi : article donnant les formules de calcul ou faut-il un dépôt de logiciel public sous une licence logicielle open source ?
Il faut préciser tous les types de matériels et logiciels utilisés.
Il est recommandé de déposer ses codes sources dans Software Heritage (archive universelle de logiciels qui garantit la pérennité des codes sources).Le PGD doit-il inclure les informations nécessaires sur les futures publications pour l'accès ouvert ?
Il est possible d’indiquer le lien entre les données et les publications qui vont être réalisées mais le PGD est bien centré sur la gestion des données elles-mêmes. À noter que son périmètre s’étend à toutes les données, pas seulement celles qui donneront lieu à une publication.
Doit-on élaborer un PGD lors de la réutilisation de données n’ayant initialement pas fait l’objet d’un PGD ? (Cas des données plus anciennes)
Oui, car vous allez à nouveau agir sur ces données. Comment les sélectionnerez-vous pour les réutiliser ? Où les stockerez-vous ? Quels traitements allez-vous leur appliquer ? Allez-vous les conserver après votre projet ? Etc.
S’il vous manque des informations sur le contexte de production de ces données, le PGD est justement l’occasion d’expliquer ces lacunes en détails, afin que vous ne puissiez pas être pénalisé ensuite si un problème est mis au jour.La provenance des données doit-elle toujours être documentée ? Doit-on mentionner pour chaque donnée la personne ayant réalisé la collecte ?
Oui, ce sont de bonnes pratiques en recherche académique.
Comment s’assurer que la documentation est créée ou saisie de façon uniforme tout au long d’un projet ?
À vous de prévoir ces aspects le plus en amont possible pendant votre projet, et de spécifier dans le PGD les conditions dans lesquelles vous souhaitez produire cette documentation. N’hésitez pas à proposer des exemples précis, à joindre en annexe du PGD.
Prévoyez aussi comment effectuer le suivi de la bonne application de ces recommandations.Qu'est-ce qu'un logiciel de documentation ?
C’est un outil ou une application qui facilite la production de métadonnées et le dépôt des données dans un entrepôt.
La deuxième section " Documentation et qualité des données " est assez difficile à appréhender. Le vocabulaire est très technique. Selon les disciplines, il y a des pratiques plus ou moins standardisées. Comment faire pour accompagner/former les personnes contribuant au PGD quand il n'y a pas de personnel expert dans ce domaine ?
Vous pouvez vous adresser à l’équipe OPIDoR en cas de difficultés pour compléter cette rubrique et si vous avez une question précise.
Pour familiariser les personnes que vous accompagnez à ces notions, vous pouvez utiliser les ressources de DoRANum. Cette plateforme est conçue pour vous accompagner pas à pas et le vocabulaire est bien défini.
Des passeports édités par le CoSo peuvent également vous aider :
https://www.ouvrirlascience.fr/category/ressources/Contrôle qualité : quels sont les critères/paramètres de ce contrôle ?
Ces critères varient énormément d’une discipline à l’autre. Apprendre ces critères fait partie de la formation de jeune chercheur : renseignez-vous auprès de chercheurs expérimentés dans votre domaine.
Quelques critères généralistes :- Vérifier que les données ont été convenablement collectées (en ayant documenté le processus de collecte)
- Vérifier que les traitements qu’ont subi les données ont été entièrement et correctement décrits
- Favoriser un contrôle par une personne ou une instance tierce
- Etc.
N’hésitez pas non plus à consulter des PGD rédigés, ainsi que cette piste bibliographique :
Batifol Véronique, Burnel Laurent, Johany François. “QualiNous”: un collectif pour accompagner les bonnes pratiques de gestion et de partage des données au Département SAD de l’Inra. Le Cahier des Techniques de l’INRA. 26 février 2019. https://novae.hub.inrae.fr/content/download/5248/53479?version=2Comment vérifier la véracité des données que l’on souhaite exploiter (ex.: sources issues majoritairement de doctrines ou de lois ou autres supports différents d'études quantifiées) ?
Ce qui fait la qualité ou la véracité d’une donnée varie d’une discipline à l’autre. Pensez notamment à consulter les métadonnées et la documentation relative au contexte de création / collecte des données qui vous sont ensuite mises à disposition.
N’hésitez pas à prendre contact avec le(s) producteur(s) des données pour en savoir plus si vous avez un doute.Quelles sont les informations demandées sur le traitement des données ? A quel point faut-il rentrer dans les détails ?
Idéalement, il faut fournir le plus de détails possible. Demandez-vous de quelles informations vous auriez besoin si vous étiez extérieur à votre projet de recherche, et que vous deviez reproduire votre expérience / refaire votre cheminement intellectuel vingt ans plus tard.
Les informations à fournir concernent aussi bien des aspects scientifiques (quel protocole de collecte ? quelles questions de recherche ? quelles adaptations au terrain ? etc.) que des aspects techniques (quel matériel ? quels réactifs ? quels paramètres ? quelle périodicité ? etc.) ou informatiques (quelle version du logiciel ? quel éditeur ? quel script ? etc.). Ce sont des éléments indispensables à la robustesse de vos résultats scientifiques, y compris dans des disciplines non expérimentales où il n’est pas question de reproduire des expériences telles quelles mais d’au moins se mettre dans la peau d’un chercheur pour reproduire et comprendre son raisonnement.
Pour avoir une idée des détails à fournir dans vos disciplines, n’hésitez pas à lire des PGD rédigés.Comment est géré l'embargo par rapport au journal où l'article est publié ?
Si les données que vous décrivez dans votre DMP vont faire l’objet d’une publication et que vous souhaitez la mentionner, dans ce cas, vous indiquerez uniquement la citation ou le DOI. L’embargo restera alors celui qui sera indiqué sur le site du journal. Comme pour les publications, vous pouvez mettre un embargo sur les données que vous envisagez de partager et préciser des dates d’embargo au niveau du dépôt dans un entrepôt de données.
Comment se renseigner sur les coûts ?
Quelques pistes pour évaluer les coûts (ne pas oublier les coûts en temps et en ressources humaines) :
- Clot Nathalie. Combien ça coûte ? BU Angers. 31 décembre 2019. https://blog.univ-angers.fr/buapro/2019/12/31/combien-ca-coute-2/
- Cruse Trisha. Provide budget information for your data management plan. https://dataoneorg.github.io/Education/bestpractices/provide-budget-information
- EPFL Library. Cost Calculator for Data Management. 20 février 2022. https://costcalc.epfl.ch/
- O’Connor Ryan, Delipalta Alexandra, Jones Sarah. What will it cost to manage and share my data? 21 mai 2020. https://doi.org/10.5281/zenodo.3837716
- OpenAIRE. How to identify and assess Research Data Management (RDM) costs. https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costs
- UK Data Service. Data management costing tool and checklist. 21 juin 2022. https://dam.ukdataservice.ac.uk/media/622368/costingtool.pdf
- Utrecht University. Costs of data management. https://www.uu.nl/en/research/research-data-management/guides/costs-of-data-management
Peut-on distinguer les coûts du projet et au-delà du projet (hébergement...) ?
Les coûts dans un PGD sont tous les coûts liés à la gestion des données de recherche.
Des coûts liés à la collecte des données (coût d'une étude utilisateur par exemple) doivent-ils apparaître dans la partie ressources du PGD ?
Oui, tous les coûts peuvent être indiqués. Dans DMP OPIDoR, lorsque vous choisissez un modèle structuré, il y a un nouvel onglet sur le budget qui récapitule tous les coûts.
Pour connaitre les types de coûts éligibles à l'ANR, nous connaissons le règlement financier. Avez-vous des exemples pour conseiller et aider les chercheurs ? Le règlement est très général. Ce qui serait intéressant, ce serait les échanges de bonnes pratiques sur le sujet.
Dans le PGD, il n’est question que des coûts liés à la gestion des données de recherche.
Recommandations :
- Expliquer comment les ressources nécessaires (par exemple le temps) à la préparation des données pour le partage/préservation (curation des données) ont été chiffrées. Examiner et justifier soigneusement toutes les ressources nécessaires pour diffuser les données.
- Il peut s’agir de frais de stockage, de coût matériel, de temps de personnel, de coûts de préparation des données pour le dépôt, de frais d’entrepôt et d’archivage.
- Indiquer si des ressources supplémentaires sont nécessaires pour préparer les données en vue de leur dépôt ou pour payer tous les frais demandés par les entrepôts de données. Si oui, précisez le montant et comment ces coûts seront couverts.
Quel budget est éligible pour le stockage, l'archivage, etc. ?
Pour les projets financés par l’ANR, toutes les dépenses liées à la gestion des données sont éligibles durant le projet : acquisition, collecte, stockage, personnel dédié à la gestion des données… En cas de recours à un tiers, le coût de stockage des données est admissible jusqu’à 5 ans après la date de fin scientifique du projet, sous réserve que le contrat avec ce tiers soit conclu avant la fin scientifique du projet.
(Source : Gala Garcia Reategui. La politique science ouverte de l’Agence Nationale de la Recherche et le DMP. https://octaviana.fr/document/VUN0041_02#?c=&m=&s=&cv=)Comment avoir une visibilité sur le financement ? (En droit il n'est pas nécessaire d'avoir un financement pour effectuer une thèse. Le financement et la capacité à faire une thèse sont deux choses distinctes)
Les dépenses à prévoir pour la gestion quotidienne des données, ou du moins, pour rendre les données ouvertes et FAIR, peuvent être prises en charge par les organismes de financement de la recherche.
Seul prérequis : fournir une estimation suffisamment solide de ces futures dépenses au moment de la réponse à appels à projet, pour l’inclure dans la demande de financement.Comment estimer le temps qui sera alloué à la gestion des données ?
Ce temps est très difficile à estimer. Il dépend du type de données, des infrastructures mises à disposition ou non par les institutions (entrepôt), des moyens alloués à chaque projet (financier, humains) et des compétences des participants aux projets.
Vous pouvez par ailleurs consulter cette page web où sont regroupés quelques liens vers des outils ou checklists concernant l’évaluation des coûts (financiers et en temps) de la gestion des données de recherche dans un projet.
Quelle documentation et quelles métadonnées fournir avec les données ?
Tout va dépendre de votre type de données. Vous n’aurez pas forcément besoin de fournir des métadonnées de géolocalisation pour des données qui décrivent les réactions de bactéries face à des antibiotiques, par exemple.
Commencez par repérer les pratiques dans votre discipline et pour le type de données que vous produisez : les métadonnées à fournir sont présentées dans le respect de certains standards. À vous ensuite de produire vos propres métadonnées, en les rendant conformes à ces standards.Exemple de métadonnées importantes quel que soit le type de données :
- Description du contenu intellectuel
- Titre
- Résumé
- Mots-clés
- Caractéristiques techniques
- Format
- Logiciel utilisé pour la production ou le traitement
- Version
- Taille
- Droits liés
- Producteur des données
- Droits d’accès
- Droits de réutilisation
- Relations impliquant les données
- A pour partie…
- Est une partie de…
- A donné lieu à la publication…
- Description du contenu intellectuel
Y a-t-il des métadonnées indispensables pour déposer ?
En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. […] Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s’appuient sur des vocabulaires contrôlés (https://schema.datacite.org).
Il est en général nécessaire de suivre les standards et recommandations relatifs à la discipline et/ou à la thématique des données. […] Si vous ne connaissez pas les métadonnées de votre domaine, […] consultez les sites suivants :
– RDA Metadata Standards Catalog : https://rdamsc.bath.ac.uk/
– FAIRsharing : https://fairsharing.org/standards/
– DCC : http://www.dcc.ac.uk/resources/metadata-standardsSource : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/faq.html
Les métadonnées métiers sont-elles indispensables pour déposer un jeu de données ?
Il est indispensable de documenter et d’expliquer les termes utilisés pour nommer les données. […]
Il est possible de s’appuyer sur un data paper pour porter à connaissance les métadonnées métiers.Source : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/faq.html
Les métadonnées sont de différents types et il est préférable d'utiliser des vocabulaires en fonction des disciplines. Les partenaires doivent être d'accord. Existe-t-il des supports là-dessus ?
Il existe des ressources dans DoRANum dans la thématique Métadonnées, Standards, Formats : https://doranum.fr/metadonnees-standards-formats/
Vous pouvez également vous adresser aux personnes qui peuvent vous accompagner dans les universités, auprès des ateliers de la donnée ou directement auprès du Service OPIDoR : info-opidor[at]inist.frExiste t-il un référentiel pour les données de recherche "terme sujet" pour les entrepôts, dans le domaine de la chimie ?
Voici les informations qui permettent d’établir un référentiel en fonction des sujets des données de recherche d’un laboratoire :
- Nomenclature :
IUPAC gold book (https://goldbook.iupac.org/)
- Vocabulaire Chimie et Matériaux :
- Vocabulaires plus généraux avec une partie consacrée à la chimie :
Rameau (http://rameau.bnf.fr/)
chimie (https://catalogue.bnf.fr/ark:/12148/cb119704650)Thesaurus Eurovoc
36 SCIENCES
3606 Sciences naturelles et appliquées
(https://publications.europa.eu/fr/web/eu-vocabularies/th-top-concept-scheme/-/resource/eurovoc/100141?target=Browse&)GEMET
chimie (https://www.eionet.europa.eu/gemet/fr/theme/6/concepts/)LCSH, Library of Congress Subjects Headings
chimie (http://id.loc.gov/authorities/subjects/sh85022986.html)
chimie physique (http://id.loc.gov/authorities/subjects/sh85023027.html)- Thesaurus :
Loterre : Chimie (https://skosmos.loterre.fr/37T/fr/)
- Ontologies :
CHEBI, Chemical Entities of Biological Interest
(https://www.ebi.ac.uk/ols/ontologies/chebi)REX, Physico-chemical process
(https://www.ebi.ac.uk/ols/ontologies/rex)CHMO, the chemical methods ontology
(https://www.ebi.ac.uk/ols/ontologies/chmo)FIX, an ontology of physico-chemical methods and properties
(https://www.ebi.ac.uk/ols/ontologies/fix)CHEMINF, Chemical Information Ontology
(https://bioportal.bioontology.org/ontologies/CHEMINF)MOP, Molecular Process Ontology
(https://bioportal.bioontology.org/ontologies/MOP)RXNO, Name Reaction Ontology
(https://bioportal.bioontology.org/ontologies/RXNO)Concernant les métadonnées, DoRANum peut-il aiguiller sur les possibilités d'implémenter des métadonnées spécifiques qui n'existent dans aucun standard préexistant ? L'idée serait de pouvoir implémenter ces données spécifiques à un standard de type Dublin Core.
Dans un premier temps, faites vous accompagner par des documentalistes ou des data librarians.
Vous pouvez aussi consulter la sur les schémas de métadonnées ainsi que la ressource « Outils de création de métadonnées ».Comment, concrètement, associer des métadonnées à des données ?
Des métadonnées techniques sont créées automatiquement et embarquées avec le fichier de données (type d’élément, taille, date de création …).
Des métadonnées externes sont ajoutées au moment du dépôt dans un entrepôt de données. Lors du dépôt des données, les entrepôts proposent des formulaires à travers une interface (champs de métadonnées à renseigner) et souvent des API pour charger les métadonnées, qui peuvent être renseignées préalablement dans des tableurs. Certains entrepôts mettent à disposition des outils pour créer les métadonnées.
Les champs de métadonnées proposées par les entrepôts s’appuient en général sur des standards génériques (comme Dublin Core ou Datacite) ou plus spécifiques (comme EML en écologie, DDI en sciences sociales…). La richesse des métadonnées est un critère de choix de l’entrepôt.
A noter également que lors de l’attribution de l’identifiant pérenne DOI à un jeu de données, un fichier comportant des métadonnées suivant le schéma de Datacite doit être fourni. Ces métadonnées permettront de rechercher le jeu de données grâce au moteur de recherche DataCite Search.Lorsqu’on dépose des données dans un entrepôt, donne-t-on accès juste aux tableaux de données ou doit-on les accompagner d’autres informations (critères de recueil de données…) ?
Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.
Les BU interviennent-elles pour la qualité des métadonnées ?
Il y a dans chaque établissement/structure, des personnes pour vous accompagner dans la gestion de vos données (et donc le renseignement des métadonnées), notamment les professionnels de l’information scientifique et technique (IST), mais aussi des informaticiens par exemple ou une cellule d’accompagnement spécifique. Il faut vous renseigner pour savoir qui peut vous accompagner en local et possède ces connaissances pour vous aider.
Comment le lien est-il fait entre le DOI et le jeu de données ?
Le DOI est une URL gérée. Le DOI est un code alphanumérique, intégrant des métadonnées et une URL. Cette URL peut soit vous diriger directement vers le jeu de données soit vers une landing page (page de présentation) à partir de laquelle l’accès aux données est géré (accès ouvert à tous, restreint à une communauté…). Si l’URL venait à changer, vous devez, par obligation contractuel, la mettre à jour.
Le DOI est-il normé ?
Le DOI est normé suivant la norme ISO 26324 : https://www.iso.org/obp/ui/#iso:std:iso:26324:ed-1:v1:en ; https://www.iso.org/fr/standard/81599.html
Qu’est-ce qu’une landing page ? où se trouve-t-elle ?
Lorsque vous cliquez sur un DOI vous êtes dirigé soit sur l’URL de la ressource directement soit sur l’URL d’une page de présentation (la landing page) que vous avez créée et stockée préalablement (dans un entrepôt ou un serveur de votre choix). Cette page de présentation permet de fournir des informations supplémentaires sur la ressource (métadonnées, format de citation souhaité…) et sur les conditions d’accès à cette ressource (accès restreint, embargo,….).
Si on veut ouvrir ses données, faut-il avoir absolument un DOI ?
Dans le mouvement de l’Open Science l’attribution d’identifiants pérennes est fortement recommandée. C’est un élément important pour rendre les données FAIR. L’identifiant peut être un DOI ou tout autre identifiant unique et persistant (Handle, ARK…).
Le PGD oblige-t-il à mettre en place des DOI ?
Il est recommandé d’avoir un identifiant pérenne mais pas forcément un DOI. Il existe d’autres identifiants pérennes comme Handle, ARK…
A partir de quand doit-on donner un identifiant pérenne (PID) à une donnée ? Selon quelle granularité ?
Il est recommandé de n’attribuer un PID à une donnée (ou un jeu de données) que lorsque celle-ci est définitivement validée et prête à être publiée. La granularité doit être assez fine afin de permettre une citation précise. Par exemple, si dans une publication un jeu de données est cité, son DOI doit pointer vers le jeu de données lui-même et non pas vers la totalité de la base de données qui le contient ou vers la collection à laquelle il appartient. On peut attribuer un DOI au jeu de données, un autre à la collection et un 3ieme à la base de données. Ces DOI seront reliés entre eux grâce aux métadonnées.
J'ai fait évoluer mon jeu de données, dois-je changer de DOI ?
Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.
- En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
- En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
- Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
- Exemple sur le portail Dataverse de Harvard
Le DOI n’est-il que pour les données ? Peut-on avoir des DOI pour autre chose ?
DataCite fournit les solutions les mieux adaptées pour l’identification et la citation des données de recherche dans leur définition la plus large : revues, articles de revue, audiovisuel, collection, data paper, événement, image, ressource interactive, modèle, objet physique, service, logiciel, son, workflow… L’attribution de DOI aux publications est effectuée par les éditeurs des revues via l’association ‘Crossref’.
Les informations sur les données sont-elles en accès ouvert ou non ?
Les métadonnées (informations sur les données) fournies lors de la création d’un DOI sont en accès libre. Elles sont stockées par DataCite et exposées, via des protocoles appropriés, au moissonnage par des moteurs de recherche dédiés. DataCite ne stocke pas les données mais uniquement les métadonnées.
Un DOI est-il généré sur GitHub ?
Non, lorsque vous déposez une ressource sur GitHub, il n’y a pas d’attribution de DOI à la ressource.
Si on change d’entrepôt, peut-on garder le même DOI ?
Lorsque vous déposez une ressource dotée d’un DOI dans un entrepôt :
- Soit l’entrepôt n’attribue pas lui-même de DOI, vous gardez donc votre DOI ;
- Soit l’entrepôt attribue des DOI. Vérifiez alors auprès de ce nouvel entrepôt la possibilité de garder votre DOI. Certains le permettent (par exemple Zenodo).
Concernant la redondance des identifiants pérennes (PID), est-il nécessaire d’avoir un DOI si on a déjà un identifiant HAL ?
Il est tout à fait possible d’avoir plusieurs identifiants dans HAL. On peut rajouter un DOI ou tout autre identifiant (par exemple un PMID). L’avantage du DOI est qu’il est internationalement reconnu.
Parmi les possibilités d’attribution de DOI, le cas des codes sources est-il prévu ? Dans ce cas, comment gérer les différentes versions ?
On peut octroyer des DOI aux codes sources. Il faut alors attribuer la valeur « Software » à la propriété resourceType des métadonnées. Cependant, il n’y a pas de gestion automatique des versions par DataCite. Software Heritage offre cette possibilité.
Comment obtenir un DOI pour un PGD sans le déposer dans un entrepôt ?
Si votre institution a un compte DataCite permettant d’attribuer des DOI, vous pourrez attribuer un DOI à votre PGD. Sinon, pour établir le contrat, il faut contacter le service de l’Inist-CNRS en charge de l’attribution de DOI via le portail OPIDoR. Ce service procédera à l’ouverture d’un compte DataCite, et proposera un accompagnement dans la création de DOI.
Quel identifiant de partenaire recommandez-vous ? GRID, ROR, RNSR , autre... ?
Aucun identifiant en particulier n’est requis. Il s’agit de renseigner un identifiant pour chaque partenaire associé au projet. S’il s’agit d’un chercheur, ce sera probablement un ORCID, si c’est un partenaire institutionnel, ce peut être un ROR… Dans DMP OPIDoR, un menu déroulant propose une sélection d’identifiants pour vous aider (ORCID ID, ROR ID, IdHAL, Crossref funder ID, ISNI, IdRef, URL, RNSR). Renseigner un identifiant pérenne contribue à bien identifier chaque partenaire sans risque d’ambiguïté.
L’attribution de DOI est-elle gratuite ou payante ?
L’attribution de DOI est payante pour les institutions qui souhaitent attribuer directement des DOI à plusieurs jeux de données produits ou gérés par cette institution. Dans ce cas, elle peut passer un contrat avec l’Inist-CNRS qui est l’un des intermédiaires français de DataCite pour l’attribution de DOI.
Pourquoi le service d’attribution de DOI est payant pour les unités CNRS et pour les structures publiques en général ?
En sa qualité de membre du consortium DataCite, l’Inist-CNRS doit s’acquitter d’une contribution annuelle au consortium. Pour les partenaires de l’Inist-CNRS, l’enregistrement des DOI est effectué sur la base d’une neutralité des coûts. Le coût d’attribution de DOI correspond à un forfait annuel qui donne droit à un nombre illimité de DOI (pour les organismes publics) ainsi que le stockage des métadonnées associées dans le système central de DataCite.
Pourquoi le CNRS n’attribue pas de DOI pour les labos ? Qui fait tout ça, qui est l’interlocuteur pour les PID ?
L’Inist-CNRS établit des partenariats avec des producteurs de données. Ces derniers attribuent eux même des DOI à leurs ressources. La personne désignée comme contact ou responsable du compte par l’organisme signataire recevra les identifiants (login et mot de passe) pour accéder à DataCite et créer les DOI.
Quand vous dites partenariat, c’est à quel niveau ? L’ANR est-elle un partenaire qui a déjà payé pour des DOI ?
Le contrat est établi avec des producteurs de données ayant une existence juridique. L’ANR n’est pas un partenaire de l’Inist-CNRS pour l’attribution de DOI.
En tant que société savante, à qui doit-on s’adresser pour des DOI ?
A l’Inist-CNRS via l’alias datasets[at]inist.fr
Dans le cas d’une société savante, est-on considéré comme public ou privé ?
Dans le modèle économique actuel, les sociétés savantes sont considérées comme privé. Cependant ce modèle est appelé à évoluer à partir de janvier 2021. Actuellement plus de 30 associations savantes ont des comptes de création de DOI auprès de l’Inist-CNRS.
Les EPIC sont considérés comme public ou privé ?
Les EPIC sont considérés comme public.
Quand on crée des DOI pour les données, doit-on obligatoirement passer par vous ?
Non, vous créez vous-même vos DOI. L’Inist-CNRS pourra vous accompagner et conseiller sur les métadonnées, le choix d’entrepôts, etc.
Qui signe le contrat pour un DOI ?
Le responsable (ou une personne désignée par lui) de l’organisme qui établit le contrat.
Qu’entendez-vous par institution (pour le contrat) ? A quel niveau on se situe ?
Tout organisme ayant une existence juridique.
Quand vous parlez d’institution pour le préfixe, c’est au niveau de l’université ou du labo ?
Le préfixe est attribué à l’organisme qui signe le contrat.
Au niveau des préfixes, comment ça marche ? par institut ? Un chercheur qui prend en charge une base de données, peut-il avoir un préfixe pour la base ?
Lorsque le contrat est établi et le compte créé, un préfixe ou plus (sur demande) est attribué et associé au compte.
Dans le cas d’un labo multi-tutelles, quelle pertinence au niveau des DOI ? faut-il plusieurs préfixes ?
C’est au cas par cas.
Comment savoir si mon institution ou une institution voisine a déjà un abonnement DOI ?
Vous pouvez le vérifier auprès de l’équipe en charge de l’activité DataCite à l’Inist-CNRS via le mail datasets[at]inist.fr
Nous avons été sollicités en Afrique pour l’attribution de DOI, peut-on les adresser à vous sachant que ce sont des partenaires francophones ?
Oui, nous avons déjà des partenaires africains.
Comment ça se passe si on ne renouvelle pas le contrat ?
Les DOI déjà créés restent toujours visibles. Les métadonnées qui étaient fournies en complément et stockées par DataCite restent toujours moissonnables. Cependant, vous ne pouvez plus accéder à la plateforme et créer de nouveaux DOI. Pour, éventuellement, mettre à jour des URL il faut contacter l’Inist-CNRS.
Quelles sont vos recommandations pour l’attribution des DOI ? Est-ce que c’est chaque délégation qui doit s’en occuper ou est-ce que ce sont les chercheurs ?
Chaque organisme producteur de données décide de son propre workflow.
Est-il possible d’envoyer à l’Inist-CNRS des listes de publications pour obtenir des DOI ?
Non, ce n’est pas possible. Il faut passer par votre institution.
Partage mais vers qui ? Pour quel usage ?
Il y a de nombreuses raisons de déposer ses données. Concernant la publication des articles, le dépôt peut devenir une condition obligatoire. En effet, de plus en plus de revues demandent l’accès aux données, pour améliorer les conditions dans lesquelles les comités de lecture valident les articles. Au niveau du travail scientifique, la réutilisation des données permet de rentabiliser la recherche et d’accélérer l’innovation, car la collecte et le traitement des données peut être coûteux en temps et en argent. De nouvelles collaborations peuvent aussi être favorisées, puisque l’auteur des données est facilement identifiable.
Par ailleurs, déposer ses données augmente la visibilité de ses recherches. Traditionnellement, les travaux sont visibles à partir des articles publiés. L’avantage de déposer les données liées aux articles est qu’elles deviennent autonomes. Les travaux peuvent donc être vus à partir des articles ou des données, ce qui multiplie donc les chances d’être cité.
Le contexte politique est favorable à l’ouverture des données. Prenons l’exemple de l’Union Européenne, qui agit en tant que financeur dans le cadre du programme Horizon 2020. A ce jour, les projets inscrits dans ce programme doivent déposer leurs données dans un entrepôt. De son côté l’ANR – sans obliger les chercheurs qu’elle finance à partager dans un entrepôt par exemple – préconise une gestion des données selon l’adage « aussi ouvert que possible, aussi fermé que nécessaire ».
Enfin, on parle également ici de Science ouverte et citoyenne. En effet, les recherches faites dans le cadre de financements publiques doivent faire preuve d’une certaine transparence vis-à-vis du citoyen.Est-on obligé d'utiliser un entrepôt de données ? Ne peut-on pas laisser nos données sur le réseau interne de notre laboratoire ?
Il y a deux phases à ne pas confondre dans le cycle de vie de la données :
– Le partage de vos données (avec vos collègues, partenaires) et leur stockage DURANT le projet (dans ce cas, vous pouvez les déposer sur le réseau interne).
– Le partage de vos données de recherche à la FIN du PROJET. Les entrepôts sont spécifiquement dédiés au partage des données. Attention, vous n’êtes pas obligés de tout partager.Quels sont les points de vigilance pour préparer le partage de données ?
Pour bien préparer le partage des données, il est recommandé :
– de penser cycle de vie de la donnée avant même qu’elle soit générée, c’est à dire dès l’origine du projet. Ceci permet notamment d’expliciter très clairement l’ouverture des données à l’ensemble des partenaires du projet
– de décrire très spécifiquement les données collectées ou générées en le faisant autant que possible via un portail spécialisé, disciplinaire ou institutionnel, HAL, etc.
– de décrire le plus finement possible la méthodologie et les outils nécessaires pour leur réutilisation (si possible fournir, avec les données, les programmes permettant l’utilisation (a minima la lecture) des données)
– de veiller à ce que les formats et standards utilisés soient ouverts et communément utilisés par la communauté
– d’utiliser une convention de nommage pour désigner correctement ses fichiers
– de veiller au respect des lois et en particulier le RGPD et éventuellement prévoir d’anonymiser les données
– de préciser les modalités d’accès et de réutilisation des données en choisissant une licence explicite, en indiquant les périodes d’embargo si besoin
– de fournir avec les données une référence bibliographique associée aux données (un article de journal). Ainsi l’usage des données devrait impliquer la citation du DOI (ou identifiant unique autre) des données elles-mêmes, ainsi qu’un DOI (ou identifiant unique autre) associé à la publication de référence.
Pour vous aider dans cette tâche il est fortement conseillé de recourir à la rédaction d’un plan de gestion des données (PGD).
Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données. […]Source : Foire aux questions du groupe de travail “Atelier Données”. https://mi-gt-donnees.pages.math.unistra.fr/site/
Le CNRS propose-t-il un entrepôt de données ?
Le CNRS a une trop large couverture disciplinaire. Il est recommandé de déposer dans un entrepôt disciplinaire et/ou institutionnel ou dans Recherche Data Gouv prioritairement.
re3data.org semble lister à la fois des entrepôts de données au sens strict (type Zenodo, Nakala, instances DataVerse etc.) et des sites web "classiques" de projets ou programmes de recherche (bases de données spécialisées, bibliothèques numériques etc.), ce qui en fait un annuaire un peu fourre-tout et entretient une confusion entre la simple mise en ligne de données sur un site quelconque (pour consultation et interrogation de ces données) et le dépôt des données brutes/source dans un entrepôt de données en tant que tel.
Dans re3data, vous pouvez sélectionner un entrepôt en fonction de différents critères, notamment le fait qu’un entrepôt soit certifié ou non. Vous pouvez également rechercher un entrepôt certifié sur le site CoreTrustSeal.
Sur quel critère l'entrepôt de données est évalué pour être certifié conforme ? Existe-t-il une liste d’entrepôts fiables ?
Les entrepôts sont certifiés par le CoreTrustSeal (https://www.coretrustseal.org/why-certification/requirements/) selon différents critères qui sont réévalués régulièrement. Parmi ces critères il y a l’engagement sur la pérennité des données. Ils proposent une liste des entrepôts certifiés : https://www.coretrustseal.org/why-certification/certified-repositories/
Comment un utilisateur sait-il sur quel entrepôt il peut trouver des données exploitables pour sa recherche et mises en accès ouvert par d'autres chercheurs ?
Il existe plusieurs possibilités :
- Rechercher dans des catalogues ou des annuaires qui peuvent vous aider à filtrer votre recherche d’entrepôts : CatOPIDoR, re3data, OAD, OpenDOAR, etc.
- Rechercher où déposent les pairs (pratique de la communauté) : chercher des données similaires via des moteurs de recherche (DataCite Search, Google Dataset Search, OpenAIRE Explore…) pour repérer les entrepôts dans lesquels elles sont déposées.
- Vous renseigner auprès de collègues de la même discipline, quelles pratiques ils ont en ce qui concerne le partage de leurs données.
- Vous faire aider par les personnels de soutien des universités ou de votre organisme.
Quels sont les risques pour les entrepôts basés à l'étranger ?
A partir du moment où vous déposez dans un entrepôt certifié donc de confiance, les risques sont limités.
Puis-je partager des données sans être affilié à une institution?
Oui, c’est tout à fait possible. Par exemple, des laboratoires privés ou des particuliers (dans le cadre de la science participative) peuvent partager des données.
Qui valide les données que l'on peut déposer si elles n'ont pas fait l'objet de publications scientifiques ? Tout le monde peut déposer ses données de recherche sans évaluation par les pairs ?
Les données déposées dans un entrepôt ne sont pas validées par les pairs. Ce sont les chercheurs (ou l’équipe scientifique) qui sélectionnent les données à déposer selon leur intérêt scientifique pour le projet, ou pour permettre une éventuelle réutilisation par d’autres équipes de recherche.
Lorsqu’on dépose des données dans un entrepôt, donne-t-on accès juste aux tableaux de données ou doit-on les accompagner d’autres informations (critères de recueil de données…) ?
Pour permettre leur validation, leur reproductibilité ou leur réutilisation, les données ne doivent pas être partagées seules mais doivent être accompagnées de métadonnées les plus riches possible. Par exemple, le dépôt peut être accompagné d’un document (un fichier “Read me”) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données. Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.
Une fois que les données sont déposées, comment fait-on pour gérer les accès ?
La plupart des entrepôts permettent au déposant de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo).
Est-il utile de déposer les données à plusieurs endroits ?
Si vous choisissez un entrepôt certifié et sécurisé, vous n’avez pas besoin de déposer dans plusieurs entrepôts. Cette pratique est même fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.
Deux cas se posent :
– Si les données appartiennent exactement au même jeu de données, il ne faut surtout pas dupliquer le jeu de données mais utiliser la notion de collections virtuelles qui existent sur de nombreuses plateformes (DataSuds / Recherche Data Gouv…).
– Si les mêmes données appartiennent à plusieurs jeux de données, les données peuvent se retrouver de facto déposées à plusieurs endroits, mais il n’est pas conseillé de le faire. Dans ce cas, il faut peut-être réfléchir aux critères utilisés pour définir le jeu de donnée.Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#endroits
Jusqu’à quel point peut-on partager des données produites avec des logiciels ou appareillages propriétaires ?
L’utilisation de logiciels ou appareillages propriétaires n’empêche pas le partage des données générées. Par contre, les formats seront propriétaires et ne pourront pas toujours être convertis dans un format ouvert, ce qui est un frein à la conservation et à la réutilisation.
Peut-on faire évoluer un jeu de données déposé dans un entrepôt ? Faut-il générer un nouveau DOI et comment cela se passe au niveau du Data paper dans ce cas ?
Oui, il est tout à fait possible de faire évoluer un jeu de données déposé dans un entrepôt. Certains entrepôts de données proposent un suivi de versions des jeux de données. C’est par exemple le cas des entrepôts de données réalisés avec la technologie Dataverse.
Chaque jeu de données (fichiers de données + métadonnées) publié est associé à un DOI et une empreinte digitale permettant d’attester de la fiabilité (authenticité et intégrité) des données.
- En cas de changements mineurs (ajout ou modification de métadonnées qui ne changent pas la citation), une version mineure du jeu de données est créée
- En cas de changement majeur (ajout ou modification de métadonnées qui changent la citation, ajout ou suppression de fichiers de données), une version majeure du jeu de donnée est créée et est associée à une nouvelle empreinte digitale
- Dans tous les cas, le DOI ne change pas et renvoie vers la page descriptive de la version la plus récente du jeu de données ; l’entrepôt offrant la possibilité d’accéder aux versions antérieures du jeu de données à partir de cette page
- Exemple sur le portail Dataverse de Harvard
Si je change d’entrepôt, le DOI attribué à mes données sera-t-il différent ?
Si un jeu de données a déjà un DOI, certains entrepôts comme Zenodo permettent de récupérer ce DOI existant et n’attribue pas un autre DOI.
Le stockage de données dans un entrepôt est-il gratuit ou payant ?
Le partage des données dans un entrepôt est souvent gratuit. Cependant, le coût peut varier en fonction de la volumétrie. Par exemple pour 4TU Research data, les dépôts sont gratuits jusqu’à 10 Go par an, payant au-delà (€ 4.50 per GB).
Comment sont financés les entrepôts ?
Il existe plusieurs types de financement (public, privé, fondations…) selon la ou les institutions responsables de l’entrepôt. Par exemple, l’entrepôt européen Zenodo est financé par la commission européenne.
Comment citer mes données ?
Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu’une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l’attribution d’un DOI .
Voici deux exemples de citations proposées par des entrepôts :
– Duchêne, Eric, 2019, “Vitis vinifera cv. Riesling developmental stages”, https://doi.org/10.15454/GYSGNR, Recherche Data Gouv, V3, UNF:6:Qe/3b5e0IdlZsQ5EBqpHwA== [fileUNF]
– Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854,
Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science, 77(1), https://doi.org/10.1007/s13595-019-0893-0.
Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation.
Quand vous citez un jeu de données provenant d’un entrepôt spécifique, pensez à lui notifier l’article dès que celui-ci est publié pour que l’entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#citer
Peut-on savoir qui a accès aux jeux de données dans un entrepôt et pour quelle utilisation-réutilisation ?
Selon les entrepôts, différentes fonctions peuvent être proposées pour contrôler l’accès aux données et offrir des statistiques d’usage.
- Dans Zenodo, il est possible de demander que l’accès à un jeu de données spécifique soit soumise à l’approbation du déposant. Pour cela, il faut choisir la valeur “Restricted access” pour la métadonnée “Access Right” dans le formulaire de dépôt.
- Dans les entrepôts de type Dataverse, il existe deux possibilités pour obtenir des informations sur les utilisateurs qui accèdent aux données :
-
- Choisir la valeur “Available on request” pour la métadonnée “Access Right” de sorte que toute demande d’accès aux données soit soumise à approbation du déposant
- Activer la fonction “Guestbook”. Avec la fonction “Guestbook”, l’utilisateur doit accepter de transmettre les informations le concernant au contact du dataset. Les informations requises dépendent du paramétrage fait lors de l’activation de la fonction “Guestbook”.
Le choix par le déposant d’utiliser ou non une des ces fonctions pour contrôler l’accès aux données devrait faire l’objet d’une réflexion amont, dans la phase de préparation – gestion des données : quelles données peut-on envisager de partager ? quelles données seraient éligibles au partage ?
La plupart des entrepôts de données proposent des statistiques d’usage (nombre d’accès, nombre de téléchargements) pour les données en accès ouvert.
Quelles sont les types d'API proposés par les entrepôts ?
– OAI-PMH (accès distants)
– Native API (dépot de données et publication)
– API de présentation de données (DC, json-ld)
– Sword API (dépôt), Search API, Data access API, Metrics API et Native API sont les API proposées par DataverseSource : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#API
Peut-on utiliser My Core comme entrepôt ?
Non, My Core (outil utilisé par le CNRS) est un outil qui permet le stockage et la sauvegarde individuelle de fichiers et le partage sécurisé. Il est plutôt utile pour le stockage et le partage de documents avec ses collaborateurs durant un projet. Il n’est pas adapté au partage de jeux de données.
Open Science Framework est-il un entrepôt ? Est-il fiable ?
C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
Source : https://fr.wikipedia.org/wiki/Center_for_Open_ScienceLe partage des données dans un entrepôt de données permet-il un archivage à long terme ?
Tous les entrepôts de données ne le permettent pas. Dans l’annuaire re3data (https://www.re3data.org/) vous pouvez trouver des entrepôts certifiés qui s’engagent à proposer un archivage à long terme. C’est notamment le cas de 4TU.ResearchData (https://www.re3data.org/repository/r3d100010216).
Si l’entrepôt choisi ne permet pas l’archivage à long terme, il faut d’abord réfléchir à quelles données vous allez sélectionner pour un archivage pérenne, puis s’adresser au CINES qui vous accompagnera, tout en sachant que cela a un coût qui n’est pas négligeable. Si vous êtes dans un domaine des SHS, l’infrastructure Huma-Num peut également vous accompagner pour l’archivage de vos données.Avez-vous une liste des entrepôts avec la durée de stockage et les disciplines ?
Pour rechercher des entrepôts français : Cat OPIDoR (https://cat.opidor.fr/)
Re3data (https://www.re3data.org/) notamment permet de rechercher des entrepôts de données dans différentes disciplines et selon plusieurs critères. La durée de stockage n’est pas systématiquement mentionnée. Il faut aller vérifier sur le site de l’entrepôt lui-même.
La plupart des entrepôts sont gratuits mais certains peuvent être payants. Il en existe également en accès restreint.
Pendant combien d’années après la fin du projet se préoccupe-t-on du devenir des données ?
Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données dans un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.Vaut-il mieux déposer les logiciels et codes sources dans Software Heritage ?
Oui, Software Heritage vous permet de les déposer de façon pérenne, de les partager en accès libre, mais aussi de gérer les différentes versions.
Pour aller plus loin : ressource DoRANum sur « les codes sources : définitions, enjeux et préservation » : https://doranum.fr/stockage-archivage/les-codes-sources-definition-enjeux-et-preservation_10_13143_7tj2-gw58/La différence entre données et code source est parfois floue ou pas très opérante. Exemple : code permettant de constituer une base de données intermédiaire à partir de données brutes, puis autre code permettant d'analyser les données mais qui n'a pas de pertinence sans les données associées. Les chercheurs déposent souvent un "replication package" qui comprend des données et du code (et avoir les deux séparément peut complexifier la tâche des réutilisateurs). Quelles sont les bonnes pratiques en la matière ? Vaut-il mieux bien séparer données et codes ? Dans le cas contraire comment savoir quand il faut séparer et quand il faut joindre données et codes ?
- .
J'ai réalisé une enquête et produit des données statistiques. Dois-je les conserver sur mon ordinateur ou les déposer dans un entrepôt ?
Pour des raisons de sécurité, il est déconseillé de conserver ses données uniquement sur son ordinateur. Il est préférable de stocker sur le serveur de l’institution dont on dépend, un back-up pourra être effectué par l’équipe informatique.
Ensuite, pour que vos données soient accessibles et réutilisables, il convient de bien les documenter et de les déposer dans un entrepôt.
Quels types de données faut-il stocker et partager ? Les données brutes ou traitées ?
Vous pouvez stocker et partager toutes vos données, à condition de :
- Respecter d’éventuelles restrictions juridiques (ex.: on ne peut pas partager des données personnelles n’importe comment)
- Documenter rigoureusement l’état de traitement de ces données (fournir des métadonnées de qualité).
D’autres critères peuvent ensuite guider vos choix de données à préserver ou éliminer, comme le volume des données, leur degré d’unicité (si vos données peuvent facilement être recréées à partir de la documentation que vous avez produite, pas besoin de conserver les données brutes).
Peut-on stocker des données et en partager d’autres ?
Les données générées pendant le processus de recherche peuvent être stockées dans un espace de stockage dédié mais toutes ne doivent pas nécessairement être partagées. Certaines données d’un projet peuvent ne pas être partagées pour différentes raisons : données sensibles, questions de sécurité, secret, brevet en cours, intérêts commerciaux…
« Aussi ouvert que possible, aussi fermé que nécessaire ».
Au moment du dépôt dans un entrepôt de données, une sélection des données à diffuser doit être réalisée.Y a-t-il une obligation de trier les données ?
De les trier, pas forcément, mais de réfléchir aux forces, faiblesses, opportunités et menaces que pourraient engendrer un tri, oui ! Cette question doit être abordée dans le PGD, même si c’est pour conclure que les données ne seront pas triées.
A partir de quel moment peut-on parler d’abondance de données (pour les données produites « en abondance »). Y a-t-il des critères objectifs pour apprécier cette abondance ?
Il n’y a pas vraiment de critère objectif. Mais peu importe le volume des données de recherche, elles devraient toutes être prises en charge avec la même attention. Les questions à se poser restent les mêmes, quoique les réponses puissent différer (il ne sera pas toujours possible d’archiver à long terme des pétaoctets de données).
En ce qui concerne le nommage des fichiers, pourquoi le format de la date est-il le format anglo-saxon ?
Il s’agit d’une norme internationale et c’est plus simple d’utiliser ce format pour trier ou retrouver plus facilement ses fichiers (par l’année).
Les formats ouverts sont-ils la règle ?
Il n’y a pas d’exigence de formats de données particuliers mais il est recommandé de privilégier les formats standards et ouverts (accessibles et modifiables indépendamment d’un logiciel unique). Les formats ouverts vont permettre d’améliorer la préservation, le partage et la réutilisation à long terme des données.
Cela dépend des logiciels utilisés. Si vous utilisez un logiciel propriétaire, car très utilisé dans votre communauté ou pour lequel vous avez une expertise, il faudra préciser si le format de fichiers pourra être converti ou utilisé par d’autres logiciels libres. Parfois il n’est pas possible de convertir dans un format ouvert. Dans tous les cas, il faudra bien « documenter » cet aspect en précisant quel logiciel vous avez utilisé pour vos données, ainsi que sa version.Comment distinguer des formats de fichiers ouverts et fermés ?
Il existe de nombreux outils sur internet pour vous renseigner sur la question, par exemple le quiz Format ouvert ou fermé ?
Vous pouvez également avoir recours à l’outil DROID qui permet d’analyser des fichiers dont on ne connaît pas forcément le format. Il vous donne ensuite la “fiche d’identité” du format en question.
En cas de doute, renseignez-vous auprès d’un informaticien qui sera à même d’examiner la signature interne du fichier pour déterminer son format.Peut-on trouver des informations sur comment s'organiser au niveau matériel (ai-je besoin d'un espace de stockage, etc...) ?
Sur DoRANum vous en saurez plus en consultant cette ressource Stockage, partage et archivage : quelles différences ?
Mais vous n’aurez pas d’informations précises sur le matériel dont vous pouvez disposer dans votre propre organisme. Si vous n’avez pas connaissance de recommandations institutionnelles, vous devez vous renseigner en interne, auprès des personnes dédiées à l’appui à la recherche type data librarian, documentaliste, voire informaticiens.Comment encourager des doctorants à prêter davantage d'attention aux données qu'ils exploitent (d’autant que la plupart n’utilisent pas de plateformes de gestion courante ou d’entrepôts) ?
Les retours d’expérience, y compris négatifs, sont un bon outil de sensibilisation.
La “stratégie des petits pas” peut aussi fonctionner : sans forcément rédiger un PGD complet, pourquoi ne pas commencer par programmer des sauvegardes régulières sur un cloud sécurisé à l’aide d’un petit utilitaire gratuit ?Quel espace de stockage utiliser en SHS ?
Vous pouvez utiliser ShareDocs ou Huma-Num Box. Voir https://www.huma-num.fr/services-et-outils/stocker.
Si on utilise Dropbox comme espace de stockage alors que ce n'est pas recommandé, on le dit quand même dans le PGD ?
Oui, il n’y a pas de « mauvaises réponses » dans le DMP. L’essentiel est de décrire vos pratiques de gestion de données, quelles qu’elles soient.
Quand on parle de stockage, ça se passe au niveau de la politique de chaque établissement ?
Oui, cela devrait se passer au niveau de chaque établissement.
Dans le cadre d'un projet en collaboration internationale, comment procéder si les deux parties ont une façon différente de stocker ses données ?
Tant que chacune des deux parties comprend comment fonctionne son homologue, cela ne pose pas de problème : le PGD est très utile pour décrire ce genre de modalité.
Notez bien que le PGD n’est pas censé imposer une façon de faire qui serait meilleure que les autres. Il encourage une réflexion approfondie sur certains aspects du travail scientifique qui, sinon, passeraient sous silence et pourraient poser souci.Les serveurs de stockage de données sont-ils les mêmes pour les entreprises privées que pour les organismes publics ?
Chaque organisme de recherche a la possibilité de proposer des infrastructures de stockage qui lui sont propres.
Il est également possible pour chaque organisme d’avoir recours à des solutions commerciales identiques.
En revanche, les infrastructures publiques telles que le Centre informatique national de l’enseignement supérieur n’hébergent en théorie que les données des organismes publics (sauf cas particuliers de projets collaboratifs).
Et inversement, les organismes privés réservent l’utilisation de leurs serveurs de stockage à leurs personnels, sauf cas particuliers.Avez-vous une sous-section dédiée tout particulièrement aux responsables de plate-forme, qui peuvent avoir à charge de très gros volumes de données générées par les utilisateurs en autonomie sur leurs fichiers personnels ?
Pour tout ce qui concerne les plateformes de stockage des données, c’est à chaque équipe ou laboratoire de se renseigner sur les services proposés en local par son université ou par une infrastructure qui pourrait l’accompagner ou par son organisme de rattachement.
Comment anticiper les incidents (même s’ils sont a priori extrêmement rares, notamment dans certaines disciplines comme le droit) ?
En réfléchissant à des stratégies de :
- Sauvegarde mais aussi restauration de vos données
- Protection de certains fichiers-maîtres (accessibles uniquement en lecture pour empêcher toute fausse manipulation)
- Sécurité des données (qui peut y avoir accès, comment…)
- Détournement de vos données (quels mauvais usages pourraient se développer ?)
Si vos données sont très sensibles, n’hésitez pas à envisager un audit par des spécialistes de ces sujets. Ce genre de dépense peut être éligible à un financement.
Existe-t-il des plates-formes collaboratives permettant d'archiver des discussions / documents, lors des phases de montage de projet de recueil de données (type Slack) ?
Il existe l’outil Mattermost (utilisé à l’Inist-CNRS) qui propose une alternative à Slack : https://mattermost.com/
Open Science Framework est-il un entrepôt ? Est-il fiable ?
C’est plus un espace collaboratif de travail (américain) ouvert, utilisable durant un projet. Les chercheurs inscrits peuvent l’utiliser pour collaborer, documenter, archiver, partager et enregistrer des projets de recherche, leurs protocoles scientifiques, du matériel (logiciels, datas) pour notamment partager leurs retours d’expérience et vérifier la reproductibilité de leurs travaux. Il propose de nombreuses fonctionnalités et il est possible de le connecter à un entrepôt. Cependant, les métadonnées ne sont pas très riches.
Source : https://fr.wikipedia.org/wiki/Center_for_Open_SciencePouvez-vous nous donner des noms de logiciels de gestion de versions de données ? Lorsqu'on a beaucoup de données, et que celles-ci peuvent évoluer (plusieurs versions), quels logiciels utiliser pour faire le tri ?
Cette ressource (https://www.datacc.org/bonnes-pratiques/adopter-un-plan-de-gestion-des-donnees/nommage-des-fichiers-versioning-adopter-les-bons-reflexes/#titre1) donne des informations détaillées, notamment sur le logiciel de gestion de versions Git (https://git-scm.com/) et mentionne d’autres outils.
Il existe également le logiciel de gestion de données iRODS : http://irods.org/Quelle est la différence entre conservation et archivage ?
La conservation consiste à s’assurer qu’un document est toujours présent sur un support de stockage et qu’il conserve son intégrité.
L’archivage va plus loin. Il permet aussi de :
- donner accès au document, c’est-à-dire retrouver le document sur le support de stockage et pouvoir le lire (= ouvrir le ou les fichiers).
- préserver l’intelligibilité du document, c’est-à-dire faire en sorte que le document reste compréhensible par ses utilisateurs potentiels à travers le temps.
La sauvegarde (ou stockage) sécurisée ne prend en compte que les deux premiers objectifs sur les trois cités et seulement dans une perspective de court et moyen termes.
Voir : CINES. Le concept d’archivage numérique pérenne. https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/
Quelle est la durée de stockage à moyen terme et à long terme des données ?
La durée peut varier suivant le type de données. Il existe des normes à suivre avec le CINES.
Voir aussi le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche/Pendant combien d’années après la fin du projet se préoccupe-t-on du devenir des données ?
Pour du partage de données dans le but d’une réutilisation par d’autres équipes de recherche par exemple, on dépose les données sur un entrepôt de données qui va les conserver sur le moyen terme : 5 à 10 ans en moyenne.
Pour de l’archivage de données, c’est le CINES qui est l’opérateur mandaté par le Ministère de l’Enseignement supérieur de la recherche et de l’Innovation pour opérer la mission d’archivage pérenne. Les données seront alors conservées sur le long terme : pour plus de 30 ans.Les mêmes données peuvent-elles être à la fois dans un entrepôt de données et dans un site d’archivage pérenne ?
Oui, vous pouvez déposer vos données à la fois sur un site d’archivage pérenne et dans un entrepôt. Ces deux dépôts offrent des services complémentaires.
Un entrepôt de données est une base de données structurée qui collecte et diffuse des jeux de données et leurs métadonnées.
L’archivage pérenne du document numérique a pour objectifs principaux de conserver le document, le rendre accessible, et en préserver l’intelligibilité et ce sur du long terme à savoir plus de 30 ans.
Les entrepôts n’ont pas vocation à assurer la pérennité des données sur le long terme ni d’assurer l’évolution technologique (disparition des formats de fichiers et/ou des logiciels assurant leurs lectures/exploitation).Y a-t-il des serveurs nationaux dédiés (au CNRS par exemple) qui peuvent nous aider pour l'archivage à moindre coût ?
En France, c’est le CINES (Centre Informatique National de l’Enseignement Supérieur) qui a été mandaté par le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation pour mettre en place une solution d’archivage électronique du patrimoine scientifique pour toute la communauté ESR (Enseignement Supérieur et Recherche). Néanmoins, cet archivage peut être couteux en fonction des données à archiver.
Quel est le coût de l’archivage à long terme ? Qu'appelle-t-on à long terme ?
Le coût est celui de l’archivage (plus de 30 ans), des mises à jour de supports et de formats, etc… fixé par le CINES.
Comment se fait la conservation à long terme et faut-il prévoir des charges supplémentaires ?
Pour la conservation à long terme (archivage pérenne), il faut avoir recours à des plateformes spécialisées, qui sont en mesure de vérifier régulièrement que les données entreposées chez elles ne se dégraderont pas avec le temps et continueront à être faciles à trouver, accessibles, interopérables et réutilisables, même si la technologie évolue. Ce service peut avoir un coût, à vérifier et planifier le plus tôt possible au cours d’un projet. Ce type de dépense est souvent éligible à une prise en charge par le financeur du projet.
Pour l'archivage pérenne, il n’existe que le CINES ?
Pour la France, il n’existe pour l’instant que le CINES.
Au niveau européen, il existe plusieurs infrastructures qui proposent notamment des services d’archivage pérenne :
Le portail européen Open Science Cloud (EOSC) (https://open-science-cloud.ec.europa.eu/) est une plateforme intégrée qui permet d’accéder facilement à de nombreux services et ressources pour différents domaines de recherche, ainsi qu’à des outils intégrés d’analyse de données. Il référence des services d’archivage à long terme. La solution B2SAFE (https://www.eudat.eu/b2safe) notamment, proposée par EUDAT, permet d’archiver de gros volumes de données sur le long terme.Quels types de données pourraient faire l’objet d’une destruction ? Est-ce la même chose que l’effacement ?
Tout dépend de la finalité de votre projet de recherche, mais on peut citer par exemple :
- Des données personnelles, pour lesquelles le RGPD affirme un principe de limitation de la durée de conservation (sauf cas particuliers) https://net-helium.fr/blog/rgpd-quelle-duree-de-conservation-des-donnees-personnelles/47
- Des données extrêmement volumineuses, dont l’archivage pérenne utiliserait trop de moyens
- Des données qu’il serait très facile de reproduire à l’identique, pour peu que leur mode de production soit bien documenté
- Etc.
Effacement, destruction, élimination… tous ces termes sont à peu près synonymes, mais gardez à l’esprit que déplacer des fichiers dans la corbeille de son ordinateur ne suffit pas à réellement supprimer des données. Rapprochez-vous d’un informaticien pour avoir de l’aide sur cette thématique.
Retenez également que toute suppression de données doit impérativement être documentée, notamment à l’aide de métadonnées complètes et précises, qui permettront de comprendre en quoi consistaient les données supprimées et pourquoi elles ont été éliminées. Ces métadonnées devront elles-mêmes être préservées et rendues FAIR. Pour obtenir de l’aide sur cette problématique, rapprochez-vous des archivistes de votre établissement (demandez-leur notamment de l’aide pour dresser l’équivalent d’un bordereau d’élimination…).
Pour vous aider, vous pouvez également consulter le référentiel de gestion des archives de la recherche : https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/Comment faire un plan de préservation des données viable ?
Cela va beaucoup dépendre de votre projet. Penchez-vous sur cette question le plus tôt possible, et faites-vous aider. Essayez d’imaginer tous les problèmes qui pourraient survenir, pour trouver comment y parer…
Quand les données font l'objet d'une publication, doit-on aussi les archiver à long terme ?
Non, pas systématiquement. C’est la valeur des données qui doit être prise en compte : s’agit-il de données uniques ? De valeur patrimoniale ? Ou peut-être est-ce des données extrêmement couteuses (dans ce cas, il est plus rentable de les archiver que de les reproduire) ?
La publication concerne le résultat de vos recherches sur ces données. Elle ne donne accès aux données qu’indirectement et pour ce faire il est indispensable de déposer au préalable vos données dans un entrepôt de données et de mentionner l’identifiant pérenne attribué à vos données dans votre publication.
À noter que les données de recherche partagées dans un entrepôt peuvent être différentes de celles archivées de façon pérenne (choix souvent très ciblé).Des données archivées restent-elles accessibles comme des données partagées ?
Oui, car l’archivage pérenne du document numérique a pour objectif principal de conserver les données, les rendre accessibles et en préserver l’intelligibilité, et ce sur du long terme à savoir plus de 30 ans. Dans ce cas, l’accès aux données se fait sur demande.
Pouvez-vous préciser ce qu'est réellement un data paper ? Est-ce obligatoire d'accompagner un article de son data paper ? Est-il nécessaire de faire un data paper pour chaque article référencé dans un PGD ?
Un data paper est un article spécifique sur des jeux de données. Il détaille plus précisément tout ce qui concerne la gestion des données. Dans un data paper vous allez trouver les méthodes utilisées pour récolter ou produire les données de votre projet, les métadonnées et standards de métadonnées utilisés pour décrire vos données, les liens vers les jeux de données déposés dans un entrepôt, ce qui permet leur citation…
Le data paper est
- soit publié sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles dont des data papers
- soit dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.
Vous n’êtes pas obligé de rédiger un data paper, ni de faire un data paper pour chaque article référencé dans un PGD. C’est cependant un bon moyen de valoriser vos données.
Vous avez deux manières de rendre visibles vos données :
- soit vous rédigez un data paper qui est vraiment un article très documenté sur vos données et leurs métadonnées associées. Cela va favoriser la visibilité, la réutilisation et la citation de ces données.
- Soit vous rédigez une publication classique et, lorsque la revue le permet, vous faites un lien vers vos données déposées dans un entrepôt.
Pour en savoir plus :
Thématique « Data papers et data journal » de DoRANum : https://doranum.fr/data-paper-data-journal/
Rédiger et publier un data paper (site CoopIST du Cirad) : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/Quelle est la différence entre un plan de gestion de données et un data paper ?
Un plan de gestion de données (PGD) est créé dès le début d’un projet (voire en phase exploratoire) et l’accompagne. Il décrit qualitativement et quantitativement les données qui vont être manipulées et définit ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans le PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).
Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessible, interprétable et réutilisable. Un data paper doit décrire les conditions d’acquisition des données, contenir la description fine de toutes les métadonnées et peut proposer des usages potentiels. Le data paper ne comporte pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche, ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.
Le data paper et le PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Le data paper est dédié à la publication scientifique alors que le PGD permet une meilleure gestion du projet.
Source : Foire aux questions du groupe de travail “Atelier Données”. https://gt-atelier-donnees.miti.cnrs.fr/faq.html#PGD
Les Data papers sont-ils plus courts que les articles classiques ?
“Selon la revue et ses exigences, le contenu et la taille du Data paper peuvent varier considérablement entre une forme très synthétique et un article très complet”
Extrait de : “Revues publiant des Data papers”. Laurence Dedieu, octobre 2016Quand intervient le data paper ?
Un data paper peut être rédigé après avoir déposé ses données dans un entrepôt. Il suffira de faire le lien vers les données (et les codes sources si besoin) dans le data paper.
Quels types de données peuvent faire l'objet d'un Data paper ?
A priori, tous les types de données sont recevables. Vérifier néanmoins les instructions aux auteurs.
Peut-on publier un Data paper d'un jeu de données dynamique ?
On peut publier un Data paper basé sur un jeu de données dynamique. Dans le cas où l’objectif du Data paper est de décrire une version précise du jeu de données (exemple : cas d’un jeu de données soutenant un article classique), il convient de s’assurer que le lien indiqué dans le Data paper permette à tout moment d’accéder soit directement, soit indirectement au jeu de données original cité dans le Data paper.
Le Data paper peut aussi avoir pour objet de décrire un jeu de données dynamique en temps qu’objet conceptuel (schéma, types de données, modes de requêtage, etc.).
Le cas le plus fréquent est effectivement de pointer vers un jeu de données stable.Peut-on publier des data papers avec des données secondaires (ex. de FAOSTAT) retravaillées pour sortir de nouvelles séries, ou combinant de façon originale des données secondaires de différentes sources ? Comment sont gérés les droits dans ces cas-là ?
Il est possible de publier des data papers sur des données retravaillées. Il faudra juste s’assurer de bien leur attribuer la même licence de réutilisation que les données sources.
Il y a beaucoup de journaux qui demandent de donner l’accès aux données brutes. Comment fait-on ?
Il convient de suivre les recommandations du guide pour les chercheurs “Partager les données liées aux publications scientifiques“
Avez-vous des exemples de data papers ?
- Exemples de revues publiant des data papers : https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/5-liens-utiles-exemples-et-guides
- Tracking vegetation phenology across diverse North American biomes using PhenoCam imagery : 2 data papers très complets ont été rédigés sur des données photographiques permettant d’étudier l’évolution de la phénologie de la végétation dans différents écosystèmes à travers l’Amérique du Nord.
- https://www.nature.com/articles/sdata201828
- https://www.nature.com/articles/s41597-019-0229-9
- Les images sont également visualisables en temps réel sur la page du projet PhenoCam (https://phenocam.nau.edu/webcam/gallery/).
Existe t-il une liste d'outils de visualisation ?
Il n’y a pas de liste à proprement parler. Toutefois voici quelques outils :
- Outils de visualisation pour l’accès aux données depuis un entrepôt :
- ICOS Carbon Portal (en cours de construction)
- STRING data base
- Swiss model repository
- Outils de visualisation pour une meilleure manipulation et appréhension des données :
- Gephi (logiciel libre d’analyse et de visualisation de réseaux)
- D3js (bibliothèque JavaScript pour créer des visualisations dynamiques)
- Gargantext (plateforme web pour explorer des données textuelles)
- QGIS (Système d’Information Géographique Libre et Open Source)
- Outils de visualisation pour l’accès aux données depuis un entrepôt :
Votre question n’apparaît pas dans cette FAQ ?
Laissez-nous un message, nous vous répondrons au plus vite !