Formation : Dépôt et entrepôts

Publié le 23/02/2017 | Mis à jour le 28/05/2018

Auteur

Urfist Nice

OBJECTIFS

Après avoir consulté cette ressource, vous devriez être capable de :

  • Situer les étapes de stockage, de diffusion et d’archivage des données de la recherche ;
  • Expliquer les enjeux liés au dépôt de données ;
  • Définir ce qu’est un entrepôt de données ;
  • Identifier les étapes pour trouver un entrepôt ;
  • Identifier les points à vérifier avant de déposer ses données ;
  • Déposer vos données dans Zenodo.

A propos du dépôt

Qu’entend-on par déposer ses données ?

Pour éviter toute confusion, il faut distinguer :

  • Le stockage; concerne les supports où sont stockées vos données durant vos travaux, ces supports devant permettre un accès pratique et sécurisé
  • La diffusion; concerne notamment le dépôt dans un entrepôt (le sujet de ce cours) avec un objectif de partage des données
  • L’archivage; concerne les centres d’archivages mais aussi certains entrepôts de données, avec un objectif de conservation sur le long terme

Ces étapes n’ont pas les mêmes objectifs et concernent différents moments du cycle des travaux de recherche.

Déposer ses données dans un entrepôt est donc une façon de partager ses données parmi d’autres: publication de fichiers supplémentaires, de data papers, sur un site web, dans le web de données. Certains entrepôts proposent aussi de conserver vos données sur le long terme, c’est pourquoi il peut aussi être question de dépôt dans un entrepôt lors de l’archivage des données.

Pourquoi dois-je déposer ?

Pour répondre aux exigences des financeurs

Le contexte politique est en faveur de l’ouverture des données de la recherche et les agences de financements recommandent, voire imposent, le dépôt des données.

L’exemple Horizon 2020

Horizon 2020 est le programme européen pour la recherche et l’innovation, où l’UE agit en tant qu’agence de financement. A ce jour, les projets de recherche issus de ce programme doivent déposer leurs données dans un entrepôt, dans la mesure où celles-ci peuvent être partagées.

Pour augmenter la visibilité de vos recherches

Le fait de déposer votre article scientifique dans une archive ouverte et de le publier dans une revue scientifique permet de donner de la visibilité à votre travail. Ce sont par ces biais que le public peut y accéder.
Si vous déposez vos données dans un entrepôt et que vous les publiez dans une revue (classique ou data journal), vous offrez une deuxième possibilité d’accéder à votre travail.
Déposer vos données permet donc d’augmenter la visibilité de vos recherches.

Pour la validation de vos recherches

Le comité de lecture peut demander d’accéder à vos données déposées dans l’entrepôt pour pouvoir valider votre travail. Si vos données sont déposées, elles peuvent être réutilisées par d’autres chercheurs et, comme ceux-ci peuvent vous identifier, des collaborations peuvent s’établir plus facilement.

Le principal avantage dans le dépôt est de rendre vos données accessibles et citables indépendamment de l’article scientifique :

  • Elles sont décrites par des métadonnées, ce qui permet de les retrouver pour favoriser le partage et la réutilisation
  • Un identifiant pérenne ou numéro d’accès est attribué à chaque jeu de données ce qui le rend visible, accessible, citable au même titre que la publication.

Le dépôt des données répond aussi aux exigences des financeurs de projets et permet l’évaluation et la validation par les pairs, favorisant ainsi la transparence des recherches scientifiques, les possibles collaborations et l’avancée de la science en général.

Que dois-je déposer ?

Toutes les données peuvent être concernées par le dépôt. Elles peuvent avoir un intérêt pour chaque utilisateur. Toutefois, le choix des données à déposer dépend de votre situation.

Données brutes

Données recueillies, non organisées, non mises en forme. Elles peuvent convenir à un public susceptible de les traiter.

Données traitées

Données corrigées, calculées, réorganisées… Elles peuvent convenir à un public susceptible de les analyser.

Données analysées

Données telles qu’apparaissant dans les publications. Elles peuvent convenir à un public susceptible de les comprendre.

Les données personnelles, relevant de la propriété intellectuelle et industrielle doivent faire l’objet d’une attention particulière !

Quand déposer ?

Le moment auquel vous devez déposer vos données peut varier en fonction :

  • de votre discipline et du type de données (les membres du projet peuvent bénéficier d’une période d’usage exclusif des données pendant quelques mois ou années) ;
  • des recommandations des agences de financement (pour Horizon 2020 par exemple, les données sous-jacentes sont déposées idéalement le plus tôt possible).

En revanche, le moment du dépôt devrait être planifié dès le début du projet de recherche, dans un document appelé le Plan de Gestion des Données (PGD ou DMP en anglais pour Data Management Plan).

Progression

Les différents types d’entrepôt

Maintenant que nous avons un peu mieux cerné le contexte et les enjeux du dépôt des données, regardons de plus près les entrepôts. Qu’est-ce qu’un entrepôt ? Combien y en a-t-il ? Quelles différences y a-t-il entre eux ?

Les entrepôts, en une minute

Il est aussi à noter qu’un entrepôt peut être porté par :

  • Une organisation publique; par exemple l’entrepôt Zenodo est issu d’une collaboration entre l’infrastructure européenne OpenAIRE et le CERN
  • Une organisation à but non lucratif; par exemple l’entrepôt Dryad
  • Une organisation commerciale; par exemple l’entrepôt Figshare est développé par la société Digital Science

Un exemple de certification d’entrepôt : CoreTrustSeal

La certification CoreTrustSeal Data Repository remplace la certification DSA et la certification WDS. Pour qu’un entrepôt de données obtienne cette certification, il doit répondre à 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.

Il y a actuellement une centaine d’entrepôts certifiés que vous pouvez rechercher sur le site de CoreTrustSeal.

Comme évoqué dans la vidéo, de nombreux entrepôts n’ont pas de certification mais sont cependant largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. Par exemple GenBank en biologie moléculaire.

Liste indicative d’entrepôts

Etant donné le nombre important d’entrepôts, il est impossible de tous les recenser ici. En voici néanmoins un petit aperçu :

  • Zenodo: entrepôt mixte (publications scientifiques et jeux de données) – tous types de données
  • Figshare: tous types de données
  • Dryad: données sous-jacentes aux publications
Progression

Trouver son entrepôt

Nous allons maintenant regarder tous les points que vous devriez prendre en compte afin de trouver l’entrepôt le mieux adapté à votre situation.

VÉRIFIEZ SI VOUS AVEZ DES RECOMMANDATIONS

Il se peut qu’une recommandation soit faite par une partie prenante du projet (financeur, université, organisme de recherche) ou une des revues dans laquelle vous souhaitez publier.

Consultez les annuaires

Comme nous l’avons vu un peu avant, il existe des annuaires (ou répertoires) qui recensent des entrepôts et permettent une recherche par filtre. En voici quelques-uns :

  • re3data (Registry of Research Data Repositories)
  • OAD (Open Acces Directory/Data repositories)

Choisissez vos critères

Si vous n’avez pas de recommandation ou que vous devez faire un choix parmi plusieurs entrepôts, vous pouvez vous appuyer sur cette liste de critères qui pourra vous aider lors de vos recherches :

Pour commencer, vous pouvez filtrer vos recherches dans des annuaires d’entrepôts. Vous pouvez par exemple préciser si vous êtes à la recherche d’un entrepôt :

  • Disciplinaire ?
    • L’annuaire re3data par exemple permet de trier par domaine / sous domaine. L’annuaire spécialisé FAIRsharing permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines.
  • Certifié / Reconnu ?
    • L’annuaire re3data par exemple permet de trier par type de certification.
  • Permettant de restreindre l’accès ?
    • Il y a un filtre « data access » dans l’annuaire re3data par exemple.
  • Permettant de modifier les données et accéder aux anciennes versions ?
    • Il y a un filtre « versionning » dans re3data par exemple
  • Attribuant un identifiant pérenne aux données ?
  • Proposant des licences de diffusion ?

Les filtres varient en fonction des annuaires. En guise d’exemple, vous pouvez tester la recherche filtrée sur l’annuaire re3data.

Certaines informations sont à vérifier dans les pages de politique de l’entrepôt, comme par exemple :

  • Le lieu d’hébergement du serveur
  • La préservation sur le long terme des données
  • Le coût du dépôt
    • Pour déposer dans certains entrepôts comme Dryad vous, votre institution ou votre éditeur devez vous acquitter de charges de publication. Le coût peut également être lié au volume de vos fichiers. Zenodo par exemple est gratuit pour les données hétérogènes (longue traîne des données).
  • Le statut public / privé de l’entrepôt
  • Les types de données acceptés
    • Certains entrepôts, comme Dryad, n’acceptent que les données liées à une publication. D’autres entrepôts, comme Zenodo, acceptent tout type de données.
  • Les formats de fichiers acceptés
    • L’entrepôt peut préconiser des formats de fichiers spécifiques. Par exemple, l’entrepôt Dryad accepte tout format mais recommande l’utilisation de formats non propriétaires et liste les formats à privilégier.
  • Le lien avec la publication de l’article

En guise d’exemple, vous pouvez consulter les pages de politique de l’entrepôt Zenodo.

Enfin, certains aspects ne sont vérifiables qu’en naviguant sur le site de l’entrepôt. En allant visiter les sites d’entrepôt, vous pourrez notamment vérifier :

  • La facilité du dépôt
    • Est-ce que le site de l’entrepôt est simple d’utilisation, convivial, ergonomique ? Est-ce que le formulaire de dépôt est simple à compléter ? Certains entrepôts proposent également un accompagnement, des tutoriels pour vous aider dans le dépôt des données.
  • Les statistiques d’utilisation
    • L’entrepôt propose-t-il des statistiques d’utilisation, de consultation, de téléchargement ?
  • La qualité de la description (métadonnées)
    • La qualité de la description des jeux de données est importante pour permettre de les retrouver facilement. La plupart des entrepôts s’appuient sur des standards pour décrire les données.
Progression

Déposer ses données

Le dépôt implique une gestion des données spécialement prévue pour l’ouverture et le partage. Il faut prendre en considération des aspects techniques, éthiques ou encore juridiques.

VÉRIFIEZ QUE VOS DONNÉES SONT PRÊTES

Avant de les déposer, vous devez vous assurer que vos données sont prêtes. En effet, une préparation préalable est nécessaire pour assurer un partage de vos données dans de bonnes conditions. Consultez la checklist ci-dessous pour vérifier les points importants.

  • Vous devez être particulièrement vigilant sur les données à caractère personnel, c’est-à-dire les informations qui permettent d’identifier directement ou indirectement une personne physique (nom, prénom, numéro de téléphone, de sécurité sociale, etc.) selon l’article 2 de la loi « Informatique et libertés ».

    Dans ce cas, référez-vous à la CNIL ou au CIL (Correspondant informatique et libertés) de votre organisme.

  • Dans le cadre d’un projet particulier, vous devez avoir la permission des autres chercheurs / collaborateurs avant de diffuser les données. Vous pouvez vous référer à l’accord de consortium, vos droits peuvent y être précisés.

    Toutes les données ne sont pas diffusables

    Certaines données peuvent faire l’objet d’une interdiction de diffusion :
    – Données collectées dans le cadre d’un contrat de prestation de services exécuté ou pour le compte d’une ou plusieurs personnes déterminées (non publiques) ;
    – Données relatives à la sécurité publique ou au secret défense ;
    – Données relatives aux secrets professionnels.

  • Suivant l’entrepôt, il vous sera possible de choisir :

    Un accès ouvert

    Un accès restreint (à une communauté scientifique par exemple)

    Vous pourrez également déposer vos données mais les rendre accessibles plus tard en décidant d’un embargo. La période d’embargo est à définir, toutefois vous pouvez être limité par ce que propose l’entrepôt.

  • Une licence de diffusion est indispensable pour définir les conditions de réutilisation des données. Pour favoriser le partage, il est souhaitable de choisir une licence la plus ouverte possible, permettant une utilisation libre et sans restriction.

    L’entrepôt peut vous proposer plusieurs licences au choix. Une licence précise peut également vous être imposée.

  • Vos données doivent être structurées et agrégées pour former des jeux de données cohérents, liés à une même activité de recherche.
    Il faut aussi sélectionner les jeux de données à déposer.

  • Vérifiez avec un documentaliste et/ou un informaticien que vos données sont organisées correctement pour un traitement informatique ou une intégration dans une base de données.

    Nommez de façon claire et cohérente vos dossiers et fichiers. Les dénominations doivent avoir du sens et refléter le contenu.

    Vous pouvez suivre quelques règles pour éviter toute confusion, suppression accidentelle ou problème d’affichage (pas de caractères spéciaux, pas d’accents, pas d’espaces, pas de mots vides, etc.). Créez votre propre convention de nommage pour qu’elle convienne à votre contexte et à vos collaborateurs.

    Exemple

    20150501_CR_GT est le nom d’un fichier contenant le compte rendu du groupe de travail datant du 1er mai 2015.

  • Vous devez utiliser des formats de fichiers acceptés par l’entrepôt choisi. Dans tous les cas, il est préférable d’éviter les formats fermés et de privilégier les formats ouverts ou largement répandus, afin que vos données puissent être lues et réutilisées. Convertissez le format de vos fichiers si besoin, par exemple un format XLS (format Excel fermé) vers un format CSV (format ouvert).

    Un cours en ligne sur les formats de fichiers est proposé par MANTRA, un service de l’Université d’Edimbourg. Et si vous souhaitez vérifier vos connaissances sur les formats de fichier, voici un petit jeu fait pour ça !

  • Le volume des fichiers est contraint par l’entrepôt. Il y a une taille maximale que vous ne pourrez pas dépasser. Cette taille limite dépend des entrepôts. Par exemple, l’entrepôt Zenodo limite la taille d’upload à 2GB par fichier, l’entrepôt Figshare à 5GB.

  • L’entrepôt attribue généralement un identifiant pérenne ou un accession number.

    Il se peut aussi qu’un identifiant ait déjà été attribué à votre jeu de données (par votre institution par exemple).

  • La description des données doit être suffisante pour assurer leur validation, reproductibilité, réutilisation.

    Vos données doivent donc être bien décrites : titre explicite, description, technologie, organisme, mots clés, etc. Pour cela, il est recommandé d’utiliser les standards / terminologies de votre domaine.

    Les formulaires de dépôt dans un entrepôt sont souvent simples en ne comportent que quelques champs à remplir pour la description des données. Ils s’appuient la plupart du temps sur des standards généralistes comme Dublin Core ou DataCite. Le dépôt dans les entrepôts spécialisés nécessite des informations plus précises qui utilisent des standards disciplinaires. Cependant, la plupart des entrepôts fournissent des outils d’aide pour décrire vos données suivant le standard recommandé.

    Vous pouvez consulter ici les recommandations du DCC et de RDA sur les standards de métadonnées.
    Il est également nécessaire de fournir la documentation qui permet la réutilisation de vos données. Un document (par exemple, un fichier Readme) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données peut être demandé.

    Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

Remplissez le formulaire de dépôt

Le dépôt se fait en ligne, sur le site de l’entrepôt que vous avez choisi. Il faut remplir le formulaire de dépôt, chose qui est plus ou moins complexe suivant les entrepôts.
En guise d’exemple, voici un tutoriel pour déposer dans l’entrepôt Zenodo.

Progression

En résumé

Déposer ses données n’est pas qu’une question de stockage et ne correspond pas à une solution de sauvegarde des données (back-up). Le dépôt s’inscrit dans une démarche de partage qui, dans un contexte politique favorisant l’ouverture des données, tend à devenir une condition obligatoire dans l’obtention du financement des travaux de recherche. Pour synthétiser le cheminement du choix de l’entrepôt au dépôt des données, consultez l’infographie ci-dessous.

ÉVALUER

Envoi
User Review
0 (0 votes)

PARTAGER

Laisser un commentaire