Vérifier ses données de recherche

Publié le 20/02/2017 | Mis à jour le 06/09/2022 | DOI : 10.13143/5rs6-4r06

URFIST méditerrannée

Auteur

Urfist Méditerranée

OBJECTIFS

Après avoir consulté cette ressource, vous devriez être capable de :

  • Identifier les points que vous devez clarifier avant de déposer vos données de recherche ;
  • Identifier les personnes et ressources auxquelles vous référer pour préparer vos données au dépôt.

Déposer des données de recherche demande d’être vigilant sur plusieurs critères. Un travail de gestion et de préparation des données est nécessaire pour pouvoir effectuer le dépôt.

Pour connaître un peu mieux les points à vérifier, consultez la checklist ci-dessous.

  • Vos données doivent être structurées et agrégées pour former des jeux de données cohérents, liés à une même activité de recherche.
    Il faut aussi sélectionner les jeux de données (et les codes sources) à déposer.

  • Vous devez être particulièrement vigilant sur les données à caractère personnel, c’est-à-dire les informations qui permettent d’identifier directement ou indirectement une personne physique (nom, prénom, numéro de téléphone, de sécurité sociale, etc.) selon l’article 2 de la loi « Informatique et libertés ».

    Dans ce cas, référez-vous à la CNIL ou au DPD (Délégué à la Protection des données) de votre organisme.

  • Dans le cadre d’un projet particulier, vous devez avoir l’autorisation des autres chercheurs / collaborateurs avant de diffuser les données. Vous pouvez vous référer à l’accord de consortium, vos droits peuvent y être précisés.

    Toutes les données ne sont pas diffusables

    Certaines données peuvent faire l’objet d’une interdiction de diffusion :
    – Données collectées dans le cadre d’un contrat de prestation de services exécuté ou pour le compte d’une ou plusieurs personnes déterminées (non publiques) ;
    – Données relatives à la sécurité publique ou au secret défense ;
    – Données relatives aux secrets professionnels.

  • Suivant l’entrepôt, il vous sera possible de choisir :

    Un accès ouvert

    Un accès restreint (à une communauté scientifique par exemple)

    Vous pourrez également déposer vos données mais les rendre accessibles plus tard en décidant d’un embargo. La période d’embargo est à définir, toutefois vous pouvez être limité par ce que propose l’entrepôt.

  • Vérifiez avec un documentaliste et/ou un informaticien que vos données sont organisées correctement pour un traitement informatique ou une intégration dans une base de données.

    Nommez de façon claire et cohérente vos dossiers et fichiers. Les dénominations doivent avoir du sens et refléter le contenu.

    Vous pouvez suivre quelques règles pour éviter toute confusion, suppression accidentelle ou problème d’affichage (pas de caractères spéciaux, pas d’accents, pas d’espaces, pas de mots vides, etc.). Créez votre propre convention de nommage pour qu’elle convienne à votre contexte et à vos collaborateurs.

    Exemple

    20150501_CR_GT est le nom d’un fichier contenant le compte rendu du groupe de travail datant du 1er mai 2015.

  • Vous devez utiliser des formats de fichiers acceptés par l’entrepôt choisi. Dans tous les cas, il est préférable d’éviter les formats fermés et de privilégier les formats ouverts ou largement répandus, afin que vos données puissent être lues et réutilisées. Convertissez le format de vos fichiers si besoin, par exemple un format XLS (format Excel fermé) vers un format CSV (format ouvert).

    Si vous souhaitez vérifier vos connaissances sur les formats de fichier, voici un petit jeu fait pour ça !

  • Le volume des fichiers est contraint par l’entrepôt. Il y a une taille maximale que vous ne pourrez pas dépasser. Cette taille limite, très variable, dépend des entrepôts. Par exemple, l’entrepôt Recherche Data Gouv limite la taille de téléversement à 50 Go. Dans Cirad Dataverse, la taille limite est de 2 Go. Dans PANGAEA, la limite est fixée à 100 Mo.

  • La description des données doit être suffisante pour assurer leur validation, reproductibilité, réutilisation.

    Vos données doivent donc être bien décrites : titre explicite, description, technologie, organisme, mots clés, etc. Pour cela, il est recommandé d’utiliser les standards/ terminologies de votre domaine.

    Les formulaires de dépôt dans un entrepôt sont souvent simples et ne comportent que quelques champs à remplir pour la description des données. Ils s’appuient la plupart du temps sur des standards généralistes comme Dublin Core ou DataCite. Le dépôt dans les entrepôts spécialisés nécessite des informations plus précises qui utilisent des standards disciplinaires. Cependant, la plupart des entrepôts fournissent des outils d’aide pour décrire vos données suivant le standard recommandé.

    Vous pouvez consulter ici les recommandations du DCC et de RDA sur les standards de métadonnées.
    Il est également nécessaire de fournir la documentation qui permet la réutilisation de vos données. Un document (par exemple, un fichier Readme) expliquant le contexte, la méthodologie, les outils / logiciels utilisés et toutes les informations indispensables à la réutilisation de vos données peut être demandé.

    Un dictionnaire de données permettant d’expliciter les variables mesurées peut également être fourni séparément. Par exemple, pour un fichier tabulé, il peut être nécessaire de spécifier les entêtes des colonnes, les unités utilisées, les acronymes, etc.

  • L’entrepôt attribue généralement un identifiant pérenne ou un accession number.
    Il se peut aussi qu’un identifiant ait déjà été attribué à votre jeu de données (par votre institution par exemple).

    Pour les codes sources, il est recommandé de les déposer dans l’archive universelle Software Heritage qui attribue un identifiant SWHID.

  • Une licence de diffusion est indispensable pour définir les conditions de réutilisation des données. Pour favoriser le partage, il est souhaitable de choisir une licence la plus ouverte possible, permettant une utilisation libre et sans restriction.

    L’entrepôt peut vous proposer plusieurs licences au choix. Une licence précise peut également vous être imposée.

ÉVALUER

Envoi
User Review
0 (0 votes)

PARTAGER

Dans la/les même(s) thématique(s)

Félicitations vous avez tout vu (pour l’instant) !

Dans le(s) même(s) format(s)

Félicitations vous avez tout vu (pour l’instant) !

Autres suggestions

Laisser une réponse