Qualité des données

Cette rubrique décrit les modalités de contrôle et d’amélioration de la qualité des données mises en oeuvre dans NAKALA.

Contexte historique et contenu actuel de NAKALA

Le service NAKALA a été ouvert en 2014 afin d’apporter une solution à la préservation et à la diffusion des données en SHS. L’objectif originel était d’assurer un stockage sécurisé immédiat des données des projets en SHS et d’y donner accès à travers un système d’identification persistant.

NAKALA s’inscrit dans un ensemble de services dédiés à la gestion des données de recherche en SHS allant du stockage collaboratif à l’archivage pérenne au CINES.

En plus des fonctionnalités d’origine il permet dorénavant de signaler les données publiées après modération afin d’assurer la conformité de leur gestion avec les bonnes pratiques en vigueur de leur préparation à leur description.

En 2024 NAKALA stocke et expose plus de 700 000 données et comprend 2 300 comptes de déposants.

Modération

Gestion des accès

Huma-Num identifie chaque déposant dans NAKALA. La demande d’accès à NAKALA passe par le compte HumanID. Pour valider une demande d’accès, l’équipe contrôle les points suivants :

  • affiliation du déposant : le déposant doit justifier d’un rattachement à l’ESR français ou participer à un projet de recherche piloté par un établissement de l’ESR
  • la participation à un projet de recherche en SHS
  • le dépôt de données de recherche du domaine des SHS (pas de données administratives, ni de publications par exemple).

Contrôles automatiques des métadonnées :

Dans NAKALA, certaines métadonnées et certains types d’informations sont contrôlés automatiquement.

Selon l’information, le contrôle automatique s’effectue :

  • en mettant à disposition des vocabulaires contrôlés (liste fermée) dans lesquels le déposant sélectionnera une valeur : seules les valeurs contenues dans la liste sont acceptées.
  • en contraignant la forme syntaxique de l’information pour l’adapter aux normes et standards en vigueur : seules les formes d’écriture compatibles avec la norme ou le standard documenté sont acceptées.

Les métadonnées suivantes sont contrôlées automatiquement :

  • Type de dépôt : champ associé à une liste fermée composée de plusieurs vocabulaires contrôlés
  • Auteurs : forme d’écriture contrainte pour la création d’un nouvel auteur avec 2 champs obligatoires à renseigner : Nom, Prénom ; et un contrôle de la forme de l’ORCID renseigné
  • Date de création : format de date contraint selon les spécifications du W3C-DTF et la norme ISO 8601
  • Licence : champ associé à une liste fermée (Etalab, Creative Commons, GNU, FLOSS, Rights Statement)
  • Langues : champ associé à une liste fermée (normes ISO-639-1 et ISO-639-3)

Contrôle des informations renseignées dans les champs “Type” suivants :

Modération des jeux de données

Depuis septembre 2023 Huma-Num met en place la modération des données publiées dans NAKALA selon trois niveaux de qualité :

  • Données publiques : la donnée est déposée et publiée par le déposant, elle bénéficie de l’attribution d’un identifiant pérenne (DOI) et du stockage sécurisé. Le déposant peut exploiter la donnée selon ses besoins et la citer. Dans ce cas, les métadonnées bénéficient des contrôles automatiques.

  • Données publiques modérées : la donnée est déposée et publiée par le déposant et bénéficie d’une étiquette “Donnée modérée” visible sur sa page de présentation. Dans ce cas, en complément des contrôles automatiques, la qualité de la donnée est contrôlée humainement par un membre du réseau des correspondants NAKALA. Les règles de cette évaluation sont fixées par un cahier des charges (voir plus bas).

  • Données publiques archivées : la donnée est déposée et publiée par le déposant et bénéficie de l’étiquette “Donnée modérée” visible sur sa page de présentation. Sur demande du déposant puis instruction du comité de liaison, ces données sont contrôlées par l’équipe Huma-Num en charge de l’archivage au CINES. Les règles de cette évaluation sont fixées par les exigences de la plateforme d’archivage du CINES.

Le réseau des “correspondants NAKALA”

Depuis juin 2023, Huma-Num met en place un réseau de correspondants NAKALA et expérimente avec quatre sites pilotes un circuit de contact entre un service d’appui et d’accompagnement local et les déposants de données dans NAKALA afin d’organiser une modération des données déposées.

Formations des personnnels des ateliers de la donnée

Deux formations à NAKALA ont été dispensées les 29 juin et 21 septembre 2023 à distance : “NAKALA découverte” et “NAKALA maîtrise” oragnisées dans le cadre du programme de formation de Huma-Num.

19 personnels issus des 15 Ateliers de la donnée (labellisés ou en trajectoire en 2023) ont suivi ces deux séances.

Structuration d’un circuit de contact

4 sites pilotes expérimentent avec le pôle Données d’Huma-Num :

  • la mise en place d’un circuit de mise en contact avec les déposants de données dans NAKALA
  • le test du cahier des charges pour la modération.

Les déposants qui demandent l’accès à NAKALA et qui relèvent du périmètre d’un des 4 sites pilotes sont contactés individuellement afin de leur proposer un accompagnement au dépôt. Lorsque le déposant accepte cet accompagnement, Huma-Num en informe les correspondants NAKALA et met en relation le déposant et le correspondant de l’Atelier de la donnée relevant du périmètre. Les correspondants NAKALA prennent alors en charge l’accompagnement du déposant et le suivi des dépôts.

Cahier des charges de la modération

L’équipe Huma-Num met à disposition des correspondants NAKALA un cahier des charges composé d’une grille de critères à contrôler et d’une méthode de mesure et d’amélioration de la qualité des données (métadonnées et fichiers). Ce document sera mis à disposition dans la documentation de NAKALA à l’issue de sa rédaction et de son test par les sites pilotes.

Rejoindre le réseau des correspondants NAKALA

Si vous souhaitez participer à ce projet et accompagner localement la communauté SHS au dépôt de données de qualité dans NAKALA, vous pouvez déclarer votre intérêt en nous contactant à l’adresse suivante : ateliersdeladonnee@listes.huma-num.fr.