Qualité des données

Cette rubrique décrit les modalités de contrôle et d’amélioration de la qualité des données mises en oeuvre dans NAKALA.

Contexte historique et contenu actuel de NAKALA

Le service NAKALA a été ouvert en 2014 afin d’apporter une solution à la préservation et à la diffusion des données en SHS. L’objectif originel était d’assurer un stockage sécurisé immédiat des données des projets en SHS et d’y donner accès à travers un système d’identification persistant.

NAKALA s’inscrit dans un ensemble de services fournis par Huma-Num et dédiés à la gestion des données de recherche en SHS, allant du stockage à l’archivage au CINES.

En plus des fonctionnalités d’origine, NAKALA permet dorénavant de signaler les données publiées après leur modération afin d’assurer la conformité de leur publication avec les bonnes pratiques en vigueur, de leur préparation à leur description.

En mars 2024, NAKALA stocke et expose plus de 700 000 données et comprend 2 300 comptes de déposants.

Contrôle des créations de comptes déposants dans NAKALA

Huma-Num identifie chaque déposant dans NAKALA. La demande d’accès à NAKALA passe par le compte HumanID. Pour valider une demande d’accès, l’équipe contrôle les points suivants :

  • affiliation du déposant : le déposant doit justifier d’un rattachement à l’ESR français ou participer à un projet de recherche piloté par un établissement de l’ESR
  • la participation à un projet de recherche en SHS
  • le dépôt de données de recherche du domaine des SHS (pas de données administratives, par exemple).

Contrôles automatiques des métadonnées

Dans NAKALA, certaines métadonnées et certains types d’informations sont contrôlés automatiquement.

Selon l’information, le contrôle automatique s’effectue :

  • en mettant à disposition des vocabulaires contrôlés (liste fermée) dans lesquels le déposant sélectionnera une valeur : seules les valeurs contenues dans la liste sont acceptées.
  • en contraignant la forme syntaxique de l’information pour l’adapter aux normes et standards en vigueur : seules les formes d’écriture compatibles avec la norme ou le standard documenté sont acceptées.

Le contenu de plusieurs métadonnées et champs types est contrôlé automatiquement au moment du dépôt.

Statuts des jeux de données dans NAKALA

Depuis septembre 2023, Huma-Num met en place un accompagnement au dépôt auprès des déposants mieux outillé, associé au projet de modération des données publiées dans NAKALA selon trois niveaux de qualité :

  • Données publiques : la donnée est déposée et publiée par le déposant, elle bénéficie de l’attribution d’un identifiant pérenne (DOI) et d’un stockage sécurisé. Le déposant peut exploiter la donnée selon ses besoins et la citer. Dans ce cas, les métadonnées bénéficient a minima des contrôles automatiques.

  • Données modérées : la donnée est déposée par le déposant et le statut “Modéré” est affiché sur sa page de présentation. Dans ce cas, en complément des contrôles automatiques, la qualité documentaire de la donnée est contrôlée humainement par un membre du réseau des modérateurs NAKALA. Les règles de cette évaluation documentaire sont fixées par une grille de critères : la grille de modération (voir plus bas).

  • Données publiques archivées : la donnée est déposée et publiée par le déposant et affiche le statut “Modéré” sur sa page de présentation. Sur demande du déposant puis instruction du comité de liaison, ces données sont contrôlées par l’équipe Huma-Num en charge de l’archivage au CINES. Les règles de cette évaluation sont fixées par les exigences de la plateforme d’archivage du CINES.

Modération documentaire de jeux de données par un réseau de modérateurs NAKALA

En juin 2023, Huma-Num a démarré son projet de construction d’un réseau de modérateurs NAKALA avec cinq sites pilotes. La première étape a été l’établissement d’un circuit de mise en relation entre un service d’appui et d’accompagnement local et les déposants de données afin d’organiser l’accompagnement au dépôt et la modération documentaire des données dans NAKALA.

Suite à cette phase d’expérimentation, ce réseau est déployé à l’échelle nationale et se met en place. Il rassemble des personnels volontaires issus des relais locaux et d’autres acteurs de terrain (Maisons des Sciences de l’Homme - MSH, Ateliers de la donnée de Recherche Data Gouv, Consortiums Huma-Num, services spécialisés) :

  • les personnes doivent avoir suivi une formation au dépôt de qualité dans NAKALA (webinaire, cycle “Accompagner au dépôt de qualité dans NAKALA”, etc.)
  • nous privilégions les personnes ayant un profil SHS
  • pour 2024-2025, année de constitution du réseau, nous limitons à 2/3 personnes par entité locale afin de faciliter la construction du réseau

Si vous êtes en situation d’accompagner localement la communauté SHS au dépôt de données dans NAKALA et que vous envisagez de participer à la modération de jeux de données dans NAKALA, vous pouvez déclarer votre intérêt en nous contactant à l’adresse suivante : ateliersdeladonnee@listes.huma-num.fr.

Cycles de formation au dépôt dans NAKALA :

Huma-Num programme chaque année des formations pour les personnels qui accompagnent au dépôt dans NAKALA : https://www.huma-num.fr/formations/

Ces formations se déroulent sous forme de webinaire, et depuis deux ans, un cycle spécifique est proposé aux personnels des Ateliers de la donnée labellisés et en cours de labellisation.

L’objectif de ce cycle est d’assurer des dépôts de qualité et de partager un discours commun avec et auprès des utilisateurs de NAKALA, depuis les échelles locales à l’échelle nationale.

3 sujets sont abordés :

  • 1 / Découverte de NAKALA : fonctionnalités de dépôt, ressources, présentation du projet de modération des données NAKALA
  • 2 / Comprendre le schéma de métadonnées NAKALA et savoir l’exploiter
  • 3 / Exploiter et préserver les fichiers : bonnes pratiques et outils

Modalités d’évaluation de la qualité documentaire des données

En complément de la formation, plusieurs outils sont mis à la disposition des modérateurs NAKALA pour faciliter l’accompagnement des déposants :

  • une documentation détaillée en ligne du schéma de description et des conseils sur les formats de fichiers ;
  • un guide de dépôt de 2 pages qui synthétise les principaux critères à prendre en compte pour une description riche et des fichiers de qualité ;
  • une grille de modération mise à disposition du réseau des modérateurs qui définit les critères à contrôler et les règles d’évaluation nécessaires pour valider la qualité du dépôt et lui attribuer le statut ‘Modéré’.

Fonctionnement de la modération des jeux de données dans NAKALA

L’évaluation documentaire d’un dépôt et l’attribution du label qualité passe par les actions suivantes :

  • le gestionnaire du dépôt demande la modération en sélectionnant un modérateur ;
  • la mise en contact est automatique, le modérateur prend en charge l’échange ;
  • une phase d’évaluation et d’échanges entre le modérateur et le déposant se déroule en toute autonomie ;
  • une fois les critères de qualité atteints, le modérateur attribue le statut ‘Modéré’ au dépôt.

Pour rendre cela possible, de nouvelles fonctionnalités ont été développées :

  • ajout d’un rôle modérateur et création d’un statut ‘Modéré’ ;
  • création d’une zone “Demander la modération de cette donnée” associée à une liste de modérateurs accessible aux gestionnaires de la donnée ;
  • lorsque la donnée est évaluée de qualité en conformité avec les critères fournis, le modérateur modifie le statut de la donnée pour lui attribuer le statut ‘Modéré’ ;
  • une fois ce statut sélectionné, automatiquement s’affichent : le nom du modérateur, la date de modération et le label ‘Modéré’ sur la page de présentation de la donnée ;
  • si la donnée modérée est modifiée par la suite, elle perd automatiquement le statut ‘Modéré’

Huma-Num remercie les 5 sites pilotes qui ont expérimenté durant plusieurs semaines le circuit, les outils et qui nous ont fait des retours constructifs nous permettant de tester les modalités pratiques de mise en oeuvre du circuit de modération.