Huma-Num Box : présentation globale

Description générale

 Début 2016, Huma-Num a complété son offre de services par un dispositif de stockage sécurisé distribué sur RENATER à destination principale de ses structures partenaires, et consolidé sur ses points de présence à Villeurbanne et Paris. Celui-ci vise à faciliter pour les chercheurs le stockage, la sécurisation et la gestion de leurs jeux de données volumineux. Le dispositif est indépendant des autres systèmes et service d'Huma-Num (Sharedocs, Nakala, hébergement Web et serveur virtuel). Il offre un service complémentaire pour accueillir des jeux de données, principalement de grandes tailles (plusieurs centaines de Téraoctets au total). Ce dispositif est une infrastructure technique, indépendante des usages fonctionnels (au sens des données : usage, référencement, traitement, publication, ...) et des usages métier. Il est à considérer comme un équivalent technique d'un serveur de fichiers ordinaire, avec des fonctionnalités supplémentaires de sécurisation et de préservation (cf. infra). Le dispositif utilise des disques magnétiques et des bandes magnétiques, pour stocker les données.

Caractéristiques des données pouvant être accueillies par le dispositif

 Les données candidates à ce dispositif sont réputées "tièdes" voire "froides", au sens où assez peu d'accès en écriture comme en lecture seront effectués durant toute la vie de ces données. Par contre ces données ont vocation à être conservées de manière fiable durant plusieurs années (5 à 10 ans), car elles constituent la matière première du travail de recherche et ont souvent une valeur de type patrimonial. Ce service de stockage peut être vu comme le pendant numérique d'une armoire sécurisée où l'on stocke des documents importants, nombreux, organisés (en rayonnages, boites archives, dossiers) et documentés (fiches). Ceci à la différence d'un bureau où se trouvent en vrac les documents courants et de toutes natures. Ces données sont notamment issues de campagnes de numérisation de fonds anciens, de photos, d'enregistrements audio, de cartes, de vidéos, de modèles 3D. Elles sont uniquement sous la forme de fichiers, éventuellement accompagnés de fichiers de méta-données techniques et documentaires librement produits par les utilisateurs. Le dispositif lui-même ne gère pas l’association des méta-données et des données, c’est à l’utilisateur de le prendre en charge. Les données stockées ne peuvent pas être sous forme de bases de données au sens informatique. Leur volume pourra atteindre plusieurs Téraoctets par jeu de données. Les données sont organisées en "partages" (ou "volumes"), disposant de règles d'accès comme celles utilisées sur des services de fichiers classiques. Chaque gestionnaire de ces partages définit librement l'organisation arborescente des fichiers contenus dans chaque partage, afin de répondre au plan de classement qu'il aura défini lui-même.

Caractéristiques fonctionnelles du dispositif

 Pour chaque partage, il est défini :

  • les personnes pouvant accéder en lecture et en écriture à ces données ;
  • les sites et plus finement les adresses IP pouvant accéder à ces données (un même partage pourra être accessible depuis plusieurs sites) ;
  • le nombre de copies des données pouvant varier typiquement de 1 à 2 ;
  • avec ou non une copie sur bandes magnétiques ;
  • la gestion des versions dans le temps d'un même fichier (mécanisme d'historisation) ;
  • la durée de rétention permettant de conserver des données supprimées par les utilisateurs (mais restant accessibles aux administrateurs du dispositif).

Globalement, chaque partage est caractérisé par une politique d'accès et une politique de sécurisation qui lui sont propres, et qui peuvent être modifiées au fil du temps. Le dispositif assure en continu le respect de ces politiques. Ainsi la modification des localisations, du nombre d'instances, du nombre de versions dans le temps, ne nécessite aucune opération humaine.  

Architecture du dispositif

 Le dispositif est à considérer comme un ensemble intégré unique, comportant plusieurs serveurs répartis entre les structures partenaires et Huma-Num.  A ce jour, les structures partenaires sont les MSH de Rennes, Nantes, Val de Loire, Toulouse et Lyon, ainsi que l’EHESS (Paris) et La Contemporaine (Nanterre). Neuf serveurs sont en production pour une capacité de 800 Téraoctets sur disques et 500 Téraoctets sur bandes. Plus d’une centaine de jeux de données sont définis, pour environ 500 Téraoctets. Chaque serveur a un rôle équivalent aux autres et participe aux divers traitements mis en œuvre, notamment pour la sécurisation constante des données.Le dispositif maintient un catalogue global et unique des partages et des données, dont chaque partie est présente sur au moins trois serveurs, afin de le sécuriser fortement. L’authentification des utilisateurs s’appuie sur l’annuaire LDAP d’Huma-Num commun à de nombreux services de la TGIR. La gestion de l’annuaire est déléguée par branche à chaque site participant grâce à l’outil FusionDirectory et l’interface accessible en https://annuaire.huma-num.fr. Enfin la volumétrie disponible et les licences logicielles sont également globales. On parle de stockage virtualisé. L'investissement d'Huma-Num consiste en :

  • les 9 serveurs et 13 baies de stockage de marque Dell ;
  • l'acquisition de licences du logiciel Active-Circle de la société Oodrive ;                  
  • une garantie matérielle et logicielle sur 7 ans sur l’ensemble ;
  • la ressource humaine pour la gestion complète du dispositif. 

Huma-Num est le seul maître d’œuvre et administrateur du dispositif. Chaque site participant demande à Huma-Num la création, la suppression ou la modification des caractéristiques des partages. Un groupe d'utilisateurs est associé à un partage, permettant ainsi de déléguer la gestion de qui accède au partage (par gestion de ce groupe dans l'annuaire commun). 

Des présentations du dispositif sont disponibles en :

Accès au dispositif

 A/ Depuis tout point de l'Internet

Deux méthodes d'accès sont disponibles :                 

  • via un client utilisant le protocole SFTP (comme Filezilla, rsync, etc.)  vers le serveur sftp.huma-num.fr ;
  • via une interface Web en lecture uniquement permettant une consultation minimaliste de l’arborescence des fichiers (URL à choisir). 

Comme évoqué précédemment,  il est tout à fait possible de coupler une application Web plus élaborée en lien avec un jeu de données stocké dans le dispositif. Il est à noter qu’il n’est pas du tout nécessaire de se trouver sur un site où se trouve un des nœuds, pour utiliser le service. Celui-ci est accessible à tout le monde, sans prérequis technique ou d’hébergement de serveur ou encore d’investissement financier. Huma-Num se réserve la responsabilité de faire évoluer l’architecture du dispositif en fonction de sa croissance et de l’opportunité de positionner des nœuds supplémentaires dans tel ou tel site. Enfin, il est possible d’injecter des données dans le service, sans forcément en garder une copie localement. Dans ce cas, il est nécessaire de demander que deux copies soient créées dans le service pour pallier l'absence d'une copie locale.

 B/ Pour les sites hébergeant un des serveurs du dispositif 

L’intérêt secondaire du service est aussi d'amener une fonction de type "serveur de fichiers" au plus près des utilisateurs sur le réseau local où se trouve un des noeuds. Ceci afin de s'affranchir des contraintes réseau et d'en rendre l'usage le plus simple possible, proche de celui d'un disque interne, externe ou réseau. Techniquement on parle de NAS (Network Access System), des protocoles d'accès classiques (NFS, CIFS, FTP). L'accès aux partages peut alors se faire depuis l'ordinateur des utilisateurs par les mêmes méthodes et les mêmes outils qu'avec n'importe quel serveur de fichiers (« Connexion à un lecteur réseau » et capacité à utiliser le « glisser-déposer », clients FTP comme Filezilla, etc.). Concrètement par une connexion CIFS (« Connexion à un lecteur réseau »), le jeu de données apparaît sur le Bureau ou dans l’Explorateur de fichiers de l’ordinateur de l’utilisateur. Il peut alors manipuler les données strictement comme si elles étaient sur son disque interne. Pour étendre cette fonctionnalité aux utilisateurs ne se trouvant pas sur un site où est hébergé un nœud, un dispositif de VPN (Virtual Private Network) est possible. Huma-Num va étudier la possibilité de proposer un accès à cette fonctionnalité, sans que l’utilisateur n’ait à en réaliser la configuration technique. 

Limitations techniques du dispositif

Limitations sur le nombre de fichiers

 Comme tout système de stockage distribué, le dispositif est sensible au nombre de fichiers. Aussi chaque structure candidate indique un ordre de grandeur du nombre de fichiers qu'elle compte déposer. Au delà de 10 millions de fichiers, une étude devra être menée avec Huma-Num pour préciser la faisabilité. De plus, il est instamment demandé de ne pas dépasser environ 10 000 fichiers dans un même dossier. Au-delà, il convient d'étudier avec Huma-Num les solutions de contournement. 

Limitations sur la nature des données

 Les données sous forme de bases de données binaires (MySQL, PostgreSQL, etc.) ne peuvent pas être stockées dans le dispositif. De même pour les disques virtuels de machines virtuelles. 

Performances

 Le dispositif n'est pas conçu pour :                 

  • un temps d'accès ultra-rapide ;               
  • une très grande vitesse en transfert, en lecture comme en écriture ;                 
  • un usage bureautique ;             
  • un traitement intensif et parallèle sur les données. 

Néanmoins le retour d’expériences après trois d’années d’exploitation est positif. Aucune limitation perceptible par les utilisateurs du dispositif n’est à noter. Des vitesses de transfert de plus de 50 Mo/s sont observés régulièrement. Des traitements intensifs ont pu être réalisés avec de bonnes performances, en respectant un traitement séquentiel. De plus, trois applications Web importantes publient désormais leurs fichiers media via un stockage sur ce dispositif. Il s’agit des sites Cocoon, Archeogrid et Telemeta.

Aussi il convient de noter que le dispositif peut a priori être utilisé pour publier par toute application Web un corpus de données sous forme de fichiers de taille significative (images, sons, vidéos). Enfin, il est souligné que le serveur de chaque site est utilisé pour stocker des données d'autres sites. Il est donc sollicité pour des opérations ne découlant pas uniquement de celles réalisées par les utilisateurs du site où est situé le serveur. 

Disponibilité, intégrité, confidentialité

L'engagement d'Huma-Num sur ce dispositif est de la même nature que pour les autres services :                  

  • "best effort", quant à la disponibilité
  • haut niveau, quant à l'intégrité et la confidentialité

Le retour d’expérience sur trois ans montre :                  

  • aucun incident concernant la conservation, l’intégrité ou la confidentialité des données                
  • après une phase de réglages et de corrections de bugs avec l’éditeur, une disponibilité très satisfaisante. 

Le dispositif est réputé sûr quant à la conservation des données, moyennant évidemment l'existence de deux jeux de données sur deux sites. Un mécanisme de vérification automatique des signatures des fichiers peut être mis en place.  

De plus, un archivage binaire des données peut être mis en place sur bandes magnétiques LTO. Ceci constitue une duplication des données sur d’autres médias que des disques magnétiques. Ces bandes peuvent être verrouillées en écriture, sont relues et contrôlées automatiquement et périodiquement, et elles sont écrites dans un format ouvert et normalisé (TAR). 

Quant à la confidentialité, elle est garantie par la bonne gestion des droits d'accès aux partages. L'éventuel besoin de chiffrement des données reste à la charge des utilisateurs. Une fonction de chiffrement à la volée sera disponible dans le courant de l’année 2019.Toutefois, les accès en SFTP ou en FTPS opèrent déjà un chiffrement de la communication entre l'utilisateur et le service, lors des échanges.  

Pré-requis et responsabilités assumées par la structure partenaire

 Ce qui suit ne concerne donc que les sites hébergeant un nœud existant ou souhaitant héberger un nœud supplémentaire. Comme dit précédemment, ceci n’est pas du tout nécessaire pour utiliser le service, et ne peut se faire qu’après dialogue approfondi avec Huma-Num, après justification de l’usage préalable du service, de la volumétrie des données concernées, des capacités d’hébergement, et de la plus-value que représente le fait d’avoir un nœud sur son site. 

Aspects organisationnels

 Compréhension et acceptation par la structure partenaire :                  

  • d'être insérée dans un dispositif national piloté uniquement par Huma-Num            
  • des objectifs, usages et restrictions du dispositif
  • du coût associé au dispositif

Engagement de la structure partenaire :                

  • à désigner des correspondants fonctionnel et technique et à en désigner de nouveaux le cas échéant
  • à un usage rapide du dispositif pour un ordre de grandeur significatif (au moins une dizaine de To)
  • sur une durée d'au moins cinq ans
  • à informer rapidement Huma-Num dès que l'usage ne donne plus satisfaction ou n'est plus effectif
  • à signer chaque année ce qui est demandé à ces correspondants (cf. supra) et à le transmettre à Huma-Num. 

Aspects fonctionnels

 Nomination d'un correspondant fonctionnel en charge, en lien avec Huma-Num, de :

  • la gestion des utilisateurs (création/suppression des comptes)
  • la gestion des données (définition et gestion des partages)
  • la gestion des politiques de sécurité et leur évolution dans le temps.

Cette personne a pour rôle vis à vis des données :                  

  • la sélection des jeux de données éligibles et des politiques ad-hoc
  • la gestion de la volumétrie utilisable/utilisée en local comme en central et du nombre de fichiers
  • l'établissement des plans de classement des arborescences, et des règles de gestion (dépôt en masse, mise à jour, consultation, etc.).

Cette personne a également pour rôle vis à vis des utilisateurs finaux :                  

  • le choix et la formation des utilisateurs
  • l'accompagnement et le contrôle de leur bon usage
  • le support de premier niveau.

Chaque année, le correspondant fonctionnel réalise un petit mémo factuel comportant :                  

  • un pointage et la validation de la liste des utilisateurs
  • un pointage et la validation des volumes, des arborescences, des droits sur les données
  • un bilan sur l'usage par les utilisateurs du dispositif
  • les soucis rencontrés
  • les évolutions envisagées
  • ce mémo est transmis pour signature à la direction de la structure partenaire.

Profil type du correspondant fonctionnel :                  

  • ingénieur BAP E ou F
  • ayant une bonne compréhension de l'aspect fonctionnel du dispositif                   -
  • ayant une bonne pratique de la manipulation, le transfert et la gestion dans le temps de gros volumes de données
  • ayant une sensibilisation forte aux questions de :
    • minimisation du nombre de versions du même fichier
    • définition raisonnable de la politique d'historisation et de réplication des données
    • sensibilisation des utilisateurs au fait que les chemins complets des fichiers doivent changer le moins possible. 

Aspects techniques

Nomination d'un correspondant technique en charge, en lien avec Huma-Num, de :    

  • l'intégration du dispositif localement    
  • la coordination technique avec Huma-Num
  • un suivi régulier du fonctionnement technique
  • un premier niveau de diagnostic
  • la remontée des problèmes techniques auprès d'Huma-Num
  • l'accueil des pièces de remplacement et du suivi strict des consignes associées pour leur installation.

Accueil du serveur et de la baie physique dans un local technique ad-hoc :  

  • local prémuni de l'eau
  • refroidissement suffisant
  • secours électrique minimum
  • pas d'impact sonore majeur à l'extérieur
  • rack informatique ou meuble solide
  • deux prises 1 Gb/s vers un commutateur assez récent et avec des cordons catégorie 6 neufs

Contraintes système :                  

  • Huma-Num reste seul administrateur du serveur et de la baie
  • aucune autre application ne peut être installée sur ce serveur
  • il est demandé l’accès à la carte de gestion à distance du serveur (carte IPMI de type iDrac) à Huma-Num.

Contraintes réseau :                  

  • connectivité 1 Gb/s de bout en bout : du local technique jusque vers le backbone RENATER
  • celle-ci est soigneusement vérifiée, par des mesures entre le local technique et les sites Huma-Num
  • accord de la structure partenaire ainsi que des DSI locales et régionales pour :
    • usage dans un premier temps d'un dispositif de VPN logiciel (OpenVPN)
    • puis travail en lien avec les réseaux de campus et régionaux pour passage sur l'offre L3VPN de RENATER                 
  • fourniture de deux adresses IPv4 publiques routées sur Internet.

Chaque année, le correspondant technique réalise un petit mémo factuel comportant :

  • un bilan d'exploitation
  • un résumé des soucis rencontrés
  • les évolutions envisagéesCe mémo est transmis pour signature à la direction de la structure partenaire.

Profil type du correspondant technique :                  

  • ingénieur BAP E
  • ayant de bonnes connaissances en administration système Linux et réseau IP                
  • ayant une bonne compréhension de l'aspect technique du dispositif 
Moyenne des notes : 0 (0 Vote)

Vous ne pouvez pas commenter cet enregistrement