ISIDORE

EnglishEspañol

Qu’est-ce qu’ISIDORE ?

ISIDORE est un moteur de recherche et un assistant de recherche permettant de découvrir et de trouver des publications, des données numériques et profils de chercheurs et chercheures en sciences humaines et sociales (SHS) venant du monde entier.

Il permet de rechercher dans le texte intégral de plusieurs millions de documents (articles, thèses et mémoires, rapports, jeux de données, pages Web, notices de bases de données, description de fonds d’archives, etc.), des signalements d’événements (séminaires, colloques, etc.). De plus, ISIDORE relie entre eux ces millions de documents en les enrichissant à l’aide de concepts scientifiques issus des travaux des communautés de recherche des SHS.

Il est accessible sur le Web sur le portail isidore.science.

Il propose également des fonctionnalités de réseau social scientifique. À ce titre, il entre dans la catégorie des moteurs et assistants de recherche et offre de nombreuses fonctionnalités pour organiser de la veille scientifique.

Lancé le 8 décembre 2010, ISIDORE est le fruit de la collaboration du “très grand équipement” Adonis du CNRS (2007-2013), du Centre pour la communication scientifique directe et des sociétés Antidot, Mondéca et Sword. Il est actuellement développé, mis à jour et exploité par l’IR* Huma-Num.

Références sur l’histoire d’ISIDORE :

  • POUYLLAU, Stéphane. (2023) ISIDORE : reprise des mises à jour ! Carnet de recherche d’Huma-Num
  • POUYLLAU, Stéphane, CAPELLI, Laurent, MINEL, Jean-Luc, BUNEL, Mélanie, SAURET, Nicolas, BAUDE, Olivier, JOUGUET, Hélène, BUSONERA, Pauline, & DESSEIGNE, Adrien. (2021). ISIDORE à 10 ans. Zenodo. 10.5281/zenodo.5699997
  • Philippe Bourdenet, “L’espace documentaire en restructuration : l’évolution des services des bibliothèques universitaires”, Le serveur TEL (thèses-en-ligne), tel-00932683
  • Yannick Maignien, “ISIDORE, de l’interconnexion de données à l’intégration de services”, Hyper Article en Ligne - Sciences de l’Homme et de la Société, sic_00593320
  • Stéphane Pouyllau et al., “Bilan 2011 de la plateforme ISIDORE et perspectives 2012-2015”, MoDyCo, Modèles, Dynamiques, Corpus - UMR 7114, 10670/1.bqexsj

À qui s’adresse-t-il ?

ISIDORE s’adresse à l’ensemble de la communauté universitaire internationale, l’ensemble du site est disponible en 3 langues. Il s’adresse aussi aux publics souhaitants approfondir leurs connaissances sur des sujets liés aux sciences humaines, aux sciences sociales et plus largement aux questions des sociétés du monde.

À qui s’adresse cette documentation ?

Cette documentation s’adresse à l’ensemble de la communauté universitaire internationale. Les aspects de :

  • fonctionnement général ;
  • choix éditoriaux ;
  • qualité des métadonnées et des données attendues.

s’adressent en première destination aux chercheurs et aux documentalistes. Les aspects plus techniques s’adressent aux documentalistes, aux développeurs d’applications et aux data-scientists.

Comment fonctionne ISIDORE ?

ISIDORE moissonne des métadonnées textuelles et du texte intégral, les enrichit puis les indexe. Il exploite les métadonnées des documents ainsi que le texte intégral. Le but est d’analyser ces informations afin de les enrichir, de les relier des concepts des référentiels scientifiques (thésaurus, etc.), de les relier aux identifiants de référentiels d’auteurs (ORCID, IDRef développé par l’ABES, IDHAL de l’archive ouverte HAL, VIAF, etc.).

Plusieurs enrichissements sont effectués :

  • L’annotation sémantique : les mots présents dans les métadonnées des documents sont comparés aux entrées des référentiels par le biais d’un algorithme fondé sur une analyse morphologique des termes. Si une équivalence s’effectue entre un terme issu du document et une entrée de l’un des référentiels, alors la ressource sera reliée à ladite entrée du référentiel. Les référentiels sont multilingues et alignés entre eux. Ainsi, l’annotation sémantique est multilingue.

  • La catégorisation disciplinaire : ISIDORE utilise un classifieur sémantique qui, après avoir été entrainé sur un corpus de référence, catégorise dans les disciplines SHS du référentiel MORESS tous les documents présents dans ISIDORE. L’entrainement du classifieur, qui est une forme d’IA, est réalisé à l’aide de la catégorisation manuelle ou semi-manuelle effectuée par les chercheurs dans HAL lors du dépôt de leurs publications. Depuis 2023, une expérimentation du HN Lab permet de tester des apports plus automatisés.

Le classifieur fonctionne selon le schéma suivant :

classifieur Antidot ISIDORE

  • La détection des auteurs : ISIDORE détecte les auteurs des documents (quand cela est possible) et enrichit la forme auteur (prénom et nom) à l’aide d’identifiants auteurs (PID) académiques internationaux (ORCID, VIAF, ISNI) et nationaux (IDHAL, IDRef).

ISIDORE indexe, dans son moteur de recherche :

  • Les métadonnées des sources de données et de publication (les bases de données indexées par ISIDORE) ;
  • Les métadonnées des documents ;
  • Le texte intégral (s’il est disponible en libre accès) ;
  • Les annotations sémantiques ;
  • La classification disciplinaire ;
  • L’enrichissement et la normalisation des auteurs.

Plus d’information est disponible sur la page “Référentiels” d’ISIDORE.

ISIDORE peut-il indexer des documents et données multilingues ?

Oui. Depuis 2015, les métadonnées, documents et jeux de données en anglais, espagnol et français sont indexés, enrichis et reliés aux référentiels scientifiques par ISIDORE (métadonnées et texte intégral). Pour le texte intégral des documents, en plus de ces trois langues, il est indexé dans la langue du document.

Pour plus d’information, vous pouvez consulter notre billet sur le sujet : Isidore speaks English, sino también español et toujours en français.

Quelle est la fréquence de mise à jour d’ISIDORE ?

Les mise à jours sont quotidiennes. Les opérations de maintenance sont programmées à l’avance (sauf panne).

Quel est le circuit d’ajout de collections dans ISIDORE ?

ISIDORE moissonne des “collections” de documents et de données, c’est le terme utilisé dans ISIDORE. Ces collections peuvent être des entrepôts de données, des bases de données qui proposent des métadonnées, des données et des liens vers ces données.

Comment faire pour ajouter des collections à ISIDORE ?

Deux cas :

  • Un projet de recherche, une équipe, un laboratoire, une bibliothèque peuvent proposer des collections à moissonner par simple demande e-mail à isidore-sources@huma-num.fr. L’équipe d’Huma-Num étudie la demande et échange avec le demandeur afin de bien comprendre comment sont décrites les métadonnées et les données à indexer. Le plus souvent il est procédé à un premier moissonnage et une première indexation et enrichissement pour que le demandeur puisse voir et analyser comment seront indexées ses données dans ISIDORE. Puis, les échanges se poursuivent potentiellement pour ajuster au mieux le processus d’indexation.

À noter

Les sites Web hébergés par l’IR* Huma-Num ne sont pas indexés automatiquement ! Il faut en faire la demande afin d’échanger avec l’équipe sur les questions d’interopérabilité devant être mises en place, les questions de granularité documentaire des contenus à inclure et les questions de qualité des métadonnées, etc.

  • L’équipe de l’IR* Huma-Num repère un entrepôt de données ou une bibliothèque numérique et prend contact avec le producteur des données ou la structure qui diffuse ces données pour échanger et proposer le moissonnage et l’indexation dans ISIDORE. Il est procédé à un premier moissonnage, une première indexation et enrichissement pour que le demandeur puisse voir et analyser comment seront indexées ses données dans ISIDORE. Puis, les échanges se poursuivent potentiellement pour ajuster au mieux le processus d’indexation.

Comment consulter l’annuaire des collections moissonnées ?

Dans ISIDORE, les collections sont elles-mêmes indexées par le moteur de recherche. Elles sont donc disponible dans le portail isidore.science. Il est donc possible de rechercher une collection, afin de vérifier qu’elle est indexée par ISIDORE, ou toutes les sources.

Pour rechercher ou lister toutes les sources d’ISIDORE, il suffit d’indiquer % dans la barre de recherche en sélectionnant dans cette dernière l’espace de recherche “Sources” à la place de “Documents”.

Comment utiliser ISIDORE ?

ISIDORE propose plusieurs outils pour rechercher, découvrir, collecter et organiser les contenus qu’il indexe.

Le portail isidore.science

Le portail isidore.science est un site Web en trois langues qui propose un moteur de recherche par pertinence qui peut être utilisé avec plusieurs méthodes d’interrogation.

  • Par défaut, ISIDORE cherche tous les mots d’une requête posée par l’utilisateur/utilisatrice en enlevant les mots vides (“de”, “la”, “le”, “les”, etc.) ;
  • Il est possible de chercher un document avec une phrase complète ou un groupe de mots en utilisant les guillemets autour de la phrase, par exemple : “direction de conscience” cherchera précisément cette phrase. Ainsi, dans ce cas-là, le “de” ne sera pas considéré comme un mot vide ;

Les opérateurs de recherche

Plusieurs opérateurs de recherche booléens sont disponibles dans ISIDORE.

À noter

La syntaxe des opérateurs est importante dans ISIDORE, ils sont toujours en MAJUSCULE (ex. ET ou AND)

Sont disponibles :

  • ET (AND) : l’intersection permet de trouver les termes (ou ensemble de termes) communs à la requête. Par exemple :
    • conscience ET genre
    • “guerre froide” ET migrations
  • OU (OR) : la réunion permet de trouver les termes cherchés appartenant aux deux ensembles de termes, ou à l’un ou à l’autre. Par exemple :
    • “Web sémantique” OU “Web 3.0”
  • SAUF (NOT) : l’exclusion permet de réduire le bruit en excluant des termes. Par exemple :
    • révolution SAUF Française
  • PROCHE(n.) (NEAR(n.)) : l’opérateur PROCHE(n.) (comprendre “proche de”) permet de lier des termes en indiquant une valeur “n.” de proximité entre ces derniers. Il fonctionne comme un ET avec n. mot(s) entre les termes. La valeur “n.” indique le nombre de mots devant séparer les deux termes recherchés. PROCHE fonctionne aussi sans la valeur n. et est dans ce cas-là égal à un PROCHE(10), c’est à dire 10 mots entre les termes recherchés (espacement standard).
    • maison PROCHE(4) noblesse : recherche maison et noblesse avec une proximité de 4 mots

Tri des résultats de recherche

Par défaut, dans isidore.science, il est proposé un tri des résultats par pertinence sémantique. Il est possible de changer le tri des résultats de recherche pour :

  • un tri par nouveauté
  • un tri sur le nom de l’auteur·e par ordre alphabétique
  • un tri sur le nom de l’auteur·e par ordre alphabétique inversé
  • un tri par date croissante
  • un tri par date décroissante
  • un tri sur le titre par ordre alphabétique
  • un tir sur le titre par ordre alphabétique inversé

La recherche avancée

Une recherche avancée est également disponible à l’adresse https://isidore.science/as et également accessible depuis la première page du portail.

L’espace personnel pour les chercheurs et chercheures

Isidore.science propose un espace personnel pour les chercheurs et chercheures, doctorants et doctorantes permettant :

  • de collecter, de classer, d’organiser les documents trouvés ;
  • d’y regrouper l’ensemble de sa production scientifique afin de l’éditorialiser dans une page de profil personnel ;
  • d’y suivre les productions de collègues ;
  • d’y enregistrer et d’y publier ses requêtes et leurs résultats à des fins de veille ;
  • d’y constituer des bibliographies exportables vers Zotero ;

L’accès à cet espace se fait via un compte HumanID.

Les API d’isidore.science

Les API du moteur de recherche d’isidore.science sont disponibles à l’adresse https://api.isidore.science par la méthode GET sur HTTPS. Elles offrent un service de requêtage des données d’ISIDORE à la fois rapide, précis et fiable avec des fonctionnalités de recherche élaborées (auto-complétion, correction orthographique, recherches multi-critères, booléenne et à facettes, tri, agrégation des réponses, etc).

Chaque requête au moteur est soumise au moyen d’une URI pointant vers un service Web spécifique. La réponse est un flux au format XML (format par défaut) ou JSON.

La page Web sur les API d’isidore.science détaille l’ensemble des commandes disponibles pour les différents services disponibles.

À noter

Depuis le 15 sept. 2023. ISIDORE ne propose plus de tripleStore RDF et de SPARQL endpoint.

Complémentarité entre ISIDORE et Zotero

Utilisation depuis ISIDORE du connecteur Zotero pour alimenter sa base bibliographique

ISIDORE est compatible avec Zotero et permet d’importer les références des documents sur deux niveaux dès lors que l’utilisateur a installé le connecteur Zotero dans son navigateur :

  • Sur la page listant les résultats d’une recherche,
  • Dans la page de visualisation d’un document.

Utilisation depuis Zotero du connecteur de recherche d’ISIDORE

Zotero (client Linux, MacOS, Windows) permet d’utiliser des moteurs de recherche pour rechercher ou compléter des références bibliographiques directement depuis l’interface de Zotero. Nous proposons ici deux connecteurs ISIDORE pour Zotero permettant d’utiliser ISIDORE à partir de recherche sur les auteurs.

L’ajout d’ISIDORE à Zotero permet :

  • De compléter des références à partir d’une recherche sur le nom de l’auteur : c’est le “ISIDORE, aide-moi à trouver ce qu’il/elle a publié.”
  • De trouver des documents dans lequel l’auteure ou l’auteur est cité : c’est le “ISIDORE, qu’as-tu sur l’auteur/auteure ?”

Ces connecteurs et la documentation d’installation sont disponibles sur le GitLab de l’IR* Huma-Num.

Utilisation des flux RSS

ISIDORE peut proposer ses résultats de recherche sous la forme de flux RSS dans le but d’alimenter des logiciels de veille scientifique (dont Zotero par exemple), des carnets de recherche, etc. Les flux RSS créés dans ISIDORE sont mis à jour, comme l’ensemble des contenus du moteur de recherche, une fois par mois environ lors de la mise à jour générale des contenus d’ISIDORE. Ainsi, il est possible de suivre, depuis Zotero, la mise à jour des documents d’ISIDORE issus des requêtes enregistrées.

Pour cela, il faut demander à ISIDORE — dans son espace personnel en mode connecté, le lien vers le flux RSS d’une requête enregistrée en allant, une fois dans votre espace personnel, dans “Mes requêtes” :

Mon Image

Pour une requête enregistrée, il faut cliquer sur le pictogramme “Flux RSS de la requête” disponible à droite Mon Image et d’en copier le lien avec Mon Image.

Le lien copié est de la forme : https://isidore.science/feed/lt3913.

Si votre navigateur est équipé d’un module de lecture des flux RSS, il sera possible d’utiliser ce lien directement dans votre navigateur. Dans notre exemple, Nous allons l’utiliser dans Zotero.

Dans Zotero, il faut choisir : Nouveau flux > À partir de l’URI :

Mon Image

Puis d’ajouter l’url du flux fourni par ISIDORE (avec le navigateur Safari, sous MacOS, prendre soin de retirer la mention “feed:” de l’url). Venir ensuite le coller dans “URL” de la fenêtre de création de flux RSS de Zotero, exemple ci-dessous :

Mon Image

Il faut ensuite donner un titre à son flux, par exemple : “isidore.science - veille sur …”.

Que trouve-t-on dans ISIDORE ?

Définitions

ISIDORE est constitué :

  • De “Documents” collectés (moissonnés) qui sont constitués de métadonnées et potentiellement d’un accès à des fichiers textuels ou audio-visuel (full text). Ces deux éléments sont indexés par le moteur de recherche ;
  • De “Sources” qui contiennent les Documents. Les sources constituent des ensembles cohérents intellectuellement de Documents ;
  • D’organisation qui regroupe une ou plusieurs Sources et qui font le lien avec la structure qui a publié ou mis à disposition les Documents.

Organisation des Documents, des Sources et des Organisations dans ISIDORE

ISIDORE contient plusieurs millions de documents en SHS qui sont moissonnés, enrichis avec des référentiels scientifiques et indexés. Ils sont organisés en :

  • Documents et données de la recherche (fonds d’archives, matériaux bruts, photographies, films, jeux de données, statistiques, etc) et sont identifiés dans l’ontologie d’ISIDORE par : http://isidore.science/class/primaires
  • Documents et données publiées (articles, livres, mémoires et thèses, rapports, etc.) et sont identifiés dans l’ontologie d’ISIDORE par : http://isidore.science/class/secondaires
  • Événements scientifiques (colloques, journées d’études, etc.) et sont identifiés dans l’ontologie d’ISIDORE par : http://isidore.science/class/evenementielles

Pour un grand nombre de disciplines des SHS, ISIDORE permet de rechercher des documents venant des principales plateformes de publications du monde entier, ainsi qu’un grand nombre des fonds numérisés par les bibliothèques nationales, universitaires et municipales. Plus largement, il collecte aussi des documents dans des corpus de recherche et archives scientifiques.

Pour des usages poussés de recherche, la recherche avancée d’ISIDORE offre par exemple, la possibilité de rechercher des documents entre deux dates et par discipline ou encore par collections.

Les principales plateformes de publications (revues et livres) présentes dans ISIDORE sont :

  • OpenEdition
  • Cairn
  • Persée
  • Erudit
  • Oapen
  • Redalyc
  • Scielo Books
  • Prairial
  • PEREN

La liste complète des collections contenant des publications peut être obtenu en utilisant l’espace “SOURCES” dans la barre de recherche d’ISIDORE.

Les principales bibliothèques numériques (municipales, nationales, etc.) présentes dans ISIDORE sont :

  • Gallica
  • E-rara
  • NuBIS
  • Octaviana
  • Burgerbibliothek
  • Berkeley Library Digital Collections
  • Argonnaute
  • BNE
  • Cornell
  • Didόmena

Organisation des documents par types dans ISIDORE

L’ontologie des types de document dans ISIDORE

ISIDORE range également les documents et les données par leur nature, ou leur type : c’est à dire par articles, jeux de données, photographies, thèses, etc. Cela permet de proposer le filtre “Type de document” dans l’interface des réponses d’isidore.science.

La plupart des bases de données ou entrepôts de données qui alimentent ISIDORE utilisent un ou plusieurs vocabulaires normalisés pour exprimer ces types. Le plus souvent, ils sont exprimés à l’aide de métadonnées en Dublin Core (Element Set ou Terms, voir ci-dessous la section sur l’OAI et RDFa) et même s’il existe des référentiels de types (voir ci-dessous COAR), nous constatons une très grande hétérogénéité entre les producteurs de données.

Afin de rassembler le plus de documents dans une série exhaustive de types, ISIDORE réalise plusieurs traitements sur ces derniers. Il s’agit principalement de regrouper et de ranger les types en partant du type donné par le producteur de données et en l’alignant sur des URI de référentiels internationaux. Ces traitements de regroupement se font à l’aide d’une “l’ontologie des types d’ISIDORE” dont les entrées sont alignées sur les référentiels internationaux COAR, BIBO, RDFS, DCAT, Wikidata.

L’ontologie des types ISIDORE est disponible en ligne dans le GitLab d’Huma-Num au format XML (SKOS/RDF).

Dans la mesure où il s’agit d’un traitement effectué par ISIDORE, il est à noter que les labels de l’ontologie des types d’ISIDORE sont disponibles en anglais, français et espagnol comme le reste des enrichissements créés par ISIDORE.

Alignement des types de l’ontologie d’ISIDORE avec les types de NAKALA

Dans l’écosystème d’Huma-Num, depuis la refonte de NAKALA en 2020, le référentiel des types est le référentiel international “COAR” (Confederation of Open Access Repositories) développé dès 2008 dans le cadre du programme européen DRIVER et largement utilisé à l’échelle internationale dans la plupart des plateforme de données de science (OpenAIRE, etc.).

En 2020, un alignement des types de l’ontologie d’ISIDORE et ceux de NAKALA, à l’aide de COAR, a été mis en œuvre. Ce aligement sert à la fois dans l’interface de dépôt des données de NAKALA (elle alimente la liste déroulante “Type de dépôt”) et dans ISIDORE dans l’ontologie des types. Il est disponible :

À noter

Une présentation croisée des 3stores sera proposée dès que NAKALA proposera un 3store sur sa nouvelle version. Il est pour le moment possible d’utiliser les API de NAKALA et d’ISIDORE pour cela.

Alignement des disciplines entre ISIDORE et NAKALA

ISIDORE et NAKALA utilisent le même référentiel de discipline : MORES. Il est aussi utilisé aussi dans HAL depuis 2001.

Indexation des principales plateformes de données en SHS

ISIDORE moissonne, c’est le terme consacré, enrichit puis indexe les contenus de nombreuses plateformes de données en SHS permettant aux chercheurs de regrouper dans leur profil d’utilisateur l’ensemble de leurs données. Nous encourageons les chercheurs et chercheures, pour leurs programmes de recherche, à utiliser des plateformes proposant des dispositifs et protocoles d’interopérabilité ouverts permettant de présenter des métadonnées documentaires et scientifiques.

Les principales plateformes de données (sources, archives mais aussi publications) sont moissonnées par ISIDORE. La liste complète des collections contenant des publications peut être obtenue en utilisant l’espace “SOURCES” dans la barre de recherche d’ISIDORE.

N’hésitez pas à nous en signaler.

Les données déposées et documentées dans NAKALA peuvent-elles être référencées par ISIDORE ?

Oui, les données déposées dans NAKALA peuvent être moissonnées par ISIDORE sur demande, mais elles doivent pour cela remplir plusieurs conditions : - Elles doivent être rassemblées dans une collection NAKALA, qui sera le point d’entrée pour ISIDORE vers les données à moissonner (via le protocole OAI-PMH). À noter que dans NALALA, une collection est le niveau d’organisation des données qui est exposé sous la forme d’un Set OAI.

  • Les métadonnées suivantes doivent obligatoirement être renseignées :

    • Le type de donnée déposée selon l’ontologie des types de NAKALA ;
    • Le titre (qui doit être un titre et non le nom de l’un des fichiers constitutifs de la donnée) ;
    • Le ou les auteur·s de la donnée (voir l’item ci-dessous sur la question des formes auteurs) ;
    • Une date de création ;
    • La licence ;
    • Une ou des descriptions des données (qui peuvent être en plusieurs langues) ;
    • Il est également conseillé de renseigner au moins trois mots-clés en français, en anglais ou en espagnol. À défaut d’une description et de plusieurs mots-clés, ISIDORE ne sera pas en mesure d’indexer correctement les documents et surtout d’en enrichir les métadonnées pour les relier à d’autres documents.
  • Les auteurs des données saisis dans le champ dcterms:creator (dans la zone “Ajouter d’autres métadonnées) doivent tous être présentés sous une seule et même forme au sein d’une même collection (c’est la forme auteur), par exemple : “nom, prénom (rôle)”, “prénom nom” ou “nom, prénom (date de naissance-date de décès)”.

À noter

Plus largement, nous renvoyons le lecteur à la partie de cette documentation sur la qualité des données attendue dans ISIDORE.

Une fois les données préparées et organisées pour répondre à ces critères, les producteurs de données peuvent demander à ce que ces dernières soient moissonnées par ISIDORE. La demande s’effectue par e-mail via isidore-sources@huma-num.fr.

Comment des articles et images scientifiques déposées dans l’archive ouverte HAL, HAL-SHS et MédiHAL seront-elles accessibles dans ISIDORE ?

Tous les fichiers (PDF, illustrations, photographies, audio et vidéo) déposés et documentés dans l’archive ouverte HAL, dont HAL-SHS, ainsi que MédiHAL sont automatiquement référencés dans ISIDORE et indexés au niveau de leurs métadonnées. Tous ces documents et leurs notices sont donc accessibles à travers les différentes interfaces d’interrogation d’ISIDORE.

Les données déposées dans l’entrepôt Didómena (EHESS) peuvent-elles être référencées par ISIDORE ?

Oui, Didómena (l’entrepôt de données de la recherche de l’EHESS) propose une interopérabilité en OAI-PMH. Attention, le moissonnage n’est pas automatique. Pour être référencé au niveau de votre collection, merci de nous communiquer le point d’accès OAI-PMH via isidore-sources@huma-num.fr.

Les données déposées dans l’entrepôt Data.sciencespo peuvent-elles être référencées par ISIDORE ?

Oui, les données déposées et documentées dans Data.sciencespo (voir ci-dessous Dataverse) propose une interopérabilité en OAI-PMH. Il est moissonné automatiquement par ISIDORE.

Les données déposées dans l’entrepôt Recherche Data Gouv peuvent-elles être référencées par ISIDORE ?

Oui, les données déposées et documentées dans Recherche Data Gouv (voir ci-dessous Dataverse) propose une interopérabilité en OAI-PMH. Il est moissonné automatiquement par ISIDORE.

Les données déposées dans la plateforme COCOON d’Huma-Num peuvent-elles être référencées par ISIDORE ?

Oui, les données déposées et documentées dans la plateforme COCOON d’Huma-Num proposent une interopérabilité en OAI-PMH. Cette plateforme est moissonnée automatiquement par ISIDORE.

Les fichiers et documents déposés dans la plateforme européenne Zenodo peuvent-ils être référencés par ISIDORE ?

Oui, il est possible pour ISIDORE de référencer les fichiers et documents déposés et documentés sur la plateforme Zenodo.

Le référencement repose sur le principe du moissonnage OAI-PMH d’un ensemble de fichiers et données (et donc leurs métadonnées) correspondant à un ou des identifiant(s) des “communities” dans Zenodo (voir https://developers.zenodo.org/#sets). Nous pouvons aussi regrouper plusieurs identifiants Zenodo dans une même collection ISIDORE permettant ainsi aux déposants de plusieurs corpus déposés dans Zenodo de les regrouper dans ISIDORE pour leur donner plus de visibilité.

Les données et documents d’une base de données Heurist peuvent-ils être référencés par ISIDORE ?

Non, Heurist ne propose pas pour le moment d’interopérabilité OAI-PMH ou de connecteur sitemap/RDFa pour permettre à ISIDORE d’indexer des métadonnées et des données signalées dans des bases de données Heurist.

Des documents dans SharesDocs peuvent-ils être référencés par ISIDORE ?

Non, ShareDocs ne propose pas d’OAI-PMH ou de connecteur RDFa. Par ailleurs, n’étant pas un outil de publication de données et documents, les liens de partages de ShareDocs ne peuveut pas être considérées comme un accès pérenne aux données et documents.

Des documents stockés dans le réseau des Huma-Num Box peuvent-ils être référencés par ISIDORE ?

Non, la Huma-Num Box ne propose pas d’OAI-PMH ou de connecteur RDFa. Par ailleurs, n’étant pas un outil de publication de données et documents, la Huma-Num Box ne doit pas être utilisée comme un accès Web à des documents dans un contexte de citabilité des données de la recherche.

Un entrepôt de données sous Dataverse peut-il être référencé par ISIDORE ?

Oui, Dataverse propose un connecteur OAI-PMH en standard.

Les bibliothèques numériques utilisant “Gallica marque blanche” peuvent-elles être référencées par ISIDORE en tant que collection d’ISIDORE ?

Oui, car la BnF expose selon le protocole OAI-PMH les contenus de la bibliothèque numérique utilisant “Gallica marque blanche” sous la forme d’un “Set” OAI-PMH. Pour être référencé au niveau de votre collection, merci de nous communiquer le point d’accès OAI-PMH via isidore-sources@huma-num.fr.

ISIDORE peut-il moisonner les sites Omeka mis en œuvre par l’INIST-CNRS ?

Oui, les sites réalisés par l’INIST-CNRS dans le cadre de leur offre de service de sites utilisant Omeka peuvent être signalés dans ISIDORE en tant que collection. Les métadonnées sont moissonnables et les données, y compris du texte intégral (PDF, XML, etc.) peuvent donc être indexées et enrichies par ISIDORE. L’INIST propose une page dédié à son offre : https://www.inist.fr/realisations/omeka-pour-des-bases-de-donnees-valorisees/.

Comment faire pour que des données soient référencées par ISIDORE ?

OAI-PMH ou Sitemap/RDFa

Il existe deux façons de faire référencer des données et documents par ISIDORE :

OAI-PMH

Proposer ses métadonnées via un flux XML de métadonnées normalisées et utilisant le protocole OAI-PMH associé à des métadonnées au format Dublin Core Element Set (DCES) ou Qualified Dublin Core (ou QDC utilisant la norme DCTERMS). Cette méthode est le standard depuis 1999 pour l’interopérabilité des données (scientifiques, culturelles, etc.). Elle est adaptée pour les bases de données documentaires, les corpus, les fonds d’archives scientifiques et les bibliothèques de documents ou de données. À titre d’exemple, un outil tel que Omeka (Classic ou S) propose le protocole OAI-PMH via des modules. NAKALA le propose aussi en standard pour ses collections. Cette méthode est aussi adaptée aux sites Web de programmes de recherche présentant des corpus de documents ou de données et des pages Web publiées par une base de données.

Sitemap/RDFa

Proposer ses métadonnées via un flux XML de type Sitemap.xml avec des métadonnées au format Dublin Core Element Set selon le formalisme RDFa. Cette méthode est adaptée aux sites Web utilisant des CMS (Drupal, Hugo, etc.).

Aspects qualitatifs des métadonnées

Méthodologie générale et champs obligatoires

Dans les deux méthodes, ISIDORE utilise des filtres afin de contrôler la qualité des métadonnées. Cela s’opère sur quatre aspects :

  • Les formes données aux prénoms et noms des auteurs dans les métadonnées
  • La forme des dates dans les métadonnées
  • La présence d’une description dans les métadonnées
  • Le présence ou non un lien vers un document (PDF, TXT, Word, Markdown, etc.), un jeu de données sérielles (CSV, XLS, etc.) ou encore une page Web d’éditorilisation du document (Landing page)

Le choix éditorial et documentaire d’ISIDORE est celui de l’accès à des données et documents de qualité scientifique et de recherche. Ainsi, nous recommandons aux auteurs et producteurs de données de proposer des métadonnées contenant des métadonnées les plus exhaustives et précises possibles (en particulier sur les champs <dc:description>, <dc:publisher>, voir ci-dessous).

À noter

Les exemples donnés ici sont en DCES, il est possible d’utiliser le DCTERMS également.

À minima, les champs suivants sont obligatoires :

<dc:title>
<dc:creator>
<dc:date>
<dc:description>

Important

Une description (sous la forme d’un champ <dc:description> est obligatoire afin d’améliorer l’indexation des documents (données, fichiers, etc.) et leurs enrichissements sémantiques (en particulier pour les relier à d’autres documents dans les bandeaux de l’interface Web Sur les mêmes sujetset Sur les mêmes disciplines). En effet, cette métadonnée influe sur la pertinance et donc le positionnement des documents dans les résultats de recherche.

À noter

Nous recommendons vivement aux institutions et auteurs déposant des articles, pré-prints sur HAL-SHS d’utiliser les métadonnées <dc:publisher> ou <dc:relation> pour relier un document déposé à un éditeur ou une institution. Cela permet de faire resortir ces informations sur la page d’un document dans ISIDORE.

Normalisations des auteurs et dates

Auteurs

ISIDORE est capable de détecter les formes d’auteurs au sein d’une collection ou d’un Set OAI afin de les rapprocher de leurs identifiants (IdRef, IDHAL, ORCID, VIAF, etc. : voir ci-dessus). Cela fonctionne à partir d’une certaine normalisation de la métadonnée <dc:creator> ou <dcterms:creator> : ISIDORE peut être configuré pour détecter les formes suivantes (prénom = %p, nom = %n, dates de naissance et mort = (%t)) :

  • %n, %p

ou

  • %p %n

ou

  • %n, %p (%t)

Ainsi que toutes les autres formes composées de ces trois éléments. Attention, une seule forme est possible par ensemble de données (sources ou collections — dans NAKALA par exemple).

Dates

ISIDORE est capable de détecter les dates. Cela fonctionne à partir d’une certaine normalisation de la métadonnée <dc:date> à partir des formes suivantes :

Dans une source ou collection, plusieurs formats peuvent être combinés entre eux.

Liens vers du texte intégral

Il est important que les métadonnées (via OAI-PMH ou Sitemap.xml plus RDFa) donnent accès à une page Web (Landing Page), un fichier PDF ou XML en libre accès (ie. sous licence creative commons par exemple) à l’aide d’un <dc:identifier/> pointant sur une URL en HTTP ou HTTPS. ISIDORE indexe le contenu de ces pages et rend ainsi vos documents plus visibles dans le moteur et dans l’assistant de recherche.

Comment signaler ses données dans ISIDORE avec des métadonnées et le protocole OAI-PMH ?

Pour signaler ses données dans ISIDORE en utilisant le protocole OAI-PMH, il suffit :

  • De préparer ses données et ses métadonnées en utilisant le vocabulaire documentaire Dublin Core Element Set ou le Dublin Core Terms, suivant le niveau de précision que l’on souhaite et de les rendre accessibles via le protocole OAI-PMH ;
  • D’organiser et de documenter les Sets de son entrepôt OAI-PMH
  • De signaler à isidore-sources@huma-num.fr l’adresse de son entrepôt à Huma-Num, la fréquence de moissonnage souhaitée (suivant la mise à jour des métadonnées que vous faites : 1 jour, 8 jours, 30 jours, etc.)

Les ensembles de document en OAI-PMH : les Sets

Le protocole OAI-PMH permet, par la création de Sets, de rassembler en un ensemble cohérent des notices de métadonnées dont le périmètre fait sens sur le plan scientifique ou éditorial et qui est laissé à la libre appréciation du producteur des données.

Il permet aussi de définir une hiérarchie dans les Sets avec un mécanisme d’héritage en précisant dans le nom du set le nom du ou des Sets parents et du Set enfant séparé par le caractère :. ISIDORE est en capacité d’utiliser ces Sets pour limiter le moissonnage à un ensemble de notices ou pour différencier différentes sources de données au sein d’un même entrepôt. Le producteur devra donc préciser les modalités de moissonnage qui lui paraissent les plus appropriées afin de valoriser au mieux ses ressources au sein d’ISIDORE. Pour cela, il indiquera le ou les Sets concernés ou une règle permettant de distinguer les Sets à prendre en compte.

À noter

Les Sets (valeur du <setSpec>) peuvent correspondre à la notion de collections dans les entrepôts de données tels que NAKALA, Didόmena, MédiHAL, Recherche Data Gouv, etc.

Utilisation des Sets comme sources automatisées dans ISIDORE

Cette fonctionalité s’adresse aux producteurs de données qui ajoutent très régulièrement des Sets à leurs entrepôts OAI-PMH (plateforme de revues par exemple, collections de livres, etc). Cela permet à ISIDORE de placer leurs entrepôts OAI-PMH en mode dit “de découverte automatique”, c’est à dire que l’ajout d’un Set de leur côté sera répercuté automatiquement sur ISIDORE. Cela implique une confiance réciproque entre le producteur de donnée et l’équipe d’Huma-Num sur le plan éditorial.

Pour cela, les métadonnées du verbe OAI ListSets doit présenter Sets contenant des métadonnées en Dublin Core Element Set. Par exemple :

<set>
    <setSpec>journals:1895</setSpec>
    <setName>1895. Mille huit cent quatre-vingt-quinze</setName>
    <setDescription>
        <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
            <dc:identifier>uri:http://journals.openedition.org/1895</dc:identifier>
            <dc:identifier>urn:issn:0769-0959</dc:identifier>
            <dc:description xml:lang="fr">Publié par l’Association française de recherche sur l’histoire du cinéma (AFRHC), 1895 est le seul périodique français exclusivement consacré à l’histoire du cinéma. Trois livraisons sont publiées chaque année. Expression privilégiée de la recherche française et étrangère, 1895 accueille des articles de fond, largement documentés, qui ont vocation à servir de référence, des contributions de jeunes auteurs aussi bien que des traductions des meilleurs spécialistes étrangers.</dc:description>
            <dc:description xml:lang="en">Published by the Association française de recherche sur l’histoire du cinéma (AFRHC), 1895 is the only French periodical exclusively devoted to the history of cinema. Three issues are published each year. 1895 privileges French and foreign research and publishes broadly documented theme articles that serve as reference, contributions from young writers and translations of the best foreign specialists.</dc:description>
            <dc:identifier>urn:eissn:1960-6176</dc:identifier>
            <dc:publisher>Association française de recherche sur l’histoire du cinéma (AFRHC)</dc:publisher>
            <dc:subject xml:lang="en">Arts &amp; Humanities</dc:subject>
            <dc:subject xml:lang="en">Art</dc:subject>
            <dc:subject xml:lang="en">Humanities, Multidisciplinary</dc:subject>
        </oai_dc:dc>
    </setDescription>
</set>

Pour les sources automatisées dans ISIDORE, les champs du Dublin Core Element Set suivants sont obligatoires dans les réponses du verb `ListSets`` :

  • <dc:identifier> indiquant une URL ;
  • <dc:identifier> indiquant l’ISSN, l’e-ISSN ou encore l’ISBN (pour la liaison avec la plateforme du réseau de revues Mirabel) ;
  • <dc:description> pour décrire le Set OAI sur le plan scientifique.

Les notices en OAI-PMH ou Records

Dans le cadre d’ISIDORE, chaque record OAI-PMH correspond à un document (ou à un jeu de données). Le moissonneur d’ISIDORE exploite ainsi les métadonnées. De surcroît, le moissonneur collecte également le ou les documents en texte intégral dont les URL sont indiquées dans le premier élément <dc:identifier> du record OAI-PMH.

Exemple d’une notice complète selon le protocole OAI-PMH :

Exemple en Dublin Core Element Set uniquement :

<record>
    <header>
        <identifier>oai:HAL:halshs-00999403v1</identifier>
        <datestamp>2023-06-23</datestamp>
        <setSpec>type:ART</setSpec>
        <setSpec>subject:shs</setSpec>
        <setSpec>collection:SHS</setSpec>
        <setSpec>collection:CNRS</setSpec>
        <setSpec>collection:EHESS</setSpec>
        <setSpec>collection:AO-HISTOIRE</setSpec>
        <setSpec>collection:HISTOIRE</setSpec>
        <setSpec>collection:GAS-CRH</setSpec>
        <setSpec>collection:CRH</setSpec>
        <setSpec>collection:SHMESP</setSpec>
    </header>
    <metadata xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/">
        <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:tei="http://www.tei-c.org/ns/1.0" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/  http://www.openarchives.org/OAI/2.0/oai_dc.xsd http://purl.org/dc/elements/1.1/  http://dublincore.org/schemas/xmls/qdc/2008/02/11/dc.xsd">
            <dc:publisher>HAL CCSD</dc:publisher>
            <dc:title xml:lang="en">The Learned Physician as a Charismatic Healer</dc:title>
            <dc:title xml:lang="en">The Learned Physician as a Charismatic Healer: Urso of Salerno (flourished end of twelfth century) on Incantations in Medicine, Magic, and Religion</dc:title>
            <dc:creator>van der Lugt, Maaike</dc:creator>
            <dc:contributor>Groupe d'anthropologie scolastique/Equipe CRH (GAS-CRH) ; École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS)</dc:contributor>
            <dc:description>International audience</dc:description>
            <dc:source>ISSN: 0007-5140</dc:source>
            <dc:source>Bulletin of the History of Medicine</dc:source>
            <dc:publisher>Johns Hopkins University Press</dc:publisher>
            <dc:identifier>halshs-00999403</dc:identifier>
            <dc:identifier>https://shs.hal.science/halshs-00999403</dc:identifier>
            <dc:identifier>https://shs.hal.science/halshs-00999403/document</dc:identifier>
            <dc:identifier>https://shs.hal.science/halshs-00999403/file/02_87vanderlugt_final.pdf</dc:identifier>
            <dc:source>https://shs.hal.science/halshs-00999403</dc:source>
            <dc:relation>[lien vers un document ou un fichier lié]</dc:relation>
            <dc:source>Bulletin of the History of Medicine, 2013, 87, pp.307-346</dc:source>
            <dc:language>en</dc:language>
            <dc:subject xml:lang="en">incantation</dc:subject>
            <dc:subject xml:lang="en">fascination</dc:subject>
            <dc:subject xml:lang="en">charisma</dc:subject>
            <dc:subject xml:lang="en">spirits</dc:subject>
            <dc:subject xml:lang="en">medicine</dc:subject>
            <dc:subject xml:lang="en">magic</dc:subject>
            <dc:subject xml:lang="en">demons</dc:subject>
            <dc:subject xml:lang="en">sacraments</dc:subject>
            <dc:subject xml:lang="en">prayer</dc:subject>
            <dc:subject xml:lang="en">aphorisms</dc:subject>
            <dc:subject xml:lang="en">Salerno</dc:subject>
            <dc:subject xml:lang="fr">charisme</dc:subject>
            <dc:subject xml:lang="fr">esprits</dc:subject>
            <dc:subject xml:lang="fr">medecine</dc:subject>
            <dc:subject xml:lang="fr">magie</dc:subject>
            <dc:subject xml:lang="fr">sacrements</dc:subject>
            <dc:subject xml:lang="fr">prière</dc:subject>
            <dc:subject xml:lang="fr">aphorismes</dc:subject>
            <dc:subject xml:lang="fr">Salerne</dc:subject>
            <dc:subject>[SHS.HIST]Humanities and Social Sciences/History</dc:subject>
            <dc:type>info:eu-repo/semantics/article</dc:type>
            <dc:type>Journal articles</dc:type>
            <dc:description xml:lang="en">
                            Urso, the last of the great Salernitan physicians, was both an ardent defender of a theoretical, scientific medicine and the first in the medieval West to propose, in his Aphorisms, a rational and naturalistic explanation of the healing power of incantations. The article explores this paradox and provides an in-depth analysis of Urso's highly original and hitherto ignored argument, as well as its intellectual and social background. According to Urso, the efficacy of incantations relies not on the power of words, but on the charismatic physician's "aura"--spirits emanating from his body--and the patient's confidence in and conformity with the physician. Urso compares medical incantations to teaching, fascination, demonic magic, sacraments, and prayer. It is argued that Urso's incursions into theology are both a tactic to defend his bold naturalism against accusations of unorthodoxy and a reflection of his ambition to create a comprehensive "science of everything." Urso's text and an English translation are provided in an appendix
                        </dc:description>
            <dc:date>2013</dc:date>
            <dc:rights>info:eu-repo/semantics/OpenAccess</dc:rights>
        </oai_dc:dc>
    </metadata>
</record>

Le producteur de données devra veiller à respecter scrupuleusement les spécifications du protocole OAI-PMH dans sa version 2.0 en particulier sur :

  • Le respect strict des valeurs de “datestamp” dans les verbes OAI ListIdentifiers et GetRecords afin de synchroniser au mieux les mises à jour entre le producteur et ISIDORE ;
  • La bonne gestion des données supprimées (détail sur la documentation du protocole OAI-PMH) ;
  • Dans le cadre d’entrepôt de données d’éditeurs ou de taille importante, l’accès à son entrepôt OAI-PMH par les adresses IPs des moissonneurs OAI-PMH d’ISIDORE (signalement du moissonnage par ISIDORE auprès de sa DSI).

Nous conseillons aux producteurs de valider régulièrement la conformité de leur entrepôt grâce, par exemple, aux outils de l’Open archive initiative. Enfin, nous conseillons aux producteurs de données de contacter l’équipe d’Huma-Num pour toutes demandes d’informations.

Comment signaler ses données dans ISIDORE avec des métadonnées RDFa ?

Le RDFa permet d’exprimer une structure de métadonnées selon les principes du Web sémantique (RDF pour Resource Description Framework) dans le code HTML de pages Web. Le “a” de RDFa veut dire “in attributes”, c’est à dire au sein du code HTML).

Comment exprimer des métadonnées d’une page Web très simplement en utilisant la syntaxe RDFa ? Par exemple, dans un billet de blog publié avec WordPress. S’il peut exister des plugins pour faire cela, l’obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Une autre solution consiste à implémenter RDFa dans le code HTML du thème WordPress que l’on a choisi. Pour ce que cela soit facile et gérable dans le temps, le plus simple est d’utiliser l’entête HTML <head> afin d’y placer des balises <meta> qui contiendront quelques métadonnées.

Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche et des indexeurs) de mieux traiter l’information car elle devient plus explicite : pour une machine, une chaîne de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c’est un titre ou que c’est un résumé elle ne le devinera pas. A minima, il est donc possible d’utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set.

Pour une présence optimale dans ISIDORE, nous recommendons aux concepteurs et conceptrices de sites Web académiques SHS d’utiliser des CMS dit “statiques” (tels que Hugo, MKDocs, Jeckyll, etc.) pour créer leurs sites Web. Il s’agit de miniser les mises à jour sur le moyen et long terme et donc d’améliorer la durabilité de leurs sites Web dans ISIDORE (lire par exemple les travaux du HN Lab : “Déploiement d’un site Web statique sous Hugo avec l’intégration continue de GitLab Pages”.

Comment faire pratiquement ?

En premier, il faut indiquer dans le DOCTYPE de la page Web, qu’elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, doivent être présentes les adresses des ontologies documentaires (via leurs NameSpace XML) qui servent à “typer” les informations. RDFa — qui place des métadonnées dans le Web sémantique, nécessite à minima de faire appel aux ontologies RDF et RDF Schema et au Dublin Core Element Set (dc). Il est possible d’utiliser en plus — afin d’affiner les métadonnées, le Dublin Core Terms (dcterms) :

<html xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:dcterms="http://purl.org/dc/terms/">

Il est possible, pour encoder plus d’information, d’utiliser plus d’ontologies documentaires :

<html
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:dcterms="http://purl.org/dc/terms/"
xmlns:skos="http://www.w3.org/2004/02/skos/core#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:cc="http://creativecommons.org/ns#">

Dans l’exemple ci-dessus, foaf sert à encoder des informations relatives à la nature des objets documentaires de la page Web : c’est l’objet décrit par les métadonnées. L’ontologie CC permet de signaler quelle licence, issues des Creative Commons, s’appliquerait à ce contenu.

La structure RDFa au travers de balises <meta> dans l’en-tête <head> de la page HTML. Dans un premier temps, les métadonnées doivent être placées dans un “conteneur” d’information. Pour cela, nous recommandons d’utiliser une balise <span> afin de définir la première propriété définisant la nature de la page (ici, nous utilisons le vocabulaire foaf pour la définir, c’est-à-dire une page Web :

<span typeof="foaf:page" about="URL">

Cette balise définit un lien, donc un conteneur pour les informations que nous allons indiquer à l’aide des balises <meta> dans le <span>. Ce conteneur est identifié par une URI qui se trouve être une URL, c’est à dire l’adresse de la page Web.

Les balises <meta> définissent ensuite un ensemble de métadonnées, c’est à dire dans notre cas, des informations descriptives de la page Web (titre, auteurs, etc.). Nous encourageons les producteurs de données, chercheurs, éditeurs à normaliser les formes auteur (NOM, Prénom, etc.) et les dates (selon la norme ISO8601, voir le § sur la normalisation des auteurs et dates ci-dessus) :

<span typeof="foaf:page" about="URL de la page (ou de la ressource)">
    <meta property="dc:title" content="Le titre du document référencé ou de la page HTML" />
    <meta property="dc:creator" content="Prénom Nom de l’auteur 1" />
    <meta property="dc:creator" content="Prénom Nom de l’auteur 2" />
    <meta property="dcterms:created" content="YYYY-MM-DD" />
    <meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fre" />
    <meta property="dcterms:abstract" content="A summary in english" xml:lang="eng" />
    <meta property="dc:subject" content="mot-clé 1" />
    <meta property="dc:subject" content="mot-clé 2" />
    <meta property="dc:type" content="page Web" />
    <meta property="dc:licence" content="Licence de diffusion des documents ou de la page" />
    <meta property="dc:format" content="text/html" />
    <meta property="dc:relation" content="Un lien vers une page Web complémentaire" />
</span>

Suivant la nature du contenu de la page Web, il est bien sûr possible d’être plus précis, plus fin et plus complet dans les informations encodées. Par exemple, il sera judicieux d’utiliser le vocabulaire DCTERMS.

Le DCTERMS permet par exemple d’inclure une forme précise pour une référence bibliographique du contenu :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

Il serait possible de passer l’ensemble du texte d’une page Web à l’aide du vocabulaire SIOC en utilisant la propriété sioc:content.

Il est possible également de relier des pages Web entre elles (pour définir un corpus d’auteurs par exemple) en utilisant dans le vocabulaire DCTERMS la propriété du DCTERMS : dcterms:isPartOf.

<meta property="dcterms:isPartOf" content="URL d’une autre page Web" />

Création du Sitemap

Une fois l’encodage RDFa fait dans les pages HTML, il vous reste à créer un fichier XML de type Sitemap listant les pages que vous souhaitez qu’ISIDORE moissonne et à soumettre l’URL de ce sitemap :

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://monsiteweb.com/</loc>
        <lastmod>2018-01-01</lastmod>
        <changefreq>monthly</changefreq>
        <priority>1.0</priority>
    </url>
    <url>
        <loc>http://monsiteweb.com/page1/</loc>
        <lastmod>2018-03-05</lastmod>
        <changefreq>weekly</changefreq>
        <priority>0.5</priority>
  </url>
</urlset>

Il est possible de tester l’extraction que fera ISIDORE de vos métadonnées RDFa à l’aide de l’application “ISIDORE à la demande” disponible sur à l’adresse https://rd.isidore.science/ondemand/fr/rdfa.html

Moissonnage par OAI pour les Content Management System (CMS)

Un site Web utilisant Omeka Classic et Omeka-S peut-il être référencé par ISIDORE ?

Oui, Omeka Classic et Omeka S proposent des modules permettant d’exposer les métadonnées selon le protocole OAI-PMH :

Un site Web utilisant WordPress peut-il être référencé par ISIDORE ?

Oui, il existe plusieurs modules WordPress pour exposer en OAI-PMH des contenus sous WordPress. Cependant, une implémentation en Sitemap+RDFa permet de travailler à une exposition plus fine sur les plans scientifiques et documentaires des contenus et des métadonnées et par ailleurs ne pas être dépendant de l’obsolescence des modules WordPress.

Un site Web utilisant Drupal peut-il être référencé par ISIDORE ?

Oui, il est possible de faire indexer par ISIDORE des pages Web générées par le CMS Drupal. Il y a deux façons de faire, suivant la nature des contenus de vos pages :

  • Soit via le protocole OAI-PMH et dans ce cas il existe plusieurs modules pour Drupal, voir sur https://www.drupal.org/search/site/OAI-PMH.
  • Soit via l’utilisation d’une structure de métadonnées en Dublin Core dans les pages Web générées par Drupal utilisant RDFa et un sitemap.xml. Un article dédié à cette façon de procéder est disponible à l’adresse ci-dessus.

Périmètre d’ISIDORE

Pourquoi certains articles ne se retrouvent pas dans ISIDORE ?

Si vous ne retrouvez pas la totalité de votre production scientifique dans ISIDORE, il peut y avoir plusieurs explications : - Il se peut que vos articles soient publiés dans des revues qui ne sont pas électroniques ou qui ne rendent pas accessibles leurs articles même longtemps après leur publication. En effet, depuis sa création, ISIDORE favorise l’accès ouvert (open access) : l’indexation est meilleure pour les articles disponibles en accès libre. De nombreuses revues électroniques ont fait ce choix au travers de portails tels que Open Edition Journal (anciennement Revues.org), Érudit, Persée, et Cairn.info, Redalyc, OApen et les articles de ces revues sont donc collectés et indexés par ISIDORE.

  • Il se peut également que vos articles soient publiés en ligne, mais pas sur une plateforme d’édition électronique (mais un site Web), ou sur une plateforme d’édition électronique ne permettant pas l’indexation via le protocole standard (voir la question-réponse sur l’OAI-PMH).

  • D’autres revues rendent accessibles leurs articles, mais seulement après une période d’embargo. Dans ce cas, ISIDORE n’indexe que les métadonnées de l’article. Si vous vous connectez via votre bibliothèque universitaire, centre de documentation ou par BibCNRS, il est possible que vous ayez quand même accès à ces articles.

  • Il est possible de rechercher dans les collections indexées par ISIDORE en utilisant le moteur lui-même et en indiquant que vous souhaitez rechercher dans les collections.

  • Il se peut aussi que votre article soit publié sous forme de PDF image, dans ce cas seul le référencement par ISIDORE sera permis, mais pas son indexation en texte intégral.

  • Il se peut enfin que certains de vos articles soient publiés dans des revues qui ne sont pas classées en SHS.

Dans tous ces cas, vous pouvez vous-même déposer vos articles dans une archive ouverte comme HAL (HAL-SHS en particulier) qui est aussi indexée par ISIDORE ou vous rapprocher de votre bibliothèque universitaire ou centre de documentation.

Si vous n’êtes dans aucun de ces cas et pensez donc qu’il s’agit d’une erreur, vous pouvez nous envoyer un mail à isidore@huma-num.fr.

Pourquoi certains ouvrages/chapitres d’ouvrage ne sont pas signalés dans ISIDORE ?

ISIDORE sait identifier qu’un document est de type “ouvrage”, ainsi, il y a plus de 500000 ouvrages et chapitres d’ouvrages signalés dans ISIDORE.

Il faut savoir qu’il existe relativement peu de plateformes d’édition d’ouvrages en ligne en libre accès. ISIDORE indexe en SHS, par exemple, les contenus des plateformes d’ouvrages comme :

Par ailleurs, vous pouvez, en accord avec votre éditeur, déposer votre ouvrage ou vos chapitres d’ouvrages dans l’archive ouverte HAL-SHS. Il sera alors indexé par ISIDORE dans le cadre de l’indexation de HAL-SHS et reconnu comme un chapitre d’ouvrage.

Pourquoi certaines bases de données ne sont pas signalées dans ISIDORE ?

Le moissonnage par ISIDORE nécessite une exposition de métadonnées (documentaires, scientifiques, etc.) standardisées et normalisées (soit en utilisant le protocole OAI-PMH, soit à l’aide d’un Sitemap XML et de métadonnées RDFa, voir ci-dessus). Si vous connaissez des bases de données qui ne sont pas présentes dans ISIDORE, n’hésitez pas à nous les signaler afin que nous puissions voir avec leurs éditeurs/producteurs de données.

Formations et ressources sur ISIDORE

Nous listons ici les formations, présentations fonctionnelles et auto-formations en ligne à l’utilisation d’ISIDORE. N’hésitez pas à nous faire par de formations que vous organiseriez :

Mises à jour

Les mises à jour d’ISIDORE et notes de révision sont disponibles sur le site https://isidore.science/releases.