Comment signaler ses données dans ISIDORE avec des métadonnées RDFa ?

Comment exprimer des métadonnées d'une page web très simplement en utilisant la syntaxe RDFa ? Prenons par exemple un billet de blog publié avec WordPress. S'il peut exister des plugins pour faire cela, l'obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Une autre solution consiste à implémenter RDFa dans le code HTML du thème WordPress que l'on a choisi. Pour ce que cela soit facile et gérable dans le temps, le plus simple est d'utiliser l'entête HTML <head> afin d'y placer des balises <meta> qui contiendront les métadonnées.

Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche) de mieux traiter l'information car elle devient plus explicite : pour une machine, une chaîne de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c'est un titre ou que c'est un résumé elle ne le devinera pas. A minima, il est donc possible d'utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set. Le RDFa est une façon d’écrire des triplets RDF dans du HTML (le "a" de RDFa veut dire "in attributes").

Comment faire ?

En premier, il faut indiquer dans le DOCTYPE de la page web, qu'elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, nous allons indiquer les adresses des vocabulaires documentaires - par l'intermédiaire de namespace XML - qui vont nous servir à typer les informations, dans notre exemple, nous allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms) :

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/">

Il serait possible, pour encoder plus d'information, d'utiliser plus de vocabulaires documentaires :

<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/" 
xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:foaf="http://xmlns.com/foaf/0.1/" 
xmlns:cc="http://creativecommons.org/ns#">

Ici, foaf nous servirait à encoder des informations relatives à une personne ou un objet décrit par les métadonnées, CC nous permettrait de signaler quelle licence Creative Commons s'appliquerait à ce contenu. Après avoir déclaré des les vocabulaires documentaires que nous allons utiliser, nous allons ajouter la structure RDFa au travers de balises <meta> dans l'en-tête <head> de la page HTML. Dans un premier temps, à l'aide d'une balise <link>, nous allons définir l'objet numérique auquel les informations encodées en RDF seront rattachées :

<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />

Cette balise définit donc un conteneur pour les informations que nous allons indiquer à l'aide des balises <meta>. Ce conteneur est identifié par une URI qui se trouve être une URL, c'est à dire l'adresse de la page dans le web. Maintenant, nous enchaînons les balises <meta> qui définissent donc un ensemble de métadonnées, c'est à dire dans notre cas, des informations descriptives de la page web :

<meta property="dc:title" content="Le titre de mon article" />
<meta property="dc:creator" content="Pierre Martin" />
<meta property="dcterms:created" content="2011-01-27" /> 
<meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fr" /> 
<meta property="dc:subject" content="mot-clé" /> 
<meta property="dc:subject" content="mot-clé" /> 
<meta property="dcterms:coverage" content="mot-clé géographique (ex. Paris)" /> 
<meta property="dcterms:coverage" content="mot-clé géographique (ex. Vallée du Gange" />
<meta property="dcterms:temporal" content="mot-clé indiquant une période (ex. 1ere Guerre Mondiale)" />
<meta property="dcterms:temporal" content="mot-clé indiquant une période (ex. XIIIe siècle)" />
<meta property="dc:type" content="billet" />
<meta property="dc:format" content="text/html" />
<meta property="dc:relation" content="Un lien vers une page web complémentaire" />

Suivant la nature du contenu de la page web, il sera bien sûr possible d'être plus précis, plus fin et plus complet dans les informations encodées. Par exemple, il sera judicieux d’utiliser le vocabulaire DC Terms.

Le DC Terms permettra avec :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

de proposer une forme pour une référence bibliographique dans le cas d'une page web décrivant un ouvrage par exemple. Il serait possible de passer l'ensemble du texte d'une page web à l'aide du vocabulaire SIOC en utilisant la propriété sioc:content. Il est possible également de relier des pages web entre elles (pour définir un corpus d'auteurs par exemple) en utilisant dans le vocabulaire DC Terms la propriété du DC Terms : dcterms:isPartOf.

Une fois l’encodage RDFa fait dans les pages HTML, il vous reste à créer un sitemap.xml listant les pages que vous souhaitez qu’ISIDORE moissonne et nous soumettre l’URL de votre sitemap par e-mail à isidore-sources@huma-num.fr.

Il est possible de tester l'extraction que fera ISIDORE de vos métadonnées en RDFa à l'aide de l'application "ISIDORE à la demande" disponible ici : http://rd.rechercheisidore.fr/ondemand/fr/rdfa.html

Nuage de tags: Dublin Core, entrepôt de données, interopérabilité, métadonnées, RDFa
Moyenne des notes : 5 (1 Vote)

Vous ne pouvez pas commenter cet enregistrement