Cliquez sur les questions ci-dessous pour en savoir plus au sujet de Loterre
Loterre (acronyme pour Linked open terminology resources) est une plateforme d'exposition et de partage de terminologies scientifiques multidisciplinaires et multilingues.
S'appuyant sur un « triplestore », elle se veut conforme aux standards du web des données ouvertes et liées (LOD) ainsi qu'aux principes FAIR, qui visent à rendre les données Faciles à trouver, Accessibles, Interopérables, Réutilisables.
Les terminologies disponibles dans Loterre peuvent répondre à des besoins de fouille de texte, d'annotation sémantique, de recherche d'information ou de traduction.
L'accès aux ressources de Loterre est ouvert à tous ; leur réutilisation dépend de leur licence.
Loterre donne accès à des ressources terminologiques scientifiques et permet :
leur consultation,
leur interrogation via un moteur de recherche, une interface SPARQL et une API,
leur téléchargement sous différents formats.
Cette vidéo montre un exemple d'utilisation d'une terminologie hébergée dans Loterre, pour les traducteurs :
Loterre offre également des services en ligne, dont le contenu est détaillé dans le paragraphe « Services proposés dans Loterre » de cette page.
Les producteurs de ressources terminologiques qui souhaitent les exposer sur la plateforme Loterre sont invités à lire la Charte de Loterre et à en faire la demande via le formulaire de contact.
Ces principes forment un guide de bonnes pratiques pour la gestion et la réutilisation des données et des métadonnées par les machines comme par les humains. Cependant, ils ne constituent pas une spécification car ils ne préconisent ni standard, ni technologie, ni format de données particulier.
Les (méta)données terminologiques exposées dans Loterre répondent à l'ensemble des principes FAIR. En effet elles sont :
Faciles à trouver : concept associé à un identifiant unique et persistant (URI)
Accessibles : protocole d'accès libre et ouvert (http)
Interopérables : langage pour le partage et la représentation des connaissances (SKOS)
Réutilisables : licence d'utilisation clairement définie (CC ou Etalab)
Elles peuvent également participer à la FAIRisation des (méta)données de la recherche en favorisant leur interopérabilité sémantique (par les concepts des vocabulaires ou des thésaurus).
De même, les services Loterre Contrôler, Transformer et Aligner visent à faciliter la création et l'enrichissement de terminologies en format SKOS/RDF-XML selon les pratiques FAIR.
Loterre se veut conforme aux principes du LOD (Linked Open Data) tels qu'ils ont été présentés en 2006 par le W3C (Tim Berners-Lee) : les ressources terminologiques sont ici considérées comme des ensembles organisés de concepts (désignés par des termes) qui sont des jeux de données librement accessibles via les technologies du web sémantique.
Le Linked Data ou « web des données liées » repose sur 4 règles de base :
Identifier chaque ressource (ou chaque concept) par un URI (Uniform Resource Identifier)
Utiliser des URIHTTP (déréférençables) permettant d'accéder à des informations sur ces ressources
Lorsqu'on déréférence un URI, renvoyer sur des données structurées à l'aide de la famille de standards du W3C : modèle (triplets RDF) et langages (SKOS, RDFS, OWL…) pour les décrire ; SPARQL pour les interroger
Relier les concepts (données RDF) appartenant à différents vocabulaires ou terminologies par des alignements via leurs URI, de manière à créer un réseau de liens RDF et découvrir ainsi de nouvelles relations.
En ajoutant des licences ouvertes pour la diffusion et la réutilisation des ressources publiées sur le web, Loterre respecte les règles du « Linked Open Data ».
T. Berners-Lee (2010) a d'autre part proposé un classement progressif des LOD avec 5 étoiles selon les critères suivants :
* Données librement disponibles sur le web, avec mention d'une licence ouverte
** Données dans un format structuré, lisible par la machine
*** Formats non propriétaires (CSV, JSON…)
**** StandardsouvertsW3C (RDF, XML, SPARQL) et URI comme identifiant de ressource
***** Données reliées à d'autres données RDF via des alignements dans le LOD Cloud
Toutes les ressources exposées dans Loterre sont compatibles avec ces règles et principes et peuvent être classées 4 ou 5 étoiles :
Licence libre (lo) et/ou ouverte (CC BY)
Formats standards : SKOS, XML, JSON-LD, CSV
URI alignables
Pour citer une ressource Loterre, indiquer "Loterre", puis le titre long de la ressource suivi de son DOI. Par exemple, "Loterre, Thésaurus de la Science ouverte, https://dx.doi.org/10.13143/lotr.9297".
A défaut de DOI, remplacer celui-ci par l'URI de la ressource ; par exemple, "Loterre, Vocabulaire thématique de géographie, http://data.loterre.fr/vocabs/BGI/GT".
Services proposés dans Loterre
Outre le téléchargement des terminologies hébergées, Loterre propose des services destinés à tout producteur de terminologie, qu'il souhaite ou non exposer ses ressources dans Loterre.
Les services Contrôler, Transformer et Aligner visent à faciliter la création et l'enrichissement de terminologies en format SKOS/RDF-XML selon les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).
n.b. : Les données utilisateurs traitées par ces services ne sont pas conservées par l'Inist-CNRS.
Ce service permet d'aligner (mettre en correspondance) un fichier SKOS/RDF-XML valide (source) avec une ressource terminologique de Loterre (cible) sélectionnée par l'utilisateur.
Il vérifie si un terme (préférentiel ou synonyme) d'un concept A du vocabulaire source est identique à un terme (préférentiel ou synonyme) d'un concept B du vocabulaire cible (pour un même code langue). Il traite les fichiers contenant des « skos:Concept » (forme courte de la syntaxe RDF/XML) ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] » .
A noter que l'alignement repose sur une comparaison de chaînes de caractères, qui doivent être identiques de part et d'autre, sans tenir compte du contexte ; les alignements devront donc être validés par l'utilisateur.
2 variantes de ce service sont proposées :
service « Aligner un fichier SKOS/RDF-XML valide avec une terminologie hébergée dans Loterre en insérant la propriété 'skos:exactMatch' dans le fichier source » :
si un terme (préférentiel ou synonyme) d'un concept A du vocabulaire source est identique au préférentiel ou à un synonyme d'un concept B du vocabulaire cible, une propriété « skos:exactMatch » est insérée dans le concept A avec l'URI du concept cible dans l'attribut « rdf:resource ».
service « Aligner un fichier SKOS/RDF-XML valide avec un vocabulaire Loterre en produisant un fichier d'alignements » :
si un terme (préférentiel ou synonyme) d'un concept A du vocabulaire source est identique au préférentiel ou à un synonyme d'un concept B du vocabulaire cible, un nouveau fichier est créé (format RDF-XML) puis pour chaque alignement :
un enregistrement « rdf:Description » est créé,
l'URI du concept source est mis dans l'attribut « rdf:about » de cet enregistrement,
une propriété « skos:exactMatch » est créée dans cet enregistrement,
l'URI du concept cible est mis dans l'attribut « rdf:resource » de cette propriété.
Les enregistrements du fichier d'alignements peuvent être ajoutés tels quels au début ou à la fin du fichier source.
Le service « Annoter » permet de rechercher, dans une portion de texte écrit en français, anglais ou espagnol, la présence de termes (labels préférentiels et synonymes) d'une terminologie hébergée dans Loterre.
Il renvoie le texte dans lequel les termes détectés ont été surlignés et un tableau des termes et des concepts correspondants, avec leur URI.
Le service « Contrôler » permet de vérifier en ligne la validité d'un fichier SKOS-XML.
Trois types de contrôles sont proposés : validité des collections, validité des concepts, validité du schéma de concepts.
Le code couleur des anomalies détectées correspond à leur degré de gravité :
code sur fond rouge
anomalie critique
code sur fond orange
anomalie majeure
code sur fond jaune
anomalie mineure
Validité des collections
Le service « Contrôler un fichier SKOS/RDF-XML au niveau des collections » traite des fichiers contenant des éléments de type « skos:Collection » ou « isothes:ConceptGroup » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Collection']] » ou des « rdf:Description[rdf:type[@rdf:resource='http://purl.org/iso25964/skos-thes#ConceptGroup']] »
Il réalise en premier lieu une analyse de la ressource pour déterminer :
le nombre de blocs « Collection » ;
la nature et le nombre des éléments (propriétés) qui les composent.
Il opère ensuite les contrôles et renvoie les résultats sous la forme d'une table détaillant les types d'anomalies détectées.
Liste des contrôles effectués :
Code
Description de l'anomalie
Col-0
La ressource ne contient ni skos:Collection ni isothes:ConceptGroup ni rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Collection']] ni « rdf:Description[rdf:type[@rdf:resource='http://purl.org/iso25964/skos-thes#ConceptGroup']] ».
Col-@0
Absence d'uri (identifiant) au niveau de la collection.
Col-@N
Présence d'un attribut non autorisé. Seul l'attribut « rdf:about » est autorisé pour « skos:Collection » ou "isothes:ConceptGroup" ou rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Collection']] ou rdf:Description[rdf:type[@rdf:resource='http://purl.org/iso25964/skos-thes#ConceptGroup']].
Col-2
Anomalie de structuration des collections. En dépit de la présence d'une propriété « isothes:superGroup » au niveau des collections, aucune propriété « isothes:subGroup » n'a été détectée au niveau de la super-collection correspondante. Utiliser la transformation « Insérer les collections spécifiques dans un fichier SKOS/RDF-XML valide » pour y remédier.
Col-3
Le contenu de l'attribut « rdf:resource » de la propriété « skos:inScheme » des collections est différent de l'identifiant de la ressource (ConceptScheme).
Col-4
Un membre d'une collection est inexistant dans la ressource. Créer le concept correspondant ou supprimer ce membre.
Col-5
L'uri de la collection contient un caractère non autorisé (espace, apostrophe, quote, crochet gauche, crochet droit).
Validité des concepts
Le service « Contrôler un fichier SKOS/RDF-XML au niveau des concepts » traite des fichiers contenant des éléments de type « skos:Concept » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] »
Il réalise en premier lieu une analyse de la ressource pour déterminer :
le nombre de blocs « ConceptScheme », « Concept », « Collection » et « Label » ;
la nature et le nombre des éléments (propriétés) qui les composent ;
les langues de la ressource.
Il opère ensuite les contrôles et renvoie les résultats sous la forme d'une table détaillant les types d'anomalies détectés.
Liste des contrôles effectués :
Code
Description de l'anomalie
D-Id
Contrôle d'unicité de l'identifiant de chaque concept. Deux concepts ne peuvent pas avoir le même identifiant.
E-0
Présence d'un élément (propriété) vide. Peut nuire au bon déroulement de la suite du programme de contrôle. Peut également empêcher l'import dans certains éditeurs terminologiques.
@-0
Présence d'un attribut vide au niveau d'un élément.
R-A1
Présence d'un conflit au niveau des relations : un même concept est à la fois concept associé et concept générique du concept courant.
R-FX1
Présence d'une relation hiérarchique reflexive : un concept est générique de lui-même.
R-FX2
Présence d'une relation associative reflexive : un concept est associé à lui-même.
R-31
Présence d'un conflit à 3 au niveau des relations hiérarchiques et associatives : si un concept A a comme concept spécifique un concept B et qu'il est associé à un concept C, le concept C ne peut pas être un concept spécifique du concept B car le concept C ne peut pas être lié simultanément au concept A par deux relations disjointes « skos:narrowerTransitive » et « skos:related ». Voir détails dans SKOS-Primer.
R-32
Présence d'un conflit à 3 au niveau des relations hiérarchiques et associatives : si un concept A a comme concept générique le concept B et qu'il est associé à un concept C, le concept B ne peut pas avoir comme concept générique le concept C car ce dernier ne peut pas être lié simultanément au concept A par deux relations disjointes « skos:broaderTransitive » et « skos:related ». Voir détails dans SKOS-Primer.
R-B3
Présence d'une boucle : un concept est à la fois concept spécifique et concept générique du concept courant.
R-A2
Présence d'un conflit au niveau des relations : un concept est à la fois concept spécifique et concept associé du concept courant.
R-NS
Relation associative (skos:related) non symétrique.
R-0
Une relation (générique, associative ou spécifique) est établie avec un concept inexistant.
R-OR
Concept orphelin : un concept qui n'est pas un top-concept et qui n'a ni générique ni spécifique.
CS-0
Absence de rattachement du concept à la ressource via la propriété « skos:inScheme ».
CS-3
Le contenu de l'attribut « rdf:resource » de la propriété « skos:inScheme » est différent de l'identifiant de la ressource.
LP-0
Préférentiel absent pour une des langues de la ressource.
LP-N1
Plusieurs libellés préférentiels d'une même langue pour un même concept.
LP-LA1
Doublon libellé préférentiel / libellé alternatif au sein du même concept.
LP-LC1
Doublon libellé préférentiel / libellé caché au sein du même concept.
LP-LP2
Libellé préférentiel identique pour deux concepts différents.
LP-LA2
Doublon libellé préférentiel / libellé alternatif entre deux concepts différents.
LP-LC2
Doublon libellé préférentiel / libellé caché entre deux concepts différents. Les cas sont signalés.
LA-LA1
Doublon au niveau des libellés alternatifs au sein du même concept.
LA-LA2
Libellé alternatif identique pour deux concepts différents.
LA-LC1
Doublon libellé alternatif / libellé caché au sein du même concept.
LA-LC2
Doublon libellé alternatif / libellé caché entre deux concepts différents. Les cas sont signalés.
LC-LC1
Doublon au niveau des libellés cachés au sein du même concept.
LC-LC2
Libellé caché identique pour deux concepts différents. Les cas sont signalés.
Validité du schéma de concepts
Le service « Contrôler un fichier SKOS/RDF-XML au niveau du schéma de concepts » traite des fichiers contenant des éléments de type « skos:ConceptScheme » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#ConceptScheme']] »
Il réalise en premier lieu une analyse de la ressource pour déterminer :
le nombre de blocs « ConceptScheme » ;
la nature et le nombre des éléments (propriétés) qui les composent.
Il opère ensuite les contrôles et renvoie les résultats sous la forme d'une table détaillant les types d'anomalies détectés.
Liste des contrôles effectués :
Code
Description de l'anomalie
CS-N
Bloc ConceptScheme absent. Le fichier ne contient ni skos:ConceptScheme ni rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#ConceptScheme']]. Le menu « Insérer un bloc 'ConceptScheme' dans un fichier SKOS/RDF-XML » peut être utilisé pour y remédier.
CS-0
Absence d'uri (identifiant) au niveau de la ressource.
CS-1
Présence d'un attribut non autorisé. Seul l'attribut rdf:about est autorisé pour le bloc ConceptScheme.
CS-2
Absence de propriétés skos:hasTopConcept. En dépit d'une forte structuration de la ressource, le bloc ConceptScheme ne contient pas les propriétés skos:hasTopConcept pour lister les top-concepts. Le menu « Insérer les propriétés 'hasTopConcept' dans un fichier SKOS/RDF-XML » peut être utilisé pour y remédier.
CS-3
Le contenu de l'attribut rdf:resource de la propriété skos:inScheme des concepts est différent de l'identifiant de la ressource.
Le service « Transformer » permet de générer une terminologie en format SKOS-XML à partir d'un fichier CSV, de corriger des anomalies d'un fichier SKOS-XML, ou de convertir une terminologie initialement en format SKOS-XML dans d'autres formats.
Les opérations proposées par ce service peuvent être regroupées en trois types : correction, enrichissement et conversion.
Correction
Ces opérations sont en particulier destinées à corriger les anomalies préalablement détectées par le service « Contrôler ».
Suppression des doublons de termes
Le service « Supprimer les doublons au niveau des termes d'un fichier SKOS/RDF-XML » traite des fichiers contenant des éléments « skos:Concept » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Au niveau de chaque concept, ce service fonctionne de la manière suivante :
Les libellés préférentiels sont gardés mais à raison d'un seul par langue :
si, pour une même langue, deux préférentiels identiques sont présents, un seul est gardé
si, pour une même langue, deux préférentiels différents sont présents, le premier est gardé, l'autre est mis en « skos:altLabel ».
Les libellés alternatifs (synonymes) d'une même langue sont dédoublonnés entre eux et par rapport au libellé préférentiel :
si un même terme apparaît plusieurs fois comme libellé alternatif d'une même langue, une seule occurrence est gardée ;
si un même terme apparaît à la fois comme libellé alternatif et libellé préférentiel d'une même langue, seul le libellé préférentiel est gardé.
Les libellés cachés d'une même langue sont dédoublonnés entre eux, par rapport au libellé préférentiel et par rapport aux libellés alternatifs :
si un même terme apparaît plusieurs fois comme libellé caché d'une même langue, une seule occurrence est gardée ;
si un même terme apparaît à la fois comme libellé caché et libellé préférentiel d'une même langue, seul le libellé préférentiel est gardé ;
si un même terme apparaît à la fois comme libellé caché et libellé alternatif d'une même langue, seul le libellé alternatif est gardé.
A l'issue de ce traitement, il convient de contrôler à nouveau le fichier en utilisant le service « Contrôler un fichier SKOS/RDF-XML au niveau des concepts », pour s'assurer qu'il ne subsiste plus de doublons.
Correction des anomalies de symétrie des concepts associés
Si un concept A est associé avec un concept B via la propriété « skos:related », le concept B doit lui aussi être associé au concept A via cette même propriété, car la relation est symétrique.
Le service « Corriger les anomalies de symétrie des concepts associés dans un fichier SKOS/RDF-XML » traite des fichiers contenant des éléments « skos:Concept » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Il insère dans le fichier SKOS la propriété « skos:related » manquante, lorsque la condition de symétrie définie ci-dessus n'est pas vérifiée.
A noter que ce traitement ne s'applique pas à d'éventuelles sous-propriétés de la relation « skos:related » (voir détails dans ce document).
Insertion de concepts spécifiques
La relation hiérarchique entre un concept A et un concept B est exprimée à l'aide de la propriété « skos:broader » et la présence au niveau du concept B d'une relation « skos:narrower » (qui en est la relation inverse) n'est pas obligatoire car elle est inférée de la relation « skos:broader ».
Cependant, le bon fonctionnement de certaines applications (comme Skosmos) nécessite la présence des deux relations.
Le service « Insérer les concepts spécifiques dans un fichier SKOS/RDF-XML valide » traite des fichiers contenant des éléments « skos:Concept » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Il insère dans le fichier SKOS, au niveau de chaque concept générique, autant de propriétés « skos:narrower » que de concepts spécifiques de ce concept.
Insertion de collections spécifiques
La relation hiérarchique entre une collection A et une collection B est exprimée à l'aide de la propriété « isothes:superGroup » et la présence au niveau de la collection B d'une relation « isothes:subGroup » (qui en est la relation inverse) n'est pas obligatoire car elle est inférée de la relation « isothes:superGroup ».
Cependant, le bon fonctionnement de certaines applications (comme Skosmos) nécessite la présence des deux relations.
Le service « Insérer les collections spécifiques dans un fichier SKOS/RDF-XML valide » traite les fichiers contenant des « skos:Collection » ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Collection']] » ou des « rdf:Description[rdf:type[@rdf:resource='http://purl.org/iso25964/skos-thes#ConceptGroup']] ».
Il insère au niveau de la super-collection autant de propriétés « isothes:subGroup » que de collections spécifiques à cette collection.
Enrichissement
Ajout d'un schéma de concept et d'une licence
Le service « Insérer un bloc 'ConceptScheme' dans un fichier SKOS/RDF-XML » traite les fichiers contenant des « skos:Concept » ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Il insère deux blocs au début d'un fichier SKOS/RDF-XML :
Un bloc « cc:License » avec par défaut la valeur de licence « Creative Commons CC-BY 4.0 ». Il convient de modifier ce bloc si la ressource est diffusée sous une autre licence.
Un bloc « skos:ConceptScheme » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#ConceptScheme']] » avec :
un URI dérivé des identifiants des concepts ;
des propriétés pour les métadonnées à compléter/modifier par l'utilisateur au niveau du fichier de sortie :
les titres français anglais et espagnol (dc:title),
les descriptions française, anglaise et espagnole (dc:description),
les sujets français, anglais et espagnol (dc:subject),
le nom du créateur de la ressource (dc:creator),
le type de licence (cc:license),
les noms français, anglais et espagnol de l'organisme auquel la ressource doit être attribuée (cc:attributionName),
le site web de l'organisme / institution (cc:attributionURL),
les top-concepts (skos:hasTopConcept) si la ressource est structurée,
les langues de la ressource calculées à partir des codes langues utilisés pour les libellés préférentiels des concepts (dcterms:language avec attribut lexvo / codes ISO 639-3),
la date de création de la ressource (dcterms:created),
la date de dernière modification (dcterms:modified),
la version de la ressource (owl:versionInfo).
Après génération des champs, leur contenu textuel doit être complété et validé par l'utilisateur.
Insertion hasTopConcept
Le service « Insérer les propriétés « hasTopConcept » dans un fichier SKOS/RDF-XML valide » traite des fichiers contenant des « skos:ConceptScheme » ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#ConceptScheme']] ».
Il insère une propriété « skos:hasTopConcept » au niveau du bloc « ConceptScheme » pour chaque concept qui n'a pas de propriété « skos:broader ».
n.b. : Ne pas utiliser ce service pour les ressources non structurées ou faiblement structurées.
Insertion topConceptOf
Le service « Insérer les propriétés « topConceptOf » dans un fichier SKOS/RDF-XML valide » traite les fichiers contenant des « skos:Concept » ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Il insère une propriété « skos:topConceptOf » au niveau de chaque concept qui n'a pas de propriété « skos:broader ».
n.b. : ne pas utiliser ce service pour les ressources non structurées ou faiblement structurées.
Attribution d'ARK
Ce service permet de remplacer les identifiants (URI) d'un fichier SKOS/RDF-XML par des identifiants ARK construits selon les préconisations de la California Digital Library (CDL).
Un identifiant ARK a la syntaxe suivante :
Le NMA (Name Adressing Authority ou Autorité d'adressage), son rôle est de rendre l'URL cliquable dans un navigateur web.
L'identifiant ARK proprement dit qui se compose de :
le label « ark:/ »,
un code numérique qui correspond au NAAN (Name Assigning Authority Number ou Autorité d'assignement de nom) attribué sur demande par la CDL à des organismes producteurs de ressources terminologiques.
Le service « Attribuer des identifiants ARK à un fichier SKOS/RDF-XML valide » traite des fichiers contenant des « skos:Concept » ou des « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
La transformation est effectuée en deux temps :
1- Remplacement de l'URI de la ressource (au niveau du schéma de concepts) par l'URI générique suivant : http://mon_site.fr/ark:/NAAN/ABC
L'ancien URI est mis dans une balise « dc:identifier ».
Au niveau des concepts, une suite alphanumérique de 8 caractères suivie d'un tiret puis d'un caractère de contrôle (check sum) vient compléter ce préfixe et constituer un identifiant ARK unique pour chaque concept de la ressource.
Pour avoir des identifiants ARK conformes aux recommandations de la CDL (voir détails ici), l'URI générique doit être modifié comme suit :
Remplacer la partie « autorité d'adressage » http://mon_site.fr par la bonne URL
Garder le type d'identifiant /ark:/
Remplacer NAAN par le NAAN de l'organisme producteur de la ressource SKOS/RDF-XML
Remplacer ABC par un code alphanumérique court correspondant à la ressource elle-même
Voici un exemple réel : http://data.loterre.fr/ark:/67375/1WB
A noter qu'en l'absence de NAAN, l'URI ne peut pas être considéré comme un « URI ARK » mais peut néanmoins être utilisé sans la partie ark:/NAAN/, la dernière partie étant un identifiant unique.
Conversion
Différents modules de conversion sont proposés par Loterre :
Transformer un fichier CSV en SKOS-XML
Ce service permet de générer un fichier SKOS-XML à partir d'une feuille de calcul (Excel, OpenOffice, etc.) sauvegardée en CSV.
Deux variantes de ce service sont proposées par Loterre, selon que le séparateur de champs présent dans le fichier CSV est un point-virgule ou une virgule :
Transformer un fichier CSV dont le séparateur est un point-virgule en SKOS/RDF-XML
Transformer un fichier CSV dont le séparateur est une virgule en SKOS/RDF-XML
n.b. : dans le cas d'un fichier CSV dont le séparateur est un point-virgule, utiliser les guillemets doubles anglais ( " / quote) comme délimiteur de texte pour les champs susceptibles de contenir le point-virgule comme ponctuation. Mettre les quotes au début et à la fin du texte pour que le point-virgule ne soit pas considéré comme un séparateur de champ. Si le texte contient lui-même des quotes, elles doivent être doublées.
La feuille de calcul initiale doit respecter un formalisme prédéfini :
utiliser le séparateur «§§» pour les champs multi-valués (exemple : hormone§§médicament)
utiliser des noms d'étiquettes du tableau suivant :
Donnée terminologique
Etiquette à utiliser
xx = code ISO de la langue (*)
Commentaire
Préférentiel
prefLabel_xx
Un « prefLabel_fr » est attendu
Synonyme
altLabel_xx
Terme caché
hiddenLabel_xx
Définition
definition_xx
Note
note_xx
Note d'application
scopeNote_xx
Note éditoriale
editorialNote_xx
Note historique
historyNote_xx
Note de changement
changeNote_xx
Exemple
example_xx
Terme générique
broader_xx
Un « broader_fr » est attendu
Terme associé
related_xx
Un « related_fr » est attendu
Groupe (collection)
group_xx
Un « group_fr » est attendu
Alignement exact
exactMatch
Alignement proche
closeMatch
Alignement plus large
broadMatch
Alignement plus restreint
narrowMatch
Alignement associé
relatedMatch
(*) Remplacer « xx » par le code langue ISO sur 2 caractères ; exemple « prefLabel_fr » pour le préférentiel français. Voir la liste des codes ISO 639-1
Les données sont transformées de la manière suivante :
Un fichier SKOS/RDF-XML est créé pour contenir l'ensemble de la ressource terminologique.
Chaque ligne hormis la première ligne devient un « skos:Concept », si un identifiant est présent, il est attribué au concept ; dans le cas contraire, un URI provisoire lui est affecté dans l'attribut « rdf:about ».
Les étiquettes de la première ligne sont transformées en leur équivalent SKOS, par exemple « prefLabel_fr » devient « skos:prefLabel » avec un attribut « xml:lang="fr" ».
Le contenu de chaque cellule est versé dans la propriété SKOS ad hoc et si le contenu est multi-valué, il est scindé en autant de propriétés que de valeurs séparées par le séparateur «§§».
Les relations TA et TG sont traitées en deux temps : dans un premier temps une propriété « skos:related » ou « skos:broader » est générée pour chaque TA ou TG puis dans un deuxième temps, c'est l'URI du concept correspondant aux termes en question qui est mis dans l'attribut « rdf:resource ».
Si le fichier comporte des groupes, une « skos:Collection » est créée pour chaque groupe. Veiller à traduire les groupes au moins en anglais.
De plus, la transformation insère également deux blocs au début du fichier SKOS/RDF-XML :
Un bloc « cc:License » avec par défaut la licence Creative Commons CC-BY 4.0 qu'il convient de modifier si la ressource est diffusée sous une autre licence
Un bloc « skos:ConceptScheme » avec :
un URI dérivé des identifiants des concepts ;
des propriétés pour les métadonnées à compléter/modifier par l'utilisateur au niveau du fichier de sortie :
les titres français, anglais et espagnol (dct:title),
les descriptions française, anglaise et espagnole (dct:description),
les sujets français, anglais et espagnol (dct:subject),
le nom du créateur de la ressource (dct:creator),
le type de licence (cc:license),
les noms français, anglais et espagnol de l'organisme auquel la ressource doit être attribuée (cc:attributionName),
le site web de l'organisme / institution (cc:attributionURL),
les top-concepts (skos:hasTopConcept) si la ressource est structurée,
les langues de la ressource calculées à partir des codes langues utilisés pour les libellés préférentiels des concepts (dct:language avec attribut lexvo / codes ISO 639-3),
la date de création de la ressource (dct:created),
la date de dernière modification (dct:modified),
la version de la ressource (owl:versionInfo).
Le contenu textuel de ces champs devra être complété et validé par l'utilisateur.
Si les concepts n'ont pas d'identifiants, l'URI par défaut de la ressource est « http://www.monsite/vocabs/ABC ». C'est également la racine de l'URI des concepts, des relations et des éventuelles collections. Elle doit être remplacée comme suit :
Remplacer « http://www.monsite/ » par la bonne URL.
Garder « /vocabs/ ».
Remplacer « ABC » par un code alphanumérique court correspondant à la ressource elle-même.
Au niveau des concepts, l'URI est une concaténation de l'URI de la ressource avec un identifiant unique ; au niveau des collections, l'URI est une concaténation de l'URI de la ressource avec le nom du groupe en remplaçant les espaces par des « _ ».
Pour passer à des identifiants ARK, utiliser la transformation « Attribuer des identifiants ARK à un fichier SKOS/RDF-XML valide ».
Transformer un fichier SKOS-XML en CSV
Ce service permet de générer un fichier CSV à partir d'un fichier SKOS/RDF-XML valide contenant des éléments « skos:Concept » ou « rdf:Description[rdf:type[@rdf:resource='http://www.w3.org/2004/02/skos/core#Concept']] ».
Deux variantes en sont proposées par Loterre, selon la nature du séparateur de champs souhaité dans le fichier CSV résultant :
Transformer un fichier SKOS/RDF-XML en fichier CSV dont le séparateur est une virgule
Transformer un fichier SKOS/RDF-XML en fichier CSV dont le séparateur est un point-virgule
Le fichier produit peut être importé dans un tableur (Excel, LibreOffice, etc.) pour y être modifié (voir plus loin la procédure d'import dans Excel).
Les données sont transformées de la manière suivante :
Une première ligne « en-têtes de colonnes » est créée à partir des éléments (propriétés skos ou autres) utilisés pour décrire les différents concepts du fichier SKOS/RDF-XML :
Une étiquette « ID » est créée pour les identifiants des concepts,
Les propriétés ayant un attribut « xml:lang » sont listées en accolant le nom de l'élément (sans espace de nom) avec le code langue (par exemple, « skos:prefLabel/@xml:lang="fr" » donne l'étiquette « prefLabel_fr »),
En ce qui concerne les propriétés qui ont un attribut autre que « xml:lang »:
celles qui correspondent aux relations sémantiques (« skos:broader », « skos:narrower » et « skos:related ») sont traduites en « broader_fr », « narrower_fr » et « related_fr »
les autres (propriétés d'alignement, etc.) sont sorties avec le nom de l'élément seulement (sans espace de nom, par exemple, « exactMatch » pour « skos:exactMatch »)
Les propriétés qui n'ont pas d'attribut sont sorties avec le nom de l'élément seulement (sans espace de nom),
Si le fichier contient des collections, une étiquette « group_fr » est créée. Cette étiquette peut s'avérer redondante si les concepts contiennent des propriétés reflétant leur appartenance à des groupes (domaine, microthésaurus, etc.).
Ensuite, une ligne est générée pour chaque concept du fichier :
le contenu de l'attribut « rdf:about » est mis dans la colonne « ID »,
le contenu des éléments textuels (termes, définitions, notes, etc.) est versé dans la colonne correspondant à l'élément et au code langue de cet élément,
les relations hiérarchiques et associatives (liens) sont traduites en les remplaçant par les termes préférentiels français correspondants,
le contenu des autres éléments est sorti tel quel,
si le concept appartient à une collection, le nom en français de la collection est mis dans la colonne « group_fr ».
A noter que :
les contenus des différents champs sont mis entre quotes (guillements anglais) pour éviter les problèmes de séparation quand ces contenus contiennent la virgule comme élément de ponctuation,
si le contenu d'un champ contient des quotes, elles sont doublées pour les protéger,
les contenus des champs à occurrences multiples (par exemple, « skos:altLabel ») sont versés dans la même « cellule » mais séparés par le séparateur «§§».
Pour importer le fichier dans Excel :
Créer un nouveau fichier dans Excel (« Fichier » / « Nouveau »).
Cliquer sur Menu « Données », choisir « Fichier texte » puis choisir le fichier à importer avec l'explorateur de fichiers.
Importer le fichier (bouton « Importer »).
Au niveau de l'« Assistant Importation de texte » :
cocher la case « Délimité »,
dans la liste déroulante de menu « Origine du fichier », choisir « 65001 : Unicode (UTF-8) »
Cliquer sur « Suivant » :
Au niveau de la colonne « Séparateurs », cocher la case « Virgule »,
Garder les quotes ( " ) au niveau du menu « Identificateur de texte »,
Vérifier le rendu au niveau de l'Aperçu des données,
Cliquer sur « Suivant » puis sur « Terminer » et « OK ».
Une fois modifié dans Excel, le fichier peut à nouveau être sauvegardé en CSV puis transformé en SKOS en utilisant le service « Transformer un fichier CSV dont le séparateur est un point-virgule en SKOS/RDF-XML » ou « Transformer un fichier CSV dont le séparateur est une virgule en SKOS/RDF-XML » en fonction du séparateur de champs appliqué au moment de la sauvegarde.
Transformer un fichier SKOS-XML en HTML
Ce service permet de générer un fichier HTML (version française) à partir d'un fichier SKOS valide. Il traite des fichiers contenant des « skos:Concept » ou des « rdf:Description » de type « Concept ».
Deux variantes en sont proposées par Loterre, selon la version linguistique choisie :
Convertir un fichier SKOS/RDF-XML valide en fichier html-version française
Convertir un fichier SKOS/RDF-XML valide en fichier html-version anglaise
Les entrées terminologiques sont présentées dans l'ordre alphabétique du préférentiel (français ou anglais) :
les termes (préférentiel et synonymes) dans la langue choisie
les définitions et notes dans la langue choisie
les relations (termes génériques, associés et spécifiques)
les termes préférentiels dans les autres langues
les groupes éventuels d'appartenance
les alignements
les références bibliographiques éventuelles
la (les) source(s) du concept
La richesse des informations affichées dépendra du contenu et de la structuration du fichier SKOS de départ.
Transformer un fichier SKOS-XML en PDF
Cette transformation permet de générer un fichier PDF à partir d'un fichier SKOS valide.
Deux variantes en sont proposées par Loterre, selon la version linguistique choisie pour la ressource :
Transformer un fichier SKOS/RDF-XML en un fichier PDF correspondant à la version française de la ressource
Transformer un fichier SKOS/RDF-XML en un fichier PDF correspondant à la version anglaise de la ressource
Plusieurs sections sont produites en fonction du contenu et de la structuration du fichier :
Index alphabétique.
Les entrées terminologiques détaillées (en français ou en anglais) avec :
les termes, définitions, notes
les relations (termes génériques, associés et spécifiques)
les termes préférentiels dans les autres langues
les groupes éventuels d'appartenance
les alignements
les références bibliographiques éventuelles
la (les) source(s) du concept
La liste des entrées avec :
le préférentiel français
le préférentiel anglais
la page
L'arborescence si la ressource est structurée.
Les collections si la ressource contient des groupes.
Des pages additionnelles sont insérées :
page de couverture simple avec le titre de la ressource (français ou anglais)
page de garde avec :
titre (français ou anglais) de la ressource
version
dernière date de mise à jour
description (français ou anglais)
légende pour les entrées détaillées
licence CC-BY 4.0 plus logo
4e> de couverture avec :
titre (français ou anglais) de la ressource
description (français ou anglais)
licence CC-BY 4.0 plus logo
A noter que les pages de couverture peuvent être remplacées en éditant le fichier final avec un éditeur PDF.
Le service « Télécharger » permet un téléchargement de l'intégralité du contenu de l'une des ressources exposées dans Loterre, sous différents formats : PDF, CSV, SKOS/XML ou JSON-LD.
Dans la plateforme Loterre, il est également possible de télécharger :
Loterre Explorer utilise l'outil open source LODEX pour présenter une vision analytique des ressources terminologiques exposées dans Loterre. Il permet également d'explorer et de trier les terminologies de Loterre par domaines, langues, licences, producteurs..., en cliquant sur les icônes « Recherche » ou « Graphiques ».
En complément d'une recherche de terminologies dans Loterre, « Vocabs Explorer » propose une sélection de ressources accessibles en ligne : entrepôts ou répertoires de terminologies, vocabulaires contrôlés, glossaires, lexiques, dictionnaires, ontologies, thesauri, etc.
Grâce à l'utilisation de l'outil open source LODEX, cette sélection peut être explorée et triée par types de contenu, domaines scientifiques, thématiques, langues, producteurs..., en cliquant sur les icônes « Recherche » ou « Graphiques ».
Terminologies de Loterre
Les terminologies proposées par des tiers font l'objet d'un examen fondé sur des critères de qualité et de format. Les propriétaires du site Loterre se réservent le droit d'opérer une modération des propositions reçues. Ils peuvent refuser d'intégrer une terminologie s'ils considèrent qu'elle ne répond pas aux critères qui régissent la plateforme.
La couverture scientifique des terminologies exposées dans Loterre est multidisciplinaire et doit relever d'un ou plusieurs des domaines scientifiques suivants :
Sciences et technologies
Mathématiques
Algèbre
Analyse mathématique
Analyse numérique, calcul scientifique
Combinatoire, structures ordonnées
Géométrie
Mathématiques générales
Probabilités et statistiques
Systèmes dynamiques, analyse globale et analyse sur variétés
Théorie des groupes
Topologie, variétés et complexes cellulaires
Physique
Acoustique
Cristallographie
Électromagnétisme, optique
Mécanique des solides, mécanique des fluides, rhéologie
Métrologie
Physique atomique et moléculaire
Physique de l'état condensé
Physique des gaz et des plasmas
Physique nucléaire
Physique théorique, physique quantique, physique statistique, relativité et gravitation
Thermodynamique, transferts de chaleur
Sciences de la terre et de l'univers
Aéronomie, météorologie, climatologie
Astronomie
Géologie, géophysique interne
Glaciologie
Océanographie
Chimie
Chimie analytique
Chimie générale, chimie théorique et chimie physique
Chimie minérale (inorganique)
Chimie organique
Sciences pour l'ingénieur
Aéronautique, transports
Automatique, recherche opérationnelle
Électronique, informatique
Énergie, électrotechnique, électro-énergétique
Génie chimique, industries chimiques et para-chimiques
Génie civil, bâtiment et travaux publics
Génie mécanique
Métallurgie
Technologie des polymères, peinture, bois
Télécommunications, théorie et traitement du signal
Nanosciences, nanotechnologies
Sciences du vivant et environnement
Biologie, santé
Biologie moléculaire et structurale, biochimie
Génétique, génomique, bio-informatique
Biologie cellulaire, biologie du développement animal, zoologie, sciences vétérinaires
Les terminologies exposées dans Loterre peuvent être :
monolingues, à condition que la langue soit le français ou l'anglais
multilingues, sous réserve que l'une des langues soit le français ou l'anglais
Les ressources terminologiques intégrées dans Loterre se veulent, autant que possible, conformes aux bonnes pratiques du W3C relatives à la publication de données liées.
Idéalement, elles doivent respecter les critères alloués aux données « 5 étoiles » : Linked Data – Design Issues
Données librement accessibles sur le web (avec mention d'une licence ouverte) ;
Données dans un format structuré (lisible par la machine) ;
Format non propriétaire (CSV, RDF, …) ;
Standards W3C et URI pour identifier chaque ressource ;
Données reliées à d'autres données RDF via des alignements.
Schématiquement, elles peuvent être du type :
vocabulaires au sens large : glossaires, listes de termes, thésaurus ;
taxonomies (plans de classements et similaires).
Les données de type ressources lexicales, ressources d'analyse de contenu ou ontologies ne pourront être intégrées à Loterre que si elles sont converties en format SKOS, ce qui peut entraîner une perte d'informations par rapport au contenu d'origine.
Du point de vue de leur structuration, elles peuvent :
présenter une hiérarchie simple, multiple ou ne présenter aucune hiérarchie ;
présenter des regroupements (collections, groupes, domaines ou facettes).
Conception de Loterre
L'architecture de Loterre s'appuie sur un triplestore (base de triplets) doté d'un outil de consultation humaine et interrogeable via une interface SPARQL et une API.
Pour donner accès aux ressources terminologiques, Loterre fait appel à divers outils tiers open source :
Une de vos questions est restée sans réponse ? Posez-la en direct, via le formulaire de contact.
Modèle de données
Cliquez sur les questions ci-dessous pour en savoir plus au sujet de Loterre
Les terminologies intégrées au triplestore sont exprimées selon un modèle de type « SKOS étendu », qui associe au standard SKOS un certain nombre de classes et propriétés appartenant à d'autres vocabulaires (liste non exhaustive) :
This property allows the linkage of two different pieces of software such that one directly executes or uses the other. The has_part relationship should instead be used to describe related but independent members of a larger software package, and 'uses platform' relationship should be used to describe which operating system(s) a particular piece of software can use.
"is implemented by" is the relationship between an algorithm and a piece of software which includes an implementation of that software for use when the software is executed.
Entity A is 'directly preceded by' entity B if there are no intermediate entities temporally between the two entities. Within SWO this property is mainly used to describe versions of entities such as software.
'directly followed by' is an object property which further specializes the parent 'followed by' property. In the assertion 'C directly followed by C1', says that Cs generally are immediately followed by C1s.
'uses platform' should be used to link a particular piece of software to one or more operating systems which that software can run on. This is in contrast to both 'uses software' (which describes one piece of software directly executing another), and has_part, which can be used to describe related but independent software in a package, for example.
Provides a method of asserting what type of interactions are possible for the class in question. The interface must be from the 'software interface' hierarchy.
"is executed in" defines the relationship between a software class and an appropriate process in the information processing hierarchy. Specifically, it allows the linking of a particular piece of software to a process of a particular purpose.
Axioms using the 'has clause' property, e.g. C 'has clause' C1, provide links from the left hand class to the instances within the 'license clause' hierarchy. This provides a way to more precisely assert the constraints of the licensing applied.
The relationship between an entity and the set of legal restrictions, i.e. license, which are applied in using or otherwise interacting with that entity. Eg. relationship between a software license and the software which implements it.
With both a domain and range of 'data format specification', this property provides a means of stating that two different data format specifications are valid specifications for the same type of data.
The relationship between an entity and the set of legal restrictions, i.e. license, which are applied in using or otherwise interacting with that entity. Eg. relationship between software and a software license.
'is compatible license of' provides a method of marking two software licenses as compatible and without conflicts, e.g. that the Apache License version 2 is compatible with GNU GPL version 3. If two licenses are connected with this property, it means code released under one license can be released with code from the other license in a larger program.
'has declared status' provides a way to assert the developmental status of a class, such as whether it is stable or under development. Is especially useful for software that might not be complete or stable yet, and when combined with version information.
A related resource that references, cites, or otherwise points to the described resource. [This property is intended to be used with non-literal values. This property is an inverse property of References.]
La nomenclature NUTS (Nomenclature des unités territoriales statistiques) est un système hiérarchique de découpage du territoire économique de l'UE et du Royaume Uni.
Correspond à un groupe d'entrées terminologiques (concepts). Cette classe peut être remplacée par la classe "isothes:ConceptGroup" ou par la classe "rdf:Description" en précisant le type "http://www.w3.org/2004/02/skos/core#Collection" ou "http://purl.org/iso25964/skos-thes#ConceptGroup" dans l'attribut "rdf:resource" d'une balise "rdf:type"
Correspond à une entrée terminologique. Cette classe peut être remplacée par la classe "rdf:Description" en précisant le type "http://www.w3.org/2004/02/skos/core#Concept" dans l'attribut "rdf:resource" d'une balise "rdf:type"
Correspond à un groupe d'entrées terminologiques (concepts). Cette classe peut être remplacée par la classe "skos:Collection" ou par la classe "rdf:Description" en précisant le type "http://www.w3.org/2004/02/skos/core#Collection" ou "http://purl.org/iso25964/skos-thes#ConceptGroup" dans l'attribut "rdf:resource" d'une balise "rdf:type"
Correspond à une référence bibliographique en rapport avec un concept (ou une collection de concepts). Ne pas confondre avec la propriété "dct:bibliographicCitation" utilisée au sein de cette classe.
Correspond au niveau "ressource terminologique" (vocabulaire) à la quelle les entrées terminologiques (concepts) sont rattachées. Cette classe peut être remplacée par la classe "rdf:Description" en précisant le type "http://www.w3.org/2004/02/skos/core#ConceptScheme" dans l'attribut "rdf:resource" d'une balise "rdf:type"
Informations, outils ou services utiles pour publier des ressources terminologiques dans le web de données
Cliquez sur les items ci-dessous pour les plier/déplier
RDF
RDF (Resource Description Framework) est un modèle de graphe destiné à décrire formellement les ressources web et leurs métadonnées, afin de permettre le traitement automatique de ces descriptions. Développé par le W3C, RDF est le langage de base du Web sémantique. L'une des syntaxes (ou sérialisations) de ce langage est RDF/XML. D'autres syntaxes de RDF sont apparues ensuite, cherchant à rendre la lecture plus facile ; c'est le cas par exemple de Notation3 (ou N3). (Source : Wikipédia)
SKOS
Le format SKOS ou « Simple Knowledge Organization System » (Système Simple d'Organisation de Connaissances) est un modèle de données partagé qui permet d'échanger et de relier des systèmes d'organisation de connaissances sur le Web de données.
L'URI est une des briques de base du web de données en ce sens que chaque ressource est identifiée par de manière unique et pérenne par un URI.
Un grand nombre de ressources Loterre utilisent des URI de type Ark construits selon les préconisations de la CDL (California Digital Library).
Un identifiant ARK a la syntaxe suivante :
Le NMA (Name Adressing Authority ou Autorité d'adressage), son rôle est de rendre l'URL cliquable dans un navigateur web.
L'identifiant ARK proprement dit qui se compose :
du label (schème) « ark:/ »,
d'un code numérique qui correspond au NAAN (Name Assigning Authority Number ou Autorité d'assignement de nom ou Numéro d'autorité nommante) attribué sur demande par la CDL à des organismes producteurs de ressources documentaires.
d'une chaîne alphanumérique affectée à chaque concept et terminée par un caractère de contrôle (Check sum).
Outil de représentation de ressources au format SKOS, qui permet d'afficher ou d'imprimer différentes vues d'une terminologie
Documentation : http://labs.sparna.fr/skos-play/?lang=fr
Outil permettant de publier des jeux de données (csv, tsv, xml, json, …) dans des formats du web sémantique (JSON-LD, N-Quads, …) et de les manipuler dans un backoffice. Développé à l'Inist.
Documentation : https://github.com/Inist-CNRS/lodex
Application permettant de transformer des données brutes en graphe de connaissances.
OnAGUI
OnAGUI (Ontology Alignment Graphical User Interface) est un outil qui permet de rechercher et de valider les alignements entre les concepts de ressources terminologiques (au format SKOS ou OWL), grâce à différents algorithmes.
Documentation : https://github.com/lmazuel/onagui
YAM++ Matcher
Application en ligne destinée à rechercher et valider des alignements entre des thésaurus et des ontologies, développé au LIRMM
Documentation : http://yamplusplus.lirmm.fr/
OpenRefine
OpenRefine est bien plus qu'un outil d'alignement, ce logiciel libre permettant plus généralement le nettoyage et la mise en forme de données textuelles tabulaires. Mais il s'avère particulièrement utile en matière d'alignement, fonction nommée « réconciliation » dans la terminologie de l'outil, car il permet de se connecter aux API de nombreuses bases de données, dont wikipédia ou wikidata, pour rechercher les identifiants des concepts équivalents, à valider dans son interface.
Documentation : https://openrefine.org/
Cliquez sur les rubriques ci-dessous pour afficher/masquer leur contenu
Utilisez le formulaire de contact pour nous envoyer un message. Si votre message concerne un vocabulaire donné, veuillez le préciser.
Si vous envisagez de concevoir une nouvelle ressource terminologique, nous vous proposons de vous accompagner. Ce projet nécessite une collaboration étroite entre vos experts du domaine et nos ingénieurs qui apporteront leur savoir-faire et leurs compétences en ingénierie terminologique.
Cette ressource peut avoir plusieurs objectifs d'utilisation : harmoniser la terminologie du domaine en résolvant les problèmes de polysémie et d'homonymie ; favoriser le partage des connaissances grâce à une ressource librement accessible, consultable et téléchargeable en ligne ; servir de référentiel pour l'indexation des jeux de données scientifiques dans les entrepôts de recherche ; et enfin, constituer un outil pédagogique facilitant l'exploration et le partage des connaissances, particulièrement dans le contexte du web sémantique.
Ensemble, en fonction de vos besoins, du public ciblé et des ressources disponibles, nous élaborerons une méthodologie progressive en nous appuyant sur nos outils spécialisés de gestion et de production tels que Sketch Engine, TermSuite, VocBench, OpenRefine et d'autres.
Il n'y a pas une seule façon de construire une ressource terminologique mais notre travail suit un canevas méthodologique général que nous adaptons au cas à traiter.
Avant d'élaborer une ressource terminologique, il est recommandé de réaliser un travail préparatoire qui comprend l'identification des contributeurs potentiels, l'évaluation des ressources existantes, la définition du périmètre scientifique et le choix du type de ressource à créer (thésaurus, lexique, glossaire, etc.).
L'étude préalable ayant permis de définir le périmètre et le type de ressource que l'on souhaite créer, il s'agit alors de collecter les termes pertinents qui vont en constituer le contenu. Cette étape commence généralement par la constitution d'un corpus. Nous partons souvent d'une liste de candidats-termes extraits automatiquement à partir de ce corpus textuel mais des ressources existantes, des extractions de mots clès d'auteur ou des index d'ouvrages sont aussi des sources dignes d'intérêt. L'objet de la collecte de termes est de constituer un réservoir terminologique qui servira de base de travail pour les étapes suivantes (curation, structuration, enrichissement). Les éléments terminologiques récupérés à ce stade vont du simple candidat-terme au concept complet qui contient déjà préférentiels, équivalents et définitions.
Après la collecte des candidats-termes, un tri est nécessaire pour éliminer les termes hors domaine, obsolètes, redondants ou non nominaux, tout en conservant les variants, synonymes et termes à corriger. Cette phase de nettoyage, qui demande du temps, peut se prolonger durant l'étape de structuration car l'élaboration terminologique est un processus global et itératif plutôt qu'une séquence linéaire. La liste finale obtenue sera ensuite complétée pour combler les lacunes, puis structurée et enrichie.
La structuration des concepts permet d'explorer une ressource terminologique à différents niveaux de spécificité et d'établir des mécanismes d'héritage. Cette structuration s'appuie sur trois types principaux de relations:
les relations hiérarchiques (générique-spécifique, partitive, d'instance) qui aident à la rédaction de définitions formelles ;
les relations associatives non hiérarchiques entre concepts liés ;
les relations d'équivalence entre variants terminologiques.
Un quatrième type de relation permet le regroupement thématique des concepts par domaines. Pour établir ces structures, on peut utiliser la littérature scientifique, les ontologies existantes ou des outils de traitement automatique du langage.
L'enrichissement final du contenu du thésaurus est un processus continu qui comprend plusieurs actions : l'ajout de définitions (rédigées ou extraites de sources existantes), l'intégration de références bibliographiques facultatives via les propriétés Dublin Core, la réalisation d'alignements avec d'autres ressources (manuellement ou à l'aide d'outils spécialisés), l'incorporation de relations conceptuelles plus précises, et l'ajout de données supplémentaires comme des coordonnées géographiques ou des identifiants. Pour un thésaurus multilingue, tous ces champs doivent être renseignés dans chaque langue.
La dernière étape consiste en une conversion des ressources terminologiques pour leur publication sur Loterre dans l'univers des données ouvertes et liées (LOD). Ce processus comprend l'utilisation des standards du web de données, l'attribution d'identifiants uniques URI et l'adoption d'une licence ouverte. Les fichiers originaux sont convertis en RDF/SKOS et soumis à des contrôles pour vérifier leur conformité au modèle de données.
En 2020, Paleosaurus est une initiative de la Direction des Bibliothèques de l'Université Paris-Saclay, réunissant des experts de l'information et des paléoclimatologues de plusieurs laboratoires (LSCE, Géosciences Paris-Saclay et Montpellier). Fruit de cette collaboration, le thésaurus de paléoclimatologie décrit et structure pour la première fois environ 2000 termes et concepts de la discipline, en français et en anglais. Destiné à offrir à la communauté scientifique un vocabulaire de référence, il facilite le partage, sur le web, des données et des productions scientifiques en paléoclimatologie.
Le thésaurus paléoclimatologique se distingue par sa structure poly-hiérarchique comprenant 2000 entrées conceptuelles organisées sous une trentaine de top-concepts, ses concepts enrichis de synonymes, définitions et relations d'association avec d'autres concepts, ainsi que par l'alignement systématique de ses concepts sur les systèmes internationaux d'organisation des connaissances.
Pour la création du thésaurus, un corpus de près de 40.000 documents (1890-2020) a été constitué à partir des bases de données WOS, Scopus et Istex. Une extraction terminologique avec TermSuite a permis d'identifier plus de 140.000 termes, réduits à une liste de 7.000 termes. Sept chercheurs en paléoclimatologie ont ensuite sélectionné et validé 2.000 concepts hiérarchisés sous une trentaine de top-concepts. Tous ces concepts ont été traduits en français et alignés avec des systèmes internationaux comme Wikipédia. Le thésaurus a été enrichi de définitions (trois quarts des concepts ont des définitions française et anglaise) avant d'être structuré et publié sur la plateforme Loterre.
Plus de la moitié des ressources publiées sur Loterre proviennent de partenaires qui desirent bénéficier de ce portail et de ses services pour valoriser leurs terminologies.
Si vous disposez d'ores et déjà d'une ressource terminologique, nous pouvons nous charger des opérations techniques de conversion en SKOS, de contrôle et d'attribution d'identifiants uniques (ARK) aux fins de publication sur le portail Loterre.
Voici les conditions minimales pour qu'un contenu soit directement éligible à rejoindre Loterre :
la ressource doit traiter d'un domaine/thème scientifique,
vous devez accepter la charte Loterre qui fixe notamment tous les aspects relatifs aux droits et à la diffusion,
votre ressource est au minimum en français ou en anglais (les 2, dans l'idéal).
Dans le cas où votre ressource ne serait pas suffisamment riche et homogène, nous pouvons collaborer pour l'enrichir et l'organiser pour la rapprocher de nos standards.
N'hésitez pas à nous contacter pour échanger sur votre projet; nous pourrons certainement élaborer ensemble une solution adaptée qui valorisera vos contenus terminologiques : formulaire de contact.
Engagements Loterre
La publication de ressources terminologiques dans Loterre est gratuite, dans la limite des volumes qui sont à l'échelle des capacités techniques de la plateforme et dans la limite des critères définis dans le paragraphe « Sélection des ressources ».
Les administrateurs de Loterre s'engagent à tout mettre en oeuvre pour garantir la continuité de l'accès au service.
Métadonnées
L'Inist produit pour chaque ressource un fichier de métadonnées, à partir des informations fournies par le propriétaire de la ressource. Ces métadonnées peuvent être rassemblées dans un fichier VoID.ttl (Vocabulary of Interlinked Datasets).
La liste des métadonnées est consultable dans l'onglet "Modèle de données".
Gestion des URI déréférençables
Dans la majorité des cas, les URI affichées dans Loterre sont du type :
http://data.loterre.fr/CodeProducteur/CodeRessource pour une ressource
http://data.loterre.fr/CodeProducteur/CodeRessource/IdentifiantConcept pour un concept de cette ressource
Avec :
CodeProducteur : un code permettant d'identifier l'organisme qui a créé la ressource
CodeRessource : code permettant d'identifier la ressource
IdentifiantConcept : identifiant d'un concept dans la ressource
Si le producteur possède un compte lui permettant d'enregistrer un DOI pour sa ressource, cet élément peut être enregistré dans les métadonnées de sa ressource dans Loterre.
Gestion des versions
En cas de mises à jour d'une ressource, la version conservée dans le triplestore et disponible au téléchargement est la plus récente.
Les fichiers à télécharger des anciennes versions peuvent être fournies à la demande.
Gestion des fichiers des utilisateurs
Loterre propose des services qui permettent aux utilisateurs de convertir, contrôler et enrichir leurs propres données. Voir menu "Services".
Les données utilisateurs traitées par ces services ne seront utilisées que le temps d'une session et ne seront pas conservées par l'Inist-CNRS.
Engagements des contributeurs
Le dépôt d'une ressource sur Loterre implique pour le contributeur d'avoir toute autorisation de dépôt de la part du propriétaire ou de l'ayant droit juridique de la ressource et d'avoir une connaissance exacte de ses droits d'utilisation.
Ainsi le contributeur doit :
être habilité à prendre toute décision concernant l'utilisation et la diffusion de la ressource (propriété intellectuelle en particulier) ;
être à même de fournir toutes les informations relatives aux sources de la ressource.
Pour être publiées sur Loterre, les ressources doivent idéalement être fournies sous forme de fichiers SKOS/RDF.
Cependant, si le contributeur n'est pas en mesure de fournir des données dans ce format, l'Inist peut se charger de réaliser, à partir des données fournies par le contributeur, les travaux de conversion/contrôles nécessaires. De même l'Inist pourra prendre à sa charge la création des fichiers PDF ou CSV proposés pour le téléchargement.
Note : un service (menu "Services" / onglet "Transformer") est en ligne sur Loterre pour permettre aux utilisateurs d'effectuer eux-mêmes des transformations depuis un format tableur comme CSV vers SKOS ou depuis SKOS vers CSV, HTML ou PDF.
Licence
Au moment de la soumission, le contributeur doit préciser la nature de la licence attachée à la ressource. Cette licence doit autoriser la mise à disposition et la réutilisation des données, dans une optique de « Science ouverte ».
Exemples de licences ouvertes applicables à ce type de données :