@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix ltk: <http://data.loterre.fr/ark:/67375/LTK> .
@prefix inist: <http://www.inist.fr/Ontology#> .

<http://data.loterre.fr/ark:/67375/8LP> a owl:Ontology, skos:ConceptScheme .
<http://data.loterre.fr/ark:/67375/8LP-HXQKV3LJ-7>
  skos:prefLabel "annotation structurelle"@fr, "structural annotation"@en ;
  a skos:Concept ;
  skos:narrower <http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5> .

<http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5>
  skos:example "To more thoroughly evaluate our tokenization we train multilingual T5 models using Sentence-Piece and CompoundPiece. (Minixhofer, Pfeiffer & Vulic, 2023)"@en, "La tokenisation est une opération assez simple pour certaines langues (ex. (Sadat, Foster & Kuhn, 2006)"@fr, "Les disfluences ont été annotées à deux niveaux selon un protocole adapté aux langues verbales et aux langues signées (Crible et al. 2016) : disfluences simples alignés sur une tokenisation de la transcription orthographique et disfluences composées regroupant plusieurs tokens contigus ou non contigus (Grosman 2018 429). (Yaru Wu, Ivana Didirková & Anne-Catherine Simon, 2022)"@fr, "Les blocs sont constitués des pseudo-phrases obtenues lors de la phase de tokenization. (Foucault, Rosset & Adda, 2013)"@fr, "Other steps during tokenization included proper handling of special text emoticons such as \"o.O\". (Chapman, Bernhard & Klakow, 2020)"@en, "Il existe beaucoup de tâches dites de « segmentation de texte ». (Labadié & Prince, 2008)"@fr ;
  skos:inScheme <http://data.loterre.fr/ark:/67375/8LP> ;
  skos:prefLabel "tokenization"@en, "tokenisation"@fr ;
  skos:hiddenLabel "Tokenisation"@fr, "Tokenization"@en ;
  dc:modified "2024-05-27T14:55:47"^^xsd:dateTime ;
  skos:exactMatch <https://www.wikidata.org/wiki/Q835922>, ltk:-T5RXB3DL-2 ;
  a skos:Concept ;
  skos:definition "The task/process of recognizing and tagging tokens (words, punctuation marks, digits etc.) in a text. (Loterre)"@en, "Tâche/processus de reconnaissance et d'étiquetage d'éléments (mots, signes de ponctuation, chiffres, etc.) dans un texte. (Loterre)"@fr ;
  skos:altLabel "découpage de texte"@fr, "tokenisation"@en, "segmentation de texte"@fr, "text segmentation"@en ;
  skos:broader <http://data.loterre.fr/ark:/67375/8LP-HXQKV3LJ-7> ;
  inist:definitionalContext "Text segmentation aims to uncover latent structure by dividing text from a document into coherent sections. (Barrow, Jain, Morariu, Manjunatha, Oard & Resnik, 2020)"@en .

