Concept information
Terme préférentiel
tokenisation
Définition
- Tâche/processus de reconnaissance et d'étiquetage d'éléments (mots, signes de ponctuation, chiffres, etc.) dans un texte. (Loterre)
Concept générique
Synonyme(s)
- découpage de texte
- segmentation de texte
Exemple
- Il existe beaucoup de tâches dites de « segmentation de texte ». (Labadié & Prince, 2008)
- La tokenisation est une opération assez simple pour certaines langues (ex. (Sadat, Foster & Kuhn, 2006)
- Les blocs sont constitués des pseudo-phrases obtenues lors de la phase de tokenization. (Foucault, Rosset & Adda, 2013)
- Les disfluences ont été annotées à deux niveaux selon un protocole adapté aux langues verbales et aux langues signées (Crible et al. 2016) : disfluences simples alignés sur une tokenisation de la transcription orthographique et disfluences composées regroupant plusieurs tokens contigus ou non contigus (Grosman 2018 429). (Yaru Wu, Ivana Didirková & Anne-Catherine Simon, 2022)
Traductions
-
anglais
-
text segmentation
-
tokenisation
URI
http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5
{{label}}
{{#each values }} {{! loop through ConceptPropertyValue objects }}
{{#if prefLabel }}
{{/if}}
{{/each}}
{{#if notation }}{{ notation }} {{/if}}{{ prefLabel }}
{{#ifDifferentLabelLang lang }} ({{ lang }}){{/ifDifferentLabelLang}}
{{#if vocabName }}
{{ vocabName }}
{{/if}}