Skip to main content

Vocabulaire du traitement automatique des langues

Search from vocabulary

Concept information

Preferred term

tokenisation  

Definition

  • Tâche/processus de reconnaissance et d'étiquetage d'éléments (mots, signes de ponctuation, chiffres, etc.) dans un texte. (Loterre)

Broader concept

Synonym(s)

  • découpage de texte
  • segmentation de texte

Example

  • Il existe beaucoup de tâches dites de « segmentation de texte ». (Labadié & Prince, 2008)
  • La tokenisation est une opération assez simple pour certaines langues (ex. (Sadat, Foster & Kuhn, 2006)
  • Les blocs sont constitués des pseudo-phrases obtenues lors de la phase de tokenization. (Foucault, Rosset & Adda, 2013)
  • Les disfluences ont été annotées à deux niveaux selon un protocole adapté aux langues verbales et aux langues signées (Crible et al. 2016) : disfluences simples alignés sur une tokenisation de la transcription orthographique et disfluences composées regroupant plusieurs tokens contigus ou non contigus (Grosman 2018 429). (Yaru Wu, Ivana Didirková & Anne-Catherine Simon, 2022)

In other languages

URI

http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5

Download this concept:

RDF/XML TURTLE JSON-LD Last modified 5/27/24