Skip to main

Vocabulaire du traitement automatique des langues

Search from vocabulary

Concept information

Término preferido

tokenisation  

Definición

  • Tâche/processus de reconnaissance et d'étiquetage d'éléments (mots, signes de ponctuation, chiffres, etc.) dans un texte. (Loterre)

Concepto genérico

Etiquetas alternativas

  • découpage de texte
  • segmentation de texte

Ejemplo

  • Il existe beaucoup de tâches dites de « segmentation de texte ». (Labadié & Prince, 2008)
  • La tokenisation est une opération assez simple pour certaines langues (ex. (Sadat, Foster & Kuhn, 2006)
  • Les blocs sont constitués des pseudo-phrases obtenues lors de la phase de tokenization. (Foucault, Rosset & Adda, 2013)
  • Les disfluences ont été annotées à deux niveaux selon un protocole adapté aux langues verbales et aux langues signées (Crible et al. 2016) : disfluences simples alignés sur une tokenisation de la transcription orthographique et disfluences composées regroupant plusieurs tokens contigus ou non contigus (Grosman 2018 429). (Yaru Wu, Ivana Didirková & Anne-Catherine Simon, 2022)

En otras lenguas

URI

http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5

Descargue este concepto:

RDF/XML TURTLE JSON-LD última modificación 27/5/24