Passer au contenu principal

Vocabulaire du traitement automatique des langues

Choisissez le vocabulaire dans lequel chercher

Concept information

Terme préférentiel

tokenisation  

Définition

  • Tâche/processus de reconnaissance et d'étiquetage d'éléments (mots, signes de ponctuation, chiffres, etc.) dans un texte. (Loterre)

Concept générique

Synonyme(s)

  • découpage de texte
  • segmentation de texte

Exemple

  • Il existe beaucoup de tâches dites de « segmentation de texte ». (Labadié & Prince, 2008)
  • La tokenisation est une opération assez simple pour certaines langues (ex. (Sadat, Foster & Kuhn, 2006)
  • Les blocs sont constitués des pseudo-phrases obtenues lors de la phase de tokenization. (Foucault, Rosset & Adda, 2013)
  • Les disfluences ont été annotées à deux niveaux selon un protocole adapté aux langues verbales et aux langues signées (Crible et al. 2016) : disfluences simples alignés sur une tokenisation de la transcription orthographique et disfluences composées regroupant plusieurs tokens contigus ou non contigus (Grosman 2018 429). (Yaru Wu, Ivana Didirková & Anne-Catherine Simon, 2022)

Traductions

URI

http://data.loterre.fr/ark:/67375/8LP-T7Q0JFBM-5

Télécharger ce concept :

RDF/XML TURTLE JSON-LD Dernière modification le 27/05/2024