Passer au contenu principal

Vocabulaire du traitement automatique des langues

Choisissez le vocabulaire dans lequel chercher

Concept information

Terme préférentiel

token  

Définition

  • Élément de base de l'annotation textuelle qui ne peut être découpé en unités plus petites, et peut ainsi être constitué de plusieurs mots graphiques, comme c’est le cas par exemple des expressions idiomatiques, des mots composés ou de certains nombres. (Adapté de Bernhard et al., Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard, 2018, et https://www.linguist.univ-paris-diderot.fr/~amsili/Ens21/pdf/slides-l1hn001-03.pdf)

Concept générique

Concepts spécifiques

Exemple

  • Nous avons ainsi sélectionné un ensemble de 5 corpus relativement homogènes dans leur forme de sorte que nous puissions observer et comparer les variations de fréquences des tokens. (Brigitte Bigi & Christine Meunier, 2018)
  • Pour cette modalité d'évaluation, un token correspond à un caractère. (Lejeune, Brixtel & Lecluze, 2015)

Traductions

URI

http://data.loterre.fr/ark:/67375/8LP-TX1JH6ZL-6

Télécharger ce concept :

RDF/XML TURTLE JSON-LD Dernière modification le 14/06/2024