Skip to main content

Vocabulaire du traitement automatique des langues (POC)

Search from vocabulary

Concept information

Preferred term

token  

Definition

  • Élément de base de l'annotation textuelle qui ne peut être découpé en unités plus petites, et peut ainsi être constitué de plusieurs mots graphiques, comme c’est le cas par exemple des expressions idiomatiques, des mots composés ou de certains nombres. (Adapté de Bernhard et al., Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard, 2018, et https://www.linguist.univ-paris-diderot.fr/~amsili/Ens21/pdf/slides-l1hn001-03.pdf)

Broader concept

Narrower concepts

In other languages

URI

http://data.loterre.fr/ark:/67375/8LP-TX1JH6ZL-6

Download this concept:

RDF/XML TURTLE JSON-LD Last modified 6/14/24