Passer au contenu principal

Vocabulaire du traitement automatique des langues

Choisissez le vocabulaire dans lequel chercher

Concept information

linguistique computationnelle > syntaxe > annotation > annotation de corpus

Terme préférentiel

annotation de corpus  

Définition

  • Pratique automatique ou manuelle qui consiste à expliciter des informations linguistiques jusqu’alors implicites dans un corpus en y ajoutant des données métalinguistiques. (Adapté de Salmon-Alt et al., « Un modèle générique d’organisation de corpus en ligne : application à la FReeBank TAL », T.A.L, 2004)

Concept générique

Exemple

  • Afin de pouvoir effectuer un relevé précis et exhaustif de toutes ces formes il est nécessaire de s'appuyer sur l'annotation PoS du corpus pour extraire les this et that selon les différentes catégories grammaticales auxquelles ils appartiennent. (Gaillat, 2013)
  • Cela conduit par exemple à des recommandations comme celles de la Text Encoding Initiative 6 pour les annotations des corpus oraux. (Beller, Veaux, Degottex, Obin, Lanchantin & Rodet, 2008)
  • L'annotation d'un corpus est une tâche difficile et laborieuse notamment sur des textes de spécialité comme les textes biomédicaux. (Randriatsitohaina & Hamon, 2020)
  • TRANSCRIBER logiciel avec une interface et des fonctionnalités simplifiées est optimisé pour la transcription et l'annotation de gros corpus mais ne propose que quatre niveaux d'annotation (texte locuteurs thème bruits de fond éventuels) et aucune possibilité analytique. (Bazillon, Jousse, Béchet, Estève, Linarès & Luzzati, 2008)

Traductions

URI

http://data.loterre.fr/ark:/67375/8LP-B1D461S5-8

Télécharger ce concept :

RDF/XML TURTLE JSON-LD Dernière modification le 02/05/2024