Passer au contenu principal

Vocabulaire du traitement automatique des langues

Choisissez le vocabulaire dans lequel chercher

Concept information

Terme préférentiel

sac-de-mots  

Concept générique

Contexte(s) définitoire(s)

  • Deux approches sont en fait proposées : l'une, dite en sac-de-mots continus (continuous bag-of-words ou CBOW cherche à maximiser la probabilité d'un mot en fonction de son contexte, alors que l'autre (skip-gram) cherche, au contraire, à prédire le contexte sachant le mot. (Besançon, 2015)

Exemple

  • Cependant, ces modèles, au travers du réseau de neurones, s'appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l'ordre des mots. (Janod, Morchid, Dufour & Linares, 2015)
  • La limite de ces approches Word2vec et Glove est que le la position des mots dans une séquence n'est pas prise en compte : l'ensemble de la séquence de mots est considérée comme un " sac-de-mots ", l'ordre des mots étant ignoré. (Janod, Morchid, Dufour & Linares, 2015)
  • Les champs textuels sont ensuite " stemmés ", filtrés par l'utilisation d'une stoplist pour produire pour chaque document collecté un modèle de type sac-de-mots exploitant l'heuristique tf-idf (Spärck Jones, 1972) (bien entendu d'autres heuristiques de pondérations des mots réputées plus robustes sont possibles, par exemple l'heuristique BM25 (Robertson et Spärck Jones, 1976. (Marteau & Ménier, 2013)
  • Les systèmes de fouille d'opinion et plus particulièrement de classement en polarité, basés sur les approches traditionnelles, c'est-à-dire les approches à base d'apprentissage automatique supervisé utilisant les simples modèles à sac-de-mots (Pak, 2012 ont tendance à s'appuyer sur les traits spécifiques des entités et, par voie de conséquences, ils sont biaisés en faveur des opinions majoritaires présents dans les données d'apprentissage. (Fraisse, Paroubek & Francopoulo, 2013)
  • On constate que la combinaison de l'approche " sac-de-mots " avec les sorties de l'analyseur syntaxique permet une amélioration notable des performances pour la détection des catégories. (Brun, Popa & Roux, 2015)

Traductions

URI

http://data.loterre.fr/ark:/67375/8LP-GWQNZQ2T-H

Télécharger ce concept :

RDF/XML TURTLE JSON-LD Dernière modification le 21/05/2024