: Vocabulaire du TAL: sac-de-mots

méthodes et outils de TAL > modèle > modèle statistique > modèle de classification > sac-de-mots

méthodes et outils de TAL > statistiques > modèle statistique > modèle de classification > sac-de-mots

Terme préférentiel

sac-de-mots

modèle de classification

Contexte(s) définitoire(s)

Deux approches sont en fait proposées : l'une, dite en sac-de-mots continus (continuous bag-of-words ou CBOW cherche à maximiser la probabilité d'un mot en fonction de son contexte, alors que l'autre (skip-gram) cherche, au contraire, à prédire le contexte sachant le mot. (Besançon, 2015)

Exemple

Cependant, ces modèles, au travers du réseau de neurones, s'appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l'ordre des mots. (Janod, Morchid, Dufour & Linares, 2015)
La limite de ces approches Word2vec et Glove est que le la position des mots dans une séquence n'est pas prise en compte : l'ensemble de la séquence de mots est considérée comme un " sac-de-mots ", l'ordre des mots étant ignoré. (Janod, Morchid, Dufour & Linares, 2015)
Les champs textuels sont ensuite " stemmés ", filtrés par l'utilisation d'une stoplist pour produire pour chaque document collecté un modèle de type sac-de-mots exploitant l'heuristique tf-idf (Spärck Jones, 1972) (bien entendu d'autres heuristiques de pondérations des mots réputées plus robustes sont possibles, par exemple l'heuristique BM25 (Robertson et Spärck Jones, 1976. (Marteau & Ménier, 2013)
Les systèmes de fouille d'opinion et plus particulièrement de classement en polarité, basés sur les approches traditionnelles, c'est-à-dire les approches à base d'apprentissage automatique supervisé utilisant les simples modèles à sac-de-mots (Pak, 2012 ont tendance à s'appuyer sur les traits spécifiques des entités et, par voie de conséquences, ils sont biaisés en faveur des opinions majoritaires présents dans les données d'apprentissage. (Fraisse, Paroubek & Francopoulo, 2013)
On constate que la combinaison de l'approche " sac-de-mots " avec les sorties de l'analyseur syntaxique permet une amélioration notable des performances pour la détection des catégories. (Brun, Popa & Roux, 2015)

bag-of-word

anglais

URI

http://data.loterre.fr/ark:/67375/8LP-GWQNZQ2T-H

Télécharger ce concept :

RDF/XML TURTLE JSON-LD Dernière modification le 21/05/2024

Loterre

Vocabulaire du traitement automatique des langues

Terme préférentiel

Concept générique

Contexte(s) définitoire(s)

Exemple

Traductions

URI

Télécharger ce concept :

{{label}}

Loterre

Vocabulaire du traitement automatique des langues

Choisissez le vocabulaire dans lequel chercher

Sidebar listing: list and traverse vocabulary contents by a criterion

Lister les concepts du vocabulaire par ordre alphabétique

Lister les concepts du vocabulaire par ordre hiérarchique

Liste des concepts du vocabulaire par ordre alphabétique

Concept information

Terme préférentiel

Concept générique

Contexte(s) définitoire(s)

Exemple

Traductions

URI

Télécharger ce concept :

{{label}}