Magazine Ebusiness

La combinaison affine l'exclusion des mots non porteurs de sens

Publié le 11 juin 2012 par Pnordey @latelier
text mining

Pour trier l'information sur les réseaux sociaux, un moyen est d'exclure de facto les mots dits vides. Un moyen d'améliorer leur repérage est de mélanger critères d'exclusion, fréquence et combinaisons de mots.

Pour trier l'information de manière générale et en particulier sur les réseaux sociaux tels que Twitter, marketeurs et chercheurs ont besoin d'outils performants d'indexation et de filtrage des commentaires. Et pour extraire la connaissance de cette quantité énorme de données, les chercheurs s'accordent à dire qu'il est nécessaire d'appliquer des critères d'exclusion afin d'éliminer les mots dits "vides", c'est-à-dire non-porteurs de sens. Or, les algorithmes permettant donc de trier les mots vides des mots porteurs de sens actuellement proposés par ces chercheurs possèdent des failles. C'est ce que révèle en effet Murphy Choy, spécialiste de l'analyse des données à l'Université de Management de Singapour, dans une étude où celui-ci propose un algorithme s'appuyant sur la combinaison de mots.

Des algorithmes d'exclusion peu fiables

Car pour exclure les mots vides, les chercheurs proposent généralement des algorithmes se basant sur la fréquence d'emploi d'un terme. En d'autres termes, plus le mot revient souvent dans un corpus de textes, moins celui-ci est porteur de sens, ce qui lui vaut d'être ajouté sur des listes de mots vides. Or, il existe une probabilité que des mots porteurs de sens soient ajoutés à ces listes. De plus, par manque de temps et d'argent, les marketeurs sont nombreux à seulement récupérer ces listes qui ne s'appliquent pas obligatoirement à tous les types de texte. Récemment, d'autres chercheurs ont tenté de lier à la fréquence l'idée d'une proximité avec des mots clés. De nouveau, l'étude de Murphy Choy critique cet algorithme, expliquant que dans un texte les mots clés ne sont pas toujours définis ou faciles à trouver et peuvent être différents dans le cas d'un large corpus. Et cette constatation vaut d'autant plus pour Twitter.

Un algorithme combinant les travaux précédents

Ce que propose donc Murphy Choi est non pas de mettre de côté les théories précédentes, mais plutôt de les combiner. Ainsi, à la fois la fréquence et l'emplacement des termes auraient de l'importance. Il a en effet mis au point un algorithme permettant d'identifier des combinaisons de mots uniques. Cela ne veut pas dire obligatoirement que les combinaisons ne reviennent qu'une fois dans l'ensemble des documents mais que si celles-ci se répètent elles seront toujours formées à l'identique. Par exemple, l'étude parle d'algèbre et explique que chacun des termes composant l'expression "modèles linéaires" reviendront plusieurs fois mais toujours ensemble, à la différence d'expression tel que "dans ce" ou "c'est ce". L'approche se veut tout de même inverse de ces prédécesseurs dans le sens où l'on détermine d'abord les mots porteurs de sens pour exclure ensuite les mots vides plutôt que d'exclure les mots vides pour trouver les mots porteurs de sens.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Pnordey 18702 partages Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte

Dossiers Paperblog