Création : | M.-à-j. : 2008-11-01 21:18:40

Auteur : | Licence : CC BY-SA

Les filtres utilisés pour le classement des mots-clés

Parallèlement à l'évaluation des mots-clés selon la balise qui les contient, Alyze applique plusieurs filtres afin d'obtenir des résultats cohérents. En voici un bref aperçu.

Filtre "stopwords"

Ou filtre "mots noirs", il est indispensable à tous les outils de classement de mots-clés. Il découle d'un constat : dans chaque langue, il existe des mots qui reviennent très souvent, ces mots n'ont pas de valeur descriptive pour la page, ils ne sont que des structures du langage. En français, on peut citer : et, le, la, les, si, autre, etc.

Pour le classement des mots-clés, Alyze pondère très négativement les stopwords. De plus, les expressions de deux ou trois mots-clés commençant par l'un de ces termes ne sont pas détectées. Les expressions se terminant par l'un de ces termes sont détectées, mais leur poids relatif est amoindri.

Filtre "mots courts"

Ce filtre vise à sanctionner raisonnablement les mots court ou très court (un ou deux caractères). Il découle du constat que ces mots sont en général moins significatifs que les autres.

Filtre "chiffres"

Sur une page Web, des nombres et des chiffres sont souvent présents. Or, souvent, ces chiffres ne présentent pas un grand intérêt : il s'agit de la date, du numéro de la page, etc. Alyze sanctionne ces termes de façon sévère, mais assez raisonnable pour leur permettre de remonter dans le classement s'ils sont par ailleurs bien notés.