Autres billets
Tags
seo montre conf metrique tempusFugit client recsys spam Université vente airweb formation ref Porno ROI split test twitter algo captcha divers horloge Job math nul PPC produit projet psycho pub relation client reputation sem sensing
Blogroll
http://www.spoonylife.org/level-2/analyse-anti-spam-%C2%AB-in-text-%C2%BB
RéactionsLe critère sur la longueur des mots paraît assez ardu à appliquer, vu que la longueur moyenne des mots dépend essentiellement de la langue : les Allemands sont adeptes des mots à rallonge, les Anglais des mots courts, nous autres Français utilisons des tonnes d'articles et de pronoms, et je ne parle pas des langues qui n'utilisent pas l'alphabet latin.
Du coup, si on peut adapter sur les sites en .fr ou équivalents des diverses nationalités, ces sites étant probablement rédigés dans la langue de leur pays (une langue différente de la nationalité d'affiliation ne peut-elle d'ailleurspas constituer un critère ?, je suppose qu'il en va tout autrement sur les sites en .com, .biz et consorts.
Bien evidemment, il faut avoir determiné la langue du texte au préalable (ce n'est pas une tache très difficile a priori).
Encore un article très intéressant. Par contre, sur la longueur moyenne des mots, une page comme Krinein (ou Wikipedia) et une page comme un Skyblog auront forcément des longueurs moyennes de mots différents. Pourtant ni l'un, ni l'autre en sont des spams dont cette méthode a des limites (forcément me direz-vous). Enfin bon si on classe les Skyblogs comme du spam , personne ne s'en plaindra :p
Le kikoo-lol-mdr pose déjà des problèmes quant à l'identification du langage...
Par contre, qu'on laisse les skyblogs tranquilles sinon les kikoo-lolleurs vont envahir les kriblogs et on l'aura dans l'os... Pour un aperçu du massacre, voir les nombreux posts sur yu-gi-oh dans la section jeux vidéo.