Autres billets
Tags
seo montre conf tempusFugit client metrique recsys spam Université vente airweb formation ref Porno ROI split test algo captcha divers horloge Job math nul PPC produit projet psycho pub relation client reputation sem sensing twitter
Blogroll
http://www.spoonylife.org/level-2/spam-spam-spam-spam-spam-spam
RéactionsEt le content spining dans tous ça {mot1|mot2|mot3} quel est la réelle puissance de cette méthode ??
Merci
Bonjour,
Je trouve que votre démarche de vulgarisation est louable et pas mal réussie dans l'ensemble, mais sur cette page en particulier on trouve beaucoup d'approximations !
Notamment :
- Le TF.IDF n'est pas en soi une mesure de similarité. Il permet de fabriquer des vecteurs qui, eux, permettent typiquement de mesurer la similarité (vous l'expliquez d'ailleurs assez bien sur une autre page). Quant à la formule, eh bien autant ne pas en donner du tout si je peux me permettre ;-) Ce coefficient prend en arguments un terme et un document, et non pas deux "pages" ni même documents.
- Les notions de domaine, de syntaxe et de sémantique sont ici utilisées à tort et à travers : "mêmes domaines (au sens syntaxico-sémantique)". Là encore, autant éviter les gros mots plutôt que d'introduire des erreurs.
Bien cordialement
Je me permets de ne pas être d'accord:
1. TFIDF fournit un scalaire, donc c'est bien d'une mesure qu'il s'agit, après dire que c'est une mesure de similarité c'est sans doute aller trop loin vu que je (nous ?) suis (sommes) bien incapable de donner une définition de ce concept.
2. attention, je ne fais pas de la linguistique, donc pour moi "mêmes domaines (au sens syntaxico-sémantique)" cela veut dire "grosso modo on estime alors que ça parle a peu près de la même chose". Je suis logicien, je sais faire la différence entre syntaxe et sémantique, vous êtes linguiste donc vous aussi, mais pourtant nos syntaxes et nos sémantiques n'ont pas la même signification (en tout cas j'imagine que c'est le cas).