Autres billets
Tags
seo montre conf metrique tempusFugit client recsys spam Université vente airweb formation ref Porno ROI split test twitter algo captcha divers horloge Job math nul PPC produit projet psycho pub relation client reputation sem sensing
Blogroll
Je vous ai déjà parlé de spotrank.fr, le site web collaboratif de type Digg-like qui a la particularité d'utiliser un algorithme antispam que nous avons mis au point. Quand je dis nous je parle de la petite équipe composée de Thomas Largillier, Guillaume Peyronnet et moi-même.
Les sites web sociaux fonctionnent en agrégeant du contenu fourni par les utilisateurs. Ce contenu est généralement filtré, que ce soit par une méthode de filtrage collaboratif (type recommandation par Netflix), ou par une méthode de filtrage social.
Digg est sans doute le meilleur exemple d'un tel site, mais la France n'est pas en reste avec les fameux Scoopeo, Fuzz, bluegger, digg-France, blogasty, Wikio et bien d'autres. Ces sites utilisent un filtrage social : plus une news reçoit de votes positifs des utilisateurs, plus elle apparait en première position sur ces mêmes sites.
Le problème est le manque de robustesse face aux manipulations. En effet, ils fournissent un tel trafic aux sites liés qu'il est intéressant d'y apparaitre d'un point de vue "business".Un utilisateur peut ainsi proposer un nombre abusif de news, peut voter un nombre abusif de fois, et surtout peut s'associer avec d'autres pour promouvoir honteusement ses news (et celles de ses petits camarades). Ce n'est pas à mes lecteurs que je vais l'apprendre, mais il y a des cabales (groupes de gens qui se soutiennent pour les votes), des bots, du spam etc.
Nous avons donc mis au point l'algo SpotRank, qui est basé sur quatre notions clés : la décorrélation entre un vote et sa valeur, l'analyse fréquentielle des votes, la pertinence des spots et utilisateurs et enfin la détection des cabales. Nous venons de finir la rédaction d'un article scientifique qui je l'espère sera publique le plus vite possible, mais en attendant je vous livre une courbe édifiante sur l'évaluation humaine que nous avons faite.
Voici ce qui était demandé :
L'évaluation est réalisé de la manière suivante : l'évaluateur reçoit l'URL d'un site qui propose 15 URLS différentes. Il est demandé à ce dernier de visiter (rapidement ou en détail, au choix) chaque URL et de choisir une réponse parmi les quatre suivantes pour chaque URL :
- OUI : la page correspondant à l'URL mérite d'être classé comme une page de qualité sur un site communautaire
- NON : la page correspondant à l'URL mérite d'être classé comme une page de faible qualité : ou bien le contenu est inintéressant, ou bien la page semble devoir bénéficier d'une manipulation des votes pour être bien classé (la page est intéressante mais dans un domaine trop peu populaire)
- JNSP : réponse dans le cas où l'évaluateur ne sait pas répondre
- ERROR : la page n'est pas accessible au moment de l'évaluation
Durant la durée de l'évaluation (20 à 40 min maximum), il est demandé à l'évaluateur de ne pas chercher à savoir quel site communautaire a classé (ou non) chaque URL.
En fait sur les 15 URLs proposées, 5 étaient celles du top 5 de SpotRank, les 10 autres venaient de deux autres digg-like francophones que nous appellerons comp1 et comp2 (compétiteur 1 et 2). Comp1 et comp2 sont deux acteurs majeurs des digg-like français, que nous ne nommerons pas pour d'évidentes raisons.
Les résultats obtenus sont les suivants (ce sont des résultats partiels) :

La méthode de filtrage de SpotRank semble donc porter ces fruits...
Ah ! C'était donc ça le petit sondage 
L'intiulé des questions ne faisait pas du tout penser à une mesure de performance de digg...
ce commentaire n'a rien à voir avec mais bon, il semble que ce soit la seule façon de te joindre ... tu lis tes mails aussi parfois ?
En effet, la démonstration est magistrale, même si j'aurais aimé voir un plus gros volumes de données analysée 
Petit détail que je note en passant... les boutons de partage en bas de tes billets sont les bienvenus, mais pourquoi pas de bouton SpotRank ?! 
On log beaucoup en ce moment, donc (a priori vers novembre), on aura beaucoup plus de données 
Sinon, il faut effectivement qu'on mette le bouton spotrank, pas encore eu le temps (alors que je l'ai mis sur mon blog en anglais http://www.spoonylife.org grâce au plugin sociable).
J'imagine aisément que ça récolte le data à gogo chez vous 
Je vais tenter de hacker mon plugin Sexy Bookmarks pour ajouter Spotrank...
Encore moi...
ça barde sur Scoopeo 
http://www.scoopeo.com/scoopeo/lettre-ouverte-de-ladmin-de-scoopeo
Bravo pour Spotrank, j'avais senti un gros potentiel derrière ce site depuis le début.
Bonne continuation !
Dan de Coup de Buzz