Autres billets
Tags
seo montre conf metrique tempusFugit client recsys spam Université vente airweb formation ref Porno ROI split test twitter algo captcha divers horloge Job math nul PPC produit projet psycho pub relation client reputation sem sensing
Blogroll
Mes lecteurs les plus fidèles savent déjà tout ou presque du pagerank (voir ici et ici). A quoi sert le PageRank ? A classer les pages d'une manière qui serait cohérente avec le comportement naturel d'un internaute moyen, qu'on appelle le surfeur aléatoire, que j'appelle l'internaute crétin : il parcourt le web en suivant les liens au hasard, sauf dans certains cas où il se téléporte sur une page choisie au hasard au sein de toutes les pages présentes sur le web.
Naturellement, on comprend que cette hypothèse de comportement totalement aléatoire n'a que peu de chance de correspondre au comportement réel de l'internaute. Il reste à comprendre quel peut être ce comportement réel, et à quel point il diffère du modèle proposé par le PageRank pour être capable de proposer un modèle plus réaliste, qui donnera au final un classement plus en adéquation avec la popularité réelle des sites.
Des travaux en ce sens ont été effectué par plusieurs personnes et sont résumés dans les articles suivants :
B. Goncalves, M. Meiss, J. Ramasco, A. Flammini, and F. Menczer. Remembering what we like: Toward an agent-based model of Web traffic. late-breaking result session at WSDM 2009.
M. Meiss, F. Menczer, S. Fortunato, A. Flammini, and A. Vespignani. Ranking Web sites with real user traffic. Proc. 1st Intl. Web Search and Data Mining Conference, 2008 (WSDM 2008 ).
Les travaux effectués sont habiles : ils ont construit un graphe du web avec des poids sur les arcs (les liens entre pages donc) qui correspondent à des données tirées des utilisateurs réels. Grâce aux données obtenues ils ont pu exhiber les caractéristiques fondamentales de ce que je vais appeler l'expérience utilisateur sur le web. L'idée de cette analyse était donc de pouvoir valider le modèle de navigation sous-jacent au PageRank, et on va voir qu'il n'est pas valide.
D'où viennent les données de l'étude ?
De manière très simple, elles viennent du graphe du web (un crawl comme celui de Yahoo ou Altavista fait l'affaire), de plusieurs sources dynamiques (toolbars, graphes de flot de données, logs des serveurs web) et aussi de l'analyse du trafic qui passe sur les gros switchs de plusieurs hubs du web.
Quelles sont les conclusions de l'étude ?


Après reflexion, la courbe sur les volumes de requetes est significative uniquement pour les proportions, les valeurs absolues varient avec un pic en mars probablement en raison du mécanisme de log des données mis en place.
Je suis sceptique concernant le modèle de l'internaute qui surfe en cliquant "au hasard". C'est quelque chose que je n'utilise qu'en cas de volonté forcenée de glandage.
Perso les deux manières de surfer que je reconnais en moi sont :
- la téléportation : je vais directement sur les sites que je connais (sans passer par les bookmarks) en tapant leur adresse dans la barre d'adresses. Ca doit représenter 80% de ma façon de surfer.
- les résultats des sites de recherche : quand on a besoin d'une réponse précise...
Comme tout le monde, je pense que la majorité fait comme moi.
Le classement le meilleur ne serait-il pas un classement "qualitatif" avec une note pour chaque lien pour voir si ce lien a apporté la réponse à une question précise?
Question 1 : c'est quoi PRW sur le graphe 2 ?
Q2 : Est-ce que le bookrank est scalable ?
Q1 : j'ai modifié mon texte, PR c'est le classique des classiques, PRW c'est le PR avec des poids sur les liens (selon le traffic, la position, le PR de la cible, etc...)
Q2 : c'est scalable comme le PR, ni plus ni moins, même si le modèle est différent la méthode de calcul est la même.