Mercredi 5 août 2009
3
05
/08
/2009
14:56
Chez OB, on aime bien aggréger des données. Un blog qui parle tout seul d'un sujet dans son coin est toujours beaucoup moins séduisant qu'un blog qui échange et fait partie d'une communautés de
blogs paralant de sujets connexes ou similaires. Pour ça, on retrouve le système de
tags, les
communautés OB avec leurs forums. Il y eut également les
thématiques portail dans la version précédente du portail, ou les
magazines et les
dossiers dans le portail actuel. Tous ces concepts permettent
de mettre en lumière un blog au sein de microcommunautés de la blogosphère.
Pour aller plus loin dans ce sens, nous menons actuellement des recherches afin d'être en mesure de pouvoir fournir, pour un article donné, une liste d'articles
connexes, se rapportant au
sujet traité.
Etant donné la quantité de données de texte, il est impossible de faire des recherches brutes dans le texte des articles de l'ensemble de la base de données. Alors comme souvent dans ce cas là, il
faut tenter d'être plus malin que la machine, il faut sortir le
PLAN B.
L'idée directrice de se plan B, c'est de considérer qu'un article est connexe à un autre si une recherche issue d'un moteur de recherche (google donc pour 95% des cas) a mené vers les deux
articles. Alors bien sur, c'est très limitatif, mais après tout c'est un plan B.
Ainsi, en traitant les logs de connexion aux blogs d'OB, on peut avoir chaque jour une liste des recherches ayant mené à un article d'OB. Si pour chaque article, on constitue un tableau des
mots-clefs qui y ont conduit les internautes, on a une espèce de signature de l'article. En faisant des recherches de similarité entre les tableaux de mots clefs on devrait pouvoir obtenir les
articles qui sont connexe.
Voici donc le plan B. Après avoir collecté les données pendant un peu plus d'un mois, il est donc temps de lancer quelques tests. Et quoi de mieux que le
Top des articles les plus vus sur la dernière semaine pour tester la méthode ? On est certains d'avoir des articles souvent visités, et
donc vraisemblablement recherchés. Allons-y !
Verdict : la méthode ne permet de découvrir des articles connexes que pour seuls 3 articles du Top 100 de la semaine. Pas vraiment glorieux, et bien en dessous du résultat
escompté... Par contre, pour les 3 articles ayant donné des résultats, ces derniers semblent tout à fait pertinents. Par exemple :
Les aventures d'Harry Potter (1110364822)
Conclusion : la méthode offre un taux de couverture trop réduit pour être réellement efficace. Et pour cause : en un mois, moins de 10% des articles d'overblog se sont vus attribué
un tableau de mots-clef. Du coup avant même de faire un test de similarité, on a 9 chances sur 10 de tomber sur un article qui ne donnera aucun résultat. A l'évidence, les moteurs de recherche ne
sont pas ce qui fait venir sur les blogs. Les internautes sont à mon avis plus guidés par les flux RSS des sites auxquels ils sont abonnés, et surtout maintenant, les réseaux sociaux, Facebook et
Twitter en tête.
Un
plan C s'impose donc !