Recherche

Calendrier

Février 2010
L M M J V S D
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
             
<< < > >>

Illustrations

  • Drow.jpg
  • Eleanore O'Ryan

Catégories

Présentation

Recommander

Mercredi 5 août 2009 3 05 /08 /2009 14:56
Chez OB, on aime bien aggréger des données. Un blog qui parle tout seul d'un sujet dans son coin est toujours beaucoup moins séduisant qu'un blog qui échange et fait partie d'une communautés de blogs paralant de sujets connexes ou similaires. Pour ça, on retrouve le système de tags, les communautés OB avec leurs forums. Il y eut également les thématiques portail dans la version précédente du portail, ou les magazines et les dossiers dans le portail actuel. Tous ces concepts permettent de mettre en lumière un blog au sein de microcommunautés de la blogosphère.

Pour aller plus loin dans ce sens, nous menons actuellement des recherches afin d'être en mesure de pouvoir fournir, pour un article donné, une liste d'articles connexes, se rapportant au sujet traité.

Etant donné la quantité de données de texte, il est impossible de faire des recherches brutes dans le texte des articles de l'ensemble de la base de données. Alors comme souvent dans ce cas là, il faut tenter d'être plus malin que la machine, il faut sortir le PLAN B.

L'idée directrice de se plan B, c'est de considérer qu'un article est connexe à un autre si une recherche issue d'un moteur de recherche (google donc pour 95% des cas) a mené vers les deux articles. Alors bien sur, c'est très limitatif, mais après tout c'est un plan B. 

Ainsi, en traitant les logs de connexion aux blogs d'OB, on peut avoir chaque jour une liste des recherches ayant mené à un article d'OB. Si pour chaque article, on constitue un tableau des mots-clefs qui y ont conduit les internautes, on a une espèce de signature de l'article. En faisant des recherches de similarité entre les tableaux de mots clefs on devrait pouvoir obtenir les articles qui sont connexe.

Voici donc le plan B. Après avoir collecté les données pendant un peu plus d'un mois, il est donc temps de lancer quelques tests. Et quoi de mieux que le Top des articles les plus vus sur la dernière semaine pour tester la méthode ? On est certains d'avoir des articles souvent visités, et donc vraisemblablement recherchés. Allons-y !

Verdict : la méthode ne permet de découvrir des articles connexes que pour seuls 3 articles du Top 100 de la semaine. Pas vraiment glorieux, et bien en dessous du résultat escompté... Par contre, pour les 3 articles ayant donné des résultats, ces derniers semblent tout à fait pertinents. Par exemple :

Les aventures d'Harry Potter (1110364822)

id Titre
6021435 Critique Ciné : HARRY POTTER ET LA COUPE DE FEU de Mike Newell
1107447859 Evanna et Matthew, ensemble en Europe pour la promo d'Harry Potter 6
1092460414 Harry Potter and the Half-Blood Prince
1078565561 THE LIVING AND THE DEAD
1110519734 Cinéma : HARRY POTTER + fichiers patchwork, et oui...
1101706949 Prison break: The Final Break , le film
1101137616 [MU] [DVDRiP] L'Oeil du mal
1108003697 "Harry Potter" a explosé le box-office français...et américain
172012 Le dernier Harry Potter !
1080489350 Actus Ciné du 29 Janvier 2009

Conclusion : la méthode offre un taux de couverture trop réduit pour être réellement efficace. Et pour cause : en un mois, moins de 10% des articles d'overblog se sont vus attribué un tableau de mots-clef. Du coup avant même de faire un test de similarité, on a 9 chances sur 10 de tomber sur un article qui ne donnera aucun résultat. A l'évidence, les moteurs de recherche ne sont pas ce qui fait venir sur les blogs. Les internautes sont à mon avis plus guidés par les flux RSS des sites auxquels ils sont abonnés, et surtout maintenant, les réseaux sociaux, Facebook et Twitter en tête.

Un plan C s'impose donc ! 
Par Torgan - Publié dans : Overblog
Ecrire un commentaire - Voir les 1 commentaires
Retour à l'accueil
 
Créer un blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus