Recherche

Calendrier

Février 2010
L M M J V S D
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
             
<< < > >>

Illustrations

  • Eleanore O'Ryan
  • Drow.jpg

Catégories

Présentation

Recommander

Jeudi 6 août 2009 4 06 /08 /2009 10:49
Eh non, pas de plan C pour le moment. Pour ceux qui ont un peu suivi l'article précédent (La similarité d'articles chez OB), la méthode explorée dans le cadre de la recherche d'articles similaires à un article données était limitée en portée, car on ne disposait de données que pour à peine 10% des articles d'OB. Par contre, les rares résultats étaient excellents pour les 3% d'articles concernés.

Du coup, plutôt que d'envisager un Plan C basé sur une méthode différente, la première idée était plutot d'enrichir la méthode actuelle. D'emblée, deux axes s'offrent à nous, l'un  réalisable immédiatement, l'autre nécessitant du temps pour collecter les données :

  • La première méthode consiste à trouver des résultats par un autre moyen moins précis lorsque la recherche par similarité ne donne rien.
  • La seconde consiste à enrichir la base de similarité en utilisant par exemple les résultats de chaque recherche effectuée sur le portail overblog, afin de créer des relations de similarités entre tous les articles. Cette méthode a le mérite de renforcer la méthode actuelle avec des données sures. Par contre elle nécessite un déploiement important, aussi en parlerais-je plus en détail si le déploiement en question voit le jour. 
Mais revenons à la première méthode : le plus simple consiste à tenter de découvrir de nouveaux résultats lorsque la recherche par similarité n'a rien donné. Pour celà, utiliser la recherche OB parait le plus rapide. Nous voici donc partis pour de premiers tests, toujours en nous basant sur le Top des articles les plus vus durant la semaine écoulée. On fait une recherche globale sur le titre de l'article étudié, en considérant que ce titre est représentatif de l'article.

Quel verdict ? On passe d'un taux d'articles couverts de 3% à 55%. Dans la plupart des cas, les résultats sont cohérents, comme par exemple :

[Photos] Cécile de Ménibus se met à nu pour "TV Magazine" (1038444021)

 
id Titre
1109386720 [Vidéo] Cauet retourne la Méthode (Jeudi 23 juillet 2009 à 23 heures 35)
1108169208 [Vidéo] Cauet retourne la Méthode (Jeudi 16 juillet 2009 à 23 heures 25)
1106352995 [Vidéo] "Cauet retourne la Méthode" : Interview de Cécile de Ménibus
1106350126 [Vidéo] "Cauet retourne la Méthode" : Interview de Sébastien Cauet et Cécile de Ménibus
1107289333 [Vidéo] Cauet retourne la Méthode (Jeudi 09 juillet 2009 à 23 heures 30)
1106468036 [Vidéo] "Cauet retourne la Méthode" : Interview de Sébastien Cauet
1106349031 [Vidéo] "Cauet retourne la Méthode" : Sylvester Stallone
1106348782 [Vidéo] "Cauet retourne la Méthode" : Céline Dion
1105844716 Cauet retourne la Méthode

Par contre la méthode se trouve en difficulté dans deux cas :
  • Lorsque le titre de l'article contient trop de mots, le moteur de recherche de postgresql (tsearch2) recherche tous les mots dans les articles d'OB et se retrouve bredouille. C'est des là que viennent les 45% d'échec. par exemple, rechercher 'insolite Mordu par une araignée violoniste en France !' ne donne aucun autre résultat que l'article lui même, ce qui reste assez logique.
  • Lorsque les titres sont courts ou comporte uniquement des mots très communs, on a totues les chances d'avoir des résultats qui ne présentent pas la moindre similarité avec l'article étudié. Dans l'exemple suivant, seuls 2 des articles sont pertinents, la présence des autres étant liée à la fréquence du terme 'index' et au sens multiples du mot 'anime' :

Index Animes (1043471690)


id Titre
1102535191 candidature fansub
1110037595 Sondage : l'avis du Dr. Albissaty Saleh Allazam (867 voix, 35%)
1110007614 L'ATTAQUE DU METRO 123 de Tony Scott (USA-2009): D'abord on prend la berline, après on prend Manhattan !
1109244728 Les patronages laïques toujours engagés
1105904929 Suisse (1999-...)
1108831521 Les journalistes, nouveaux acteurs des relations internationales
1090350310 Nouveautés sur bankai-anime

 

En conclusion, je ne suis pas sur qu'il s'agisse de la bonne piste, car contrairement à la recherche par similarité de mots clefs, les résultats sont plus aléatoires. Nous suivrons donc dans un épisode futur l'enrichissement de la base de similarité et les moyen d'y parvenir.

 

Par Torgan - Publié dans : Overblog
Ecrire un commentaire - Voir les 3 commentaires
Retour à l'accueil
 
Créer un blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus