Jeudi 6 août 2009
4
06
/08
/2009
10:49
Eh non, pas de plan C pour le moment. Pour ceux qui ont un peu suivi l'article précédent (
La similarité d'articles chez OB), la
méthode explorée dans le cadre de la recherche d'articles similaires à un article données était limitée en portée, car on ne disposait de données que pour à peine 10% des articles d'OB. Par contre,
les rares résultats étaient excellents pour les 3% d'articles concernés.
Du coup, plutôt que d'envisager un Plan C basé sur une méthode différente, la première idée était plutot d'enrichir la méthode actuelle. D'emblée, deux axes s'offrent à nous, l'un réalisable
immédiatement, l'autre nécessitant du temps pour collecter les données :
- La première méthode consiste à trouver des résultats par un autre moyen moins précis lorsque la recherche par similarité ne donne rien.
- La seconde consiste à enrichir la base de similarité en utilisant par exemple les résultats de chaque recherche effectuée sur le portail overblog, afin de créer des relations de similarités
entre tous les articles. Cette méthode a le mérite de renforcer la méthode actuelle avec des données sures. Par contre elle nécessite un déploiement important, aussi en parlerais-je plus en
détail si le déploiement en question voit le jour.
Mais revenons à la première méthode : le plus simple consiste à tenter de découvrir de nouveaux résultats lorsque la recherche par similarité n'a rien donné. Pour celà, utiliser la recherche
OB parait le plus rapide. Nous voici donc partis pour de premiers tests, toujours en nous basant sur le
Top des articles les plus
vus durant la semaine écoulée. On fait une recherche globale sur le titre de l'article étudié, en considérant que ce titre est représentatif de l'article.
Quel verdict ? On passe d'un taux d'articles couverts de 3% à 55%. Dans la plupart des cas, les résultats sont cohérents, comme par exemple :
[Photos] Cécile de Ménibus se met à nu pour "TV Magazine" (1038444021)
Par contre la méthode se trouve en difficulté dans deux cas :
- Lorsque le titre de l'article contient trop de mots, le moteur de recherche de postgresql (tsearch2) recherche tous les mots dans les articles d'OB et se retrouve bredouille. C'est des là que
viennent les 45% d'échec. par exemple, rechercher 'insolite Mordu par une araignée violoniste en France !' ne donne
aucun autre résultat que l'article lui même, ce qui reste assez logique.
- Lorsque les titres sont courts ou comporte uniquement des mots très communs, on a totues les chances d'avoir des résultats qui ne présentent pas la moindre similarité avec l'article étudié.
Dans l'exemple suivant, seuls 2 des articles sont pertinents, la présence des autres étant liée à la fréquence du terme 'index' et au sens multiples du mot 'anime' :
Index Animes (1043471690)
En conclusion, je ne suis pas sur qu'il s'agisse de la bonne piste, car contrairement à la recherche par similarité de mots clefs, les résultats sont plus aléatoires. Nous suivrons donc dans un
épisode futur l'enrichissement de la base de similarité et les moyen d'y parvenir.