"Les moteurs de recherche ne peuvent pas être exhaustifs, ils doivent être représentatifs"

A quelles conclusions vous ont conduit les recherches menées avec IBM et Compaq sur la topographie du Web mondial ? En analysant quelques 200 millions de pages Web, nous avons constaté que le Web est organisé en quatre grandes zones que l'on peut représenter comme un nœud papillon. Au centre, le nœud lui-même est un noyau " hyper connecté " qui réunit un peu plus de 25% des pages Web. A gauche de ce nœud se trouvent les pages " de création ", un ensemble regroupant un peu moins d'un quart du Web et formé de pages qui permettent l'accès au nœud mais auxquelles, en revanche, aucun lien hypertexte ne permet d'accéder. C'est typiquement le cas pour les nouveaux sites, pas encore référencés, et pour un grand nombre de pages personnelles. A droite du nœud, on trouve à l'inverse des pages " de destination ", accessibles depuis le noyau mais qui ne permettent pas d'y revenir. Cette partie contient notamment de nombreux sites d'entreprises, construits sur une structure fermée et ne contenant pas de liens vers d'autres sites. Cette zone regroupe environ 20% du Web. Enfin, la quatrième zone réunit des pages Web " déconnectées ", qui ne donnent pas accès au noyau.Quels enseignements tirez-vous de ces résultats et quelles conséquences ont-ils pour Altavista ? Le principal enseignement, c'est que les points d'entrée sur le Web sont beaucoup plus nombreux et beaucoup plus importants que nous ne le pensions jusqu'à présent. Nous savons, désormais, que l'idée selon laquelle on peut parcourir l'ensemble du Web à partir de n'importe quelle page est fausse : pour accéder à certaines pages, il faut avoir le bon point d'entrée. Au-delà, nous avons pu améliorer nos stratégies de navigation, en utilisant notamment nos filiales locales, qui nous fournissent des points d'entrées multiples sur le Web. Mais nous savons aussi que, malgré la multiplication des points d'entrée, nous ne pouvons pas être exhaustifs. La croissance du Web se poursuit à un rythme très rapide : nous estimons que le nombre global de pages double tous les ans. Et dans certaines zones, à commencer par l'Europe, la croissance est encore plus rapide : le volume de pages double tous les neuf mois environ. Heureusement, nos capacités de navigation et d'indexation croissent encore plus vite : nous disposons aujourd'hui d'une bande passante supérieure à la totalité de la bande passante disponible en Espagne ! Cela nous permet d'indexer 20 à 30 millions de pages par jour, soit une masse d'informations que nous mettions plusieurs mois à traiter il y a quelques années. De quoi répondre à 1 000 recherches par seconde. Comment évoluent actuellement les services offerts par Altavista, notamment par rapport aux moteurs de recherche concurrents ?A nos yeux, la concurrence entre les moteurs de recherche se joue de plus en plus sur la qualité des indexations, et surtout sur leur représentativité. Il ne s'agit pas forcément d'indexer le Web en " profondeur " mais surtout en " largeur ", de manière à fournir aux internautes un nombre maximal de points d'entrée, à partir desquels ils peuvent affiner leurs recherches. Aujourd'hui, sur la plupart des sites sur lequel vous naviguez, vous vous attendez à trouver une boîte de recherche, qui facilite l'exploration du site. D'ailleurs, nous vendons de plus en plus de licences de notre moteur de recherche, par exemple à de grands sites de commerce électronique comme Amazon ou Buy.com : nous avons aujourd'hui environ 900 clients. Parallèlement, nous développons ou nous affinons les services complémentaires offerts sur nos sites. Altavista.com offre ainsi une fonction de filtrage, qui permet par exemple aux parents d'exclure des recherches les sites pornographiques. Cela nous oblige à travailler par mots-clés mais aussi en fonction du contexte. Nous pouvons par ailleurs fournir à nos utilisateurs des informations sur l'origine des pages que nous indexons : où est hébergé le site, à qui appartient le nom de domaine, etc. Ces informations peuvent être très importantes : elles permettent, par exemple, d'informer l'internaute que tel site sur les allergies appartient en fait à tel laboratoire pharmaceutique.

Sujets les + lus

|

Sujets les + commentés

Commentaire 0

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

Il n'y a actuellement aucun commentaire concernant cet article.
Soyez le premier à donner votre avis !

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.