Vieux souvenirs de 1998 - allez voir directement Google

CHERCHER L'INFORMATION SUR LE WEB

Voi che entrate, parlate Inglese    




 

CATEGORIES D'OUTILS DE RECHERCHE

 

Les différents outils

On appelle souvent moteurs de recherche l'ensemble des outils de recherche. Il conviendrait de distinguer :

- les moteurs de recherche proprement dits, tels qu'AltaVista, qui scrutent le web et indexent les pages rencontrées. Ils permettent un sondage en profondeur. Certains sont généralistes (AltaVista, Hot-bot, Lycos..), d'autres s'attachent à une zone géographique, une langue, ou un domaine déterminé (par exemple le domaine juridique ou médical).

- les listes de répertoires ou index (exemple: Yahoo!) qui rangent les sites trouvés dans des catégories. Ils attachent à chaque site des mots clefs descriptifs permettant une sélection puissante par les utilisateurs.

- les annuaires à classement thématique et alphabétique.

S'y ajoutent désormais les méta-moteurs. Ils n'indexent pas le web mais redirigent sur plusieurs moteurs la requête qui leur est soumise. Ce principe de fonctionnement permet d'installer en local le méta-moteur (qui est vendu comme une application). Certains sont consultables sur le site dédié.

 
 

PREMIERS PAS AVEC LES PLUS CONNUS

 

Sert à trouver des sites :
- par consultation de listes thématiques de sites (avec appréciation partielle du contenu)
- ou par mots clefs libres, que Yahoo rattache à un classement thématique fin

Yahoo fait moins rêver qu'AltaVista mais c'est un outil puissant, constituant un meilleur point de départ pour une recherche large.


Sert à trouver des pages. Basé sur le stockage des occurrences de l'ensemble des mots rencontrés sur les pages web. Lors d'une interrogation, le moteur regarde si les mots demandés figurent ou non dans les index préalablement construits par exploration du web, mis à jour par son exploration tournante . La base est très complète. Le principe de repérage est un peu basique, mais l' amélioration continue des algorithmes de sélection des textes pertinents permet de bons résultats.

Exemples de formes d'interrogation:

­ à l'interrogation dieu et mon droit : Cherche les textes où au moins certains de ces 4 mots apparaissent, avec un calcul de pertinence propre au moteur ......... 1688140 documents trouvés

­ à l'interrogation dieu + droit : Cherche seulement les textes où " droit " apparaît, avec une préférence pour ceux où " dieu " apparaît également ........... 5910 documents trouvés

­ à l'interrogation + dieu + droit : Cherche ceux des textes où " droit " et " dieu " apparaissent tous les deux .......... 2500 documents trouvés

­ à l'interrogation "dieu et mon droit" : Cherche seulement les textes où ces mots sont adjacents ......... 28 documents trouvés (nombre de documents en juin 1997)

Nota : les réponses sont un peu plus pertinentes en juillet 1998 - les textes comportant la devise (au nombre de 127) sont bien identifiés à la dernière étape mais quelques uns apparaissent dans les dix meilleures réponses aux questions intermédiaires.

AltaVista a d'autres formes d'interrogation plus techniques :
- la fonction host permet de trouver les sites dont on a une idée du nom : Exemple : host:coca-cola
- la fonction anchor est utile pour diagnostiquer les sites qui vous référencent.
Il en existe d'autres, dont la recherche dans une langue désignée. L'option "refine" permet plus de sélectivité.


  haut de la page
 
 

PANORAMA DES OUTILS DE RECHERCHE

 
  • Les moteurs généralistes

les Big Five

Tout bouge très vite sur le web et les places au top sont âprement disputées (si vous les avez conservées, regardez les versions précédentes de ce classement des cinq premiers). Dans l'ordre de la taille des bases :

AltaVista (pour mémoire, le roi lion) ....... Northern Light sa base rivalise désormais avec celle d'AltaVista ..... Hotbot ...... Fast Search & Transfer ...... Infoseek

Les chiffres estimés en mars 1999 (taille des bases en millions d'URL) : Northern Light 140 ... AltaVista 130 ... HotBot 95 ... Fast Search 94 ... Snap 87 ... Google! 70 ... Infoseek 59 ... Yahoo!'s Inktomi 56 ... Lycos 38 ... Excite 30. Fast Search, nouveau qui a grandi très vite, est norvégien en partenariat avec Dell; en version beta, il vise 220 millions d'URL avant fin 99.
Toutefois le nombre d'URL non à jour est estimé à 22 % pour Northern Light et 2 % pour AltaVista, remettant ce dernier en tête pour les pages actives.

La taille des bases ne fait pas tout. Voir ci-dessous l'essai de quelques moteurs.


les petits futés

PlanetSearch ............ Goto (en baisse ces derniers temps) ......... Google de l'université de Stanford, qui met en œuvre une méthode d'analyse du contenu sémantique des liens détectés sur une page pour qualifier la pertinence des réponses. En version beta, mais la puissance d'analyse a l'air stupéfiante (sur une base malheureusement faible et très nord-américaine).


un has been

Lycos mâtinage d'AltaVista et de Yahoo car il offre les deux recherches. La base, réputée la plus complète en 1995, est actuellement en perte de vitesse, loin derrière les cinq grands.


un transfuge

Excite, qui a renoncé à la course à la taille de la base et s'investit dans une para-analyse linguistique permettant de doper la pertinence des réponses. Cette analyse a pour but de déceler des sujets tels que "où acheter des pizzas à Torrence Drive ?". Mettant en regard les réponses selon le principe d'un index à la Yahoo! , le gestionnaire peut valoriser l'outil auprès des fournisseurs. Était-ce une manœuvre du désespoir avant le récent rachat par Netscape ?

 
  • Moteurs spécialisés dans un domaine
Lawcrawler.. Informations juridiques. S'intéressait surtout au droit nord-américain. De plus en plus d'extensions au reste du monde.
Catalaw.. Informations juridiques également.
Inomics.. Informations économiques.
FastSearch .. subdivisé en quatre domaines : informations juridiques, médicales, sportives, financières (sans lien apparent avec Fast Search & Transfer)

Il en existe dans d'autres domaines, en particulier médical. Malheureusement je n'en ai pas repéré dans les domaines techniques. Northern Light, sans être spécialisé, est particulièrement efficace sur les sujets techniques et il faut absolument l'intégrer dans son dispositif de recherche.

Voir aussi les catalogues de bases de données par thèmes

 
  • Moteurs à aire géographique

Euroferret .. indexe 30 millions de pages en Europe et affirme y dépasser AltaVista (28 millions), HotBot et InfoSeek (15 millions). Mon essai de ce site montre que la base a des lacunes: essai totalement infructueux sur la question longue. Euroferret a de bonnes options, l'une d'elles permet de spécifier le pays de recherche et pas seulement la langue, ce qui peut être utile.

Swiss Search..lourdement inefficace, prouve lui aussi qu'il ne suffit pas de collecter toutes les pages sur un sujet défini pour être pertinent.

Vous trouverez facilement les moteurs spécialisés par pays dans les catalogues suivants :
MetaIndex Europe ..... eDirectory (monde entier) ......... spécialisés par pays.

 
  • Outils en français :

Yahoo France ..... Ecila .... Echo .... Indexa... Lycos ... (moteurs)
Nomade ..... Général Moteurs ... (catalogues de sites)
Nota: AltaVista en français a été supprimé

Malgré l'avertissement pessimiste en bandeau, "vous qui entrez ici, parlez anglais" l'information en français se développe de plus en plus sur le web. On espérerait pouvoir compter sur les moteurs français. Les résultats de mon essai de quelques moteurs montre une large avance des grands moteurs US.

  • Liens vers des outils de recherche

Cyberhouse .... ADIT ......... Moteurs les plus connus et mention particulière de moteurs français.

Université du Havre ......... Moteurs les plus connus, moteurs francophones et méta-moteurs


  haut de la page
 
 

LES META-MOTEURS

 

Dogpile ... bien coté par les gourous. Présentation extensive des résultats, groupés par moteur appelé; ils sont complets mais dilués.

Debriefing ... Un méta-moteur francophone relayant aussi vers les moteurs français ! Choisit les réponses les plus pertinentes et va droit au but. Excellent.

Metafind ... Comme Dogpile (c'est la même société..); un peu confus, bien qu'avec de bonnes réponses. Options intéressantes. Un des plus conseillés.

Metacrawler a été absorbé par Go2Net. Charger la page Metacrawler et cocher les moteurs souhaités pour bénéficier effectivement de la fonction méta-moteur. Outre le volume de publicité à ingurgiter avant de voir les réponses s'afficher, je ne retrouve plus la puissance du produit, que je trouvais excellent. C'était un des méta-moteurs les plus conseillés, choisissant un nombre limité de réponses pertinentes mais visant juste. La nouvelle organisation ressemble à un dépeçage. Son vrai successeur est Huskysearch, par les concepteurs de Metacrawler.

Ces outils ne tirent pas encore le meilleur parti moteurs qu'ils interrogent, la transposition des interrogations est imparfaite. Mais ils sont une novation majeure de la recherche d'information sur le web, ce qui m'a conduit à les inclure dans la méthode de recherche.
Leur marge de progrès est importante. Leurs perfectionnements futurs accéléreront par ricochet l'évolution des moteurs conventionnels; ces derniers deviendront moins visibles, tout en restant indispensables.


  haut de la page
 
 

LES ANNUAIRES

 
  • Annuaires de sites

vtourist.com/webmap ...... monde entier.

Eblast ...... liste de sites de l'Encyclopedia Britannica.

Register.com ...... permet de vérifier la disponibilité d'un nom de domaine et, indirectement, de trouver ceux dont on ne connaît qu'une bribe.

dont annuaires français spécialisés dans un domaine :

annuaire de l'UREC ...... universités et recherche. Au démarrage du Web, l'UREC, unité du CNRS, a tenu un annuaire de l'ensemble des sites français. Elle l'a supprimé et se limite au monde universitaire.

Admifrance ...... administrations publiques.


  • Annuaires de boîtes aux lettres e.mail

Whowhere ..... Bigfoot ...... monde entier

Whowhere France ....... France seulement

Wanadoo .......Abonnés Wanadoo (et au gaz ?)

Pages Zoom .......Annuaire de France Télécom, avec quelques rares e.mail

Peu opératoires. Dans les annuaires du monde entier, beaucoup d'adresses e.mail, mais pas celle que vous cherchez. S'inscrire à une de ces listes est un des moyens d'enrichir votre boîte aux lettres électronique de messages publicitaires.


  • Annuaires de listes de diffusion et de forums

Liszt ......Listes du monde entier. Possibilité de télécharger la liste : envoyer un e.mail contenant seulement " send interest-groups.txt " (sans guillemets) à : mail-server@sri.com (attention, gros fichier en retour)

Tile (forums du monde entier) ...... FranceNet (forums français).


  • Annuaire de logiciels

Archieplex


  • Catalogues permettant de trouver des bases de données spécifiques

Internet Sleuth ... Beaucoup ......... catalogues de bases de données interrogeables en ligne spécialisées sur un thème.
Ces bases spécialisées dans un domaine sont très inégales, mais certaines sont exceptionnelles.


  • Sites de traduction

LOGOS

Certains moteurs incorporent un outil de traduction des pages explorées. Il est d'usage de tourner en ridicule les contre-performances des traducteurs automatiques (voir un exemple de charabia de Babelfish); je les trouve utiles.

Celui d'AltaVista se lance depuis la page de recherche (si vous utilisez celle-ci) ou par Babelfish


  haut de la page
 
 

UNE METHODE POUR CHERCHER EFFICACEMENT

 

Ne pas se cantonner à un seul outil de recherche mais les combiner, en tirant parti des points forts de chacun.

Utiliser des sites de références ou les pages de liens (il est facile d'en trouver dans tous les domaines - par exemple Walter Pietch's Nikon page )


Schéma simple suggéré :
  1. base de départ : un index, Yahoo ! pour repérer des sites.
  2. lancer un moteur, AltaVista, pour trouver les pages, qui ne sont pas cernées au niveau de la recherche de sites (y compris celles présentées par des personnes physiques).
  3. s'il en existe, utiliser un moteur spécialisé. Si le sujet est technique, utiliser Northern Light.
  4. moduler la question (synonymes, périphrases) pour multiplier les angles d'attaque.
  5. à chaque résultat de recherche, investir du temps pour sonder en profondeur dans les références proposées, tout en restant critique sur la cohérence entre les lignes affichées en résultat de la recherche et le but poursuivi.
  6. à ce stade vous aurez identifié un noyau de références intéressantes. explorer les liens suggérés (ils sont très fréquents et généralement pertinents) : c'est un moment de forte productivité.

Pour une recherche plus poussée:
  1. base de départ Yahoo ! repérage des sites.
  2. lancer deux ou trois moteurs parmi les Big Five: AltaVista, et au moins un parmi Infoseek, HotBot ou Northern Light (en priorité ce dernier si le sujet est technique).
  3. compléter par deux méta-moteurs contrastés l'un extensif comme Dogpile, l'autre ciblant ses réponses comme Debriefing,
  4. s'il en existe, utiliser un moteur spécialisé.
  5. moduler la question (synonymes, périphrases)
  6. à chaque résultat de recherche, sonder en profondeur.
  7. explorer les liens suggérés dans les documents trouvés
  8. élargir la recherche au-delà du Web: Usenet, Telnet, bases d'articles, FTP. Les moteurs n'ignorent pas ces ressources; pour mieux les sonder utiliser les outils spécialisés (Dejanews pour Usenet, Lycos FTP, etc..). De même consulter les bases de donnés spécialisées, dont l'interrogation directe est plus fouillée.
  9. pour une veille à plus long terme : s'abonner à des listes de diffusion (consomme du temps).

Ne pas s'enfermer dans des habitudes. Le web évolue rapidement, les ressources comme les outils. Périodiquement, chercher du nouveau, tous les six mois par exemple.


  haut de la page
 
 

ESSAI DE QUELQUES MOTEURS

 

Il ne s'agit en aucune façon d'un test. J'ai posé (juillet 1998) deux questions pièges :

1) une question technique : "enrobé drainant" (texte exact demandé)

                  Résultats :

  • AltaVista : 35 réponses - toutes exactes. Bien.
  • Hot Bot : 4 réponses - 4 bonnes pauvre.
  • Northern Light : 64 réponses - la grande majorité appropriées, ce moteur justifie sa réputation de bon outil pour les sujets techniques. très bien
  • Excite : 1 réponse - bonne heureusement! affligeant.
  • Infoseek : 5 réponses - 4 bonnes pauvre.
  • GoTo : 4 réponses - 4 bonnes pauvre.
  • Lycos France : 1 réponse- nul pour un moteur français
 
  • Ecila : 0 réponses - encore plus nul.
  • Euroferret : 17 réponses - toutes exactes bien.
  • Dogpile : 591 réponses - dans ce fatras, une quarantaine de bonnes, en désordre complet. Heureusement, on sait lesquelles, sinon le tri serait rédhibitoire efficace mais dilué.
  • Debriefing : 14 réponses - 13 bonnes très bien ciblé mais un peu pauvre.
  • Metacrawler (refondu dans Go2Net): 9 réponses - 9 bonnes très bien ciblé mais pauvre

Commentaire :
Northern Light offre la meilleure collecte et AltaVista, assez complet et visant juste, défend honorablement sa réputation. Hot Bot, Infoseek et Excite sont gravement déficients, Ecila et Lycos France encore plus. Eurroferret est efficace mais pas aussi extensif qu'annoncé. Parmi les méta-moteurs, seul Dogpile est efficace, mais peu lisible : j'attribue cette contre-performance à la difficulté de transposer dans chaque moteur les spécifications de l'interrogation (texte exact demandé).


 

2) une question longue : "tout n'est qu'ordre et beauté luxe calme et volupté" (empruntée aux deux derniers vers de L'invitation au voyage de Baudelaire, sans les virgules qui devraient se trouver après beauté et luxe. Le texte exact n'est pas demandé car il est suffisamment long pour se suffire).

                  Résultats :

  • AltaVista : 3 747 568 réponses - terrassant ! heureusement les trois premières concernent Baudelaire et vous envoient directement à la case "Invitation au voyage". - Complet et efficace, AltaVista justifie sa place de premier. La sélectivité progresse : on peut désormais poser la question en bloc sans avoir à forcer les mots significatifs. En 1997 il eût fallu poser la question sous la forme "+beauté +luxe +calme +volupté".
  • Hot Bot : 53 réponses - ce moteur pratique un ciblage restreint, rassurant de prime abord. Malheureusement il faut attendre la 40 ème réponse pour dénicher Baudelaire ... Ce sera la seule citation appropriée - très décevant.
  • Northern Light : 82 réponses - très bien ciblé, Baudelaire est représenté à de nombreuses reprises en haut de la liste.
  • Excite : 283986 réponses - effrayant! mais dans les top 10, on trouve 6 fois Baudelaire et directement l'Invitation au voyage - excellent.
  • Infoseek : 3735274 pages - là aussi, effrayant! mais dans les 10 premières réponses, on trouve 8 fois Baudelaire - excellent.
  • GoTo : 40 réponses - L'invitation au voyage 5 fois sur les 10 premiers, ciblage restreint pertinent - excellent.
  • Lycos : 2 réponses- dont Théophile Gautier mais pas Baudelaire - nul. Cette référence m'a troublé mais il s'agit seulement de similitude lexicale, les mots sont dispersés dans le texte.
  • Ecila : 0 réponses - nul.
  • Euroferret : 2798 réponses - ce moteur prétend disposer d'une base importante. Elle comporte visiblement des lacunes, puisque Baudelaire n'est pas trouvé. Le premier document cité (Henri Matisse) n'a qu'un score de 48 % de similitude à la question posée (alors que les autres moteurs dépassent 90 % voire 98 %). - très décevant.
  • Dogpile : un fatras de réponses - dont les excellentes sélections d'Excite, de PlanetSearch et de GoTo, ainsi que celle, satisfaisante, d'AltaVista - efficace mais dilué.
  • Debriefing : 36 réponses - L'invitation au voyage 8 fois sur les 10 premiers. Méta-moteur pratiquant un ciblage restreint d'une superbe pertinence - excellent.
  • Metacrawler (refondu dans Go2Net): 10 réponses - L'invitation au voyage 6 fois sur les 10, les quatre autres sont des pages citant le distique. - phénoménal. Mais un ciblage aussi restreint a ses dangers.

Commentaire général:

AltaVista ratisse large et vise juste. Hot Bot, Northern Light, Infoseek et Excite cherchent à définir une cible à forte cohérence, avec succès sauf Hot Bot. Parmi les moteurs à base limitée, Ecila et Lycos visent une cible à forte cohérence mais elle est vide... Euroferret affiche des réponses à faible pertinence. Les méta-moteurs, efficaces, voire exceptionnels sur la phrase longue, sont décevants sur l'interrogation technique, sauf Dogpile. La transposition des opérateurs booléens est encore déficiente.

Un vrai test devrait prendre en compte les options de recherche, en particulier les opérateurs, et, pour les méta-moteurs, les transpositions faites. Le SearchEngine Report a classé premiers Excite et Yahoo pour leurs options, suivis d'Infoseek, Lycos et AltaVista.

Les moteurs à petite base sont tellement inefficaces qu'on est tenté d'imaginer que dans le futur, subsistera un pré carré de quelques généralistes capables d'entretenir des bases gigantesques, accompagnés de moteurs spécialisés dans un domaine ou une aire géographique et, d'autre part, une offre de méta-moteurs améliorés, payants, contribuant financièrement aux moteurs.

nota : nombres de réponses en juillet 1998 - ces valeurs sont assez peu stables, mais c'est une autre histoire... Depuis, Metacrawler a été regroupé dans Go2Net.


  haut de la page
 
 

ALLER PLUS LOIN

  Les bases en français
  • Ouvrage d'Olivier ANDRIEU: Méthodes outils de recherche sur l'Internet - Éditions EYROLLES ISBN 2-212-08939-2 Paris 1996     et le site de l'auteur, Abondance

  Plus pointus (en anglais)
  • Jian Liu .. chercheur dans le domaine. Analyse des méta-moteurs et liens vers eux.
  • Greg R. Notess .. observatoire, nouvelles, statistiques, d'un consultant
  • Search engines watch .. observatoire des outils de recherche, leur fonctionnement, benchmarks et statistiques
 
Mesure des performances des outils
  • La TREC .. Text REtrieval Conference, organisateur des tests faisant référence (sessions de recherche en temps limité sur un jeu d'essai communiqué au début de l'épreuve). Suspectée de biais en raison du choix de sujets centrés sur l'anglais.
  • L'ADEST .. association pour la mesure des sciences et des techniques.

  haut de la page

[page d'accueil]   -   [plan des pages]

Droits réservés de l'auteur : <Dominique Césari>
Réécriture : août 1998 - dernière mise à jour : mercredi 1er juillet 1999

Valid HTML 4.01 Transitional addendum : comme le disait sobrement Stéphane Bortzmeyer sur sa page, datée d'avril 1996 :
"si vous lisez ceci en 2000, ce n'est plus à jour",
alors, la présente page, en 2017 ... j'ai laissé à dessein
les liens inchangés pour mesurer leur évaporation.
 
CSS Valide !