Le blog de Gary: Google? Comment classe t-il les liens ?

Google? Comment classe t-il les liens ?

Posted on 10:22, under algorithmes, Crawler, Google, index, moteur de recherche, PageRank, recherche, robot, URL

Tous moteur de recherche fonctionne de la même manière.

Les composantes principales sont les suivantes:

un index (lieu -> structure de données ou tous les resultats des recherches sont stockés, l' organisation des donnees rappelle dans son principe de base l'index d'un livre pour les concordances bibliques ), un crawler (programme qui se charge de parcourir le web et qui acquiert le contenu des documents à indexer,) un engin d'indexation qui transforme ces documents pour les stocker en une forme appropriee dans l'index ),et un "front-end" qui comprend l'interface gaphique (GUI) qui capture la requete exprimee par l'utilisateur, et la transmet à l'engin de recherche proprement dit, et finalement l'engin de recherche qui est la piece centrale : identifie les documents pertinents à la requete en accedant l'index - ces candidats sont transmis au front-end qui permet l'affichage des resultats de la recherche.

la plateforme de developpment de choix de Google est C++ sur Linux et Java

On envoie donc le crawler, parcourir le web et stocker tous les résultats de son parcours dans l'index.

Mais quels sont les résultats qui s'afficheront en premier pour une requete arbitraire?

Google innova dans la facon de classer les liens. Avez vous déja entendu parler du PageRank?

C'est en fait un jeu de mots, page rank est vraiment le poids de la page mais un rank "statique" indépendant de la requete : c'est ca l'innovation, de melanger un poids independant de la requete avec le traditionel poids de l'IR qui regarde la pertinence du document à la requete en analysant la distribution des mots dans le document par rapport au corpus ( l'inventeur n'est pas Larry mais Sergey Brin et Larry ensemble - et Sergey à au moins autant contribue, Sergey est plus technique et Larry s'occupe plus du coté business tout en restant vraiment technique )

Le pagerank peut etre hyper simplifie en l'expliquant comme un ensemble de petits agents qui se promenent sur le graphe du web à partir de pleins de sources difefrentes en une marche alléatoire :

s'ils se retrouvent sur des meme croisements ,cela veut dire que ces points de rencontre sont importants et ils recoivent un fort pagerank.

Ce qui est complique c'est le modele probabiliste qui decrit ce processus alléatoire.

Pour une requete Lambda:
Rang 1 : Le site de Lambda ( 5 liens poitant sur ce site)
Rang 2 : Lambda site web ( 4 liens pointant sur ce site)
Rang 3 : L'histoire de Lambda ( 3 liens pointant sur ce site)
Rang 4 : Tous sur Lambda ( 2 liens pointant sur ce site)

Attention le pageRank n'est pas le procédé le plus utilisé pour classer les sites internet sur Google.

Certains paramêtres sont prit en compte: contenu du site internet ( mots-clef, titre de la page ... ).

Google fait donc un mix des paramêtres et du pageRank.

Les resultat viennent de facon automatique : google n'interpretre pas les résultats de facons semantique, ce ne sont toujours que des statistiques sur une chaine de caractère .

Donc, pour une requete ayant deux significations, l'une beaucoup plus populaire que l'autre, vous trouverez quand même des sites relatifs aux deux sens du terme.

On peut donc imaginer un ensemble d'algorythme de base avec des heuristiques d'approximation puiqu'il n'y a pas une unique solution au probleme, mais plein d'approximations.
En plus de s'occuper de classer les sites internet, il se doit de detecter les Spams (le filtre de Google est d'ailleur excelent).

Les Spams ne se limite pas aux messages indésirable que vous recevez par email, c'est aussi les sites internet indésirables trafiqué pour avoir un bon classement sur Google.
Une des Techniques les plus courantes à été d'écrire à répétition sur un fond blanc et en blanc un mot correspondant à une requete courante. ( Fameuse Histoire de la rêquete "Cars" ( voitures ) sur Altavista qui affichait des sites pornographiques)

Faisont un récapitulatif de certaines des fonctions de l'algorythmes de Google:
1) Classement des sites, indexation avec les mots clef
2) Calcul du PageRank
3) Mix des deux Techniques
4) Bloquer les sites indésirables
Et plein d'autres encore...

| Send by Email/Envoyer cet article par Email

0 Reply to "Google? Comment classe t-il les liens ?"

Enregistrer un commentaire

Google? Comment classe t-il les liens ?

0 Reply to "Google? Comment classe t-il les liens ?"

Labels

Blog Archive

Google? Comment classe t-il les liens ?

0 Reply to "Google? Comment classe t-il les liens ?"

S’abonner à

Labels

Blog Archive