Le fonctionnement de google

Comment google fonctionne-t-il?

L'objectif de cet article est de faire partager mon point de vue sur la façon dont google est construit au niveau applicatif. Sur le plan de l'infrastructure, de nombreuses informations sont disponibles ailleurs.

Il s'agit de conclusions qui proviennent de mes observations personnelles sur le fonctionnement de google et des changements en cours, ainsi que d'informations que m'ont communiquées des amis chinois travaillant dans un laboratoire de sécurité informatique pour le compte du gouvernement chinois, et du code source de google que j'ai lu rapidement hier après-midi (2 de ces affirmations sont fausses, mais de toute façon, tout ce que je décris dans cet article ne sera pas prouvé afin de protéger mes vraies sources.)

Je présente ici 2 des grands principes que je pense être essentiels à intégrer pour pouvoir comprendre les enjeux du référencement actuel (c'est-à-dire après le 1er janvier 2010).

Remarques préliminaires et digression sur la nature de google

Demandez à un employé de Microsoft s'il considère que bing est un moteur de recherche plus performant que google. Il vous répondra très certainement : « Bing n'est pas un moteur de recherche, mais un outil d'aide à la décision.» C'est ridicule comme réponse, mais ça constitue une bonne introduction à mon propos : google (l'outil présent sur google.com, pas l'entreprise) n'est plus non plus un moteur de recherche, comme il y a quelques années.

Un moteur de recherche est un outil qui, sur base d'informations récoltées par des robots, est capable de trier une liste de sites connus en fonction d'un mot clé : il s'agit d'une base de données et d'un algorithme. Google, c'est maintenant un entrepôt de donnée avec de l'intelligence artificielle (qui apprend des requêtes des internautes en analysant les taux de rebonds, les sites les plus visités…). On est passé à un niveau supérieur. La liste linéaire est devenue un cube en N dimensions (ou un espace vectoriel de dimension N). Certains proposent 200 comme nombre de dimensions.

Par ailleurs, alors qu'aux débuts, l'ambition de google était d'indexer de façon statique toutes les pages, en remettant à jour l'index régulièrement lors de google dance, il est maintenant plus intéressant de se concentrer sur la dynamique des pages ainsi que l'évolution de leurs relations plutôt qu'uniquement sur le nombre de liens entre les sites.

Google cafféine?

Il n'est pas question (pour le moment) de google cafféine dans cet article, pour la simple raison que je me concentre ici sur l'aspect fonctionnel et applicatif, et non sur l'architecture technique qui supporte l'implementation logicielle. Google cafféine est un projet d'optimisation de l'infrastructure afin de permettre d'être plus réactif. Comme on le comprendra par la suite, l'algorithme de google demande une puissance de calcul très importante, et une optimisation logicielle ne suffit pas, le matériel et l'architecture doivent aussi être reconsidérés. D'après mes informations, seules les couches d'infrastructure et de matériel sont concernées par google cafféine.

Suite : Google est multidimensionnel

Commentaires
Si vous avez appris des trucs, je vous remercie de cliquer sur le bouton google plus