Fonctionnement d'un moteur de recherche comme Google, alternatives...

Comment fonctionne un moteur de recherche ? Lequel choisir ?

Que ferions-nous sans les moteurs de recherche ? C’est vrai. Aujourd’hui, Internet est partout. En poussant à peine le bouchon, on pourrait presque dire qu’Internet, aujourd’hui, c’est la vie. On y achète ses places pour un spectacle, on y fait ses courses, on y regarde la télévision sur laquelle dans les spots publicitaires, les familles et passant(e)s idolâtrent les fournisseurs d’accès Wifi et il ne sera bientôt plus possible du tout de déclarer ses impôts en choisissant la déclaration sur papier. Mais si Internet s’impose dans tous les secteurs, comment justement s’y retrouver avec un tel volume de données et autant d’informations qui nous sont proposées ? Faire appel à un moteur de recherches devient dès lors le réflexe naturel et c’est ce qu’ont bien compris les têtes pensantes des géants actuels du secteur Google, Yahoo!, Bing, Yandex, Baidu et bien d’autres et même toutes celles et ceux qui, visionnaires, avaient anticipé que cela deviendrait obligatoirement la solution la plus utilisée pour accéder à l’information, sans pour autant réussir à s’imposer et qui aujourd’hui sont relégués au rang des souvenirs amusés des premiers internautes et pionniers du référencement web : Altavista, Excite, Voilà

Par avance, vous voudrez bien excuser les référenceurs que nous sommes si – emportés par notre passion pour les moteurs de recherche – nous nous laissions aller à quelques abus de langage. En attendant, voyons comment fonctionne un moteur de recherche comme Google par exemple.

  1. Un moteur de recherche, c’est quoi ? Définition, graphie, précisions
  2. Définition du moteur de recherche
  3. Graphie du terme
  4. Précisions sur le fonctionnement d’un moteur de recherche
  5. Indexation des moteurs de recherches
  6. Méthodes de classement
  7. Classement par point
  8. Classement des résultats par pertinence
  9. classement par thématique
  10. Impact de l’historique
  11. Les requêtes
  12. Réponses aux requêtes
  13. Différents moteurs de recherche
  14. Les moteurs internes
  15. Les moteurs externes
  16. Les méta moteurs
  17. Moteurs du web
  18. Google
  19. Alternatives à Google
  20. Qwant
  21. Ecosia
  22. Duck Duck Go
  23. Intégration au navigateur
  24. Quid des moteurs de recherche

Un moteur de recherche, c’est quoi ? Définition, graphie, précisions

Pour mieux expliquer notre sujet, voici une définition, une représentation simple et quelques précisions simples pour commencer.

Définition

Un moteur de recherche est une application, basée sur un algorithme, ayant pour objectif d’aller puiser dans une bibliothèque de documents, son index, plus ou moins vaste, le ou les éléments qui lui semblent les plus en adéquation avec la requête de l’utilisateur. En fonction de la bibliothèque de référence de l’application et de ses performances, le volume et la variété des documents qui pourront être présentés à la personne qui a fait la recherche ne seront pas les mêmes. Tous les moteurs de recherche ne sont pas comme Google, et certains peuvent ne retourner que très peu de résultats qui sont tous sous la même forme. En revanche, certains comme Google vont multiplier les bibliothèques et la quantité d’informations (au passage parfois subie), mais aussi les types de documents qui peuvent ressortir de cette requête : textes, images, vidéos…

Graphie du terme

Avant d’aller plus loin, faisons un petit aparté sur la graphie de l’expression « moteur de recherche ». Souvent, l’expression est employée au singulier, mais nous pourrions – on ne peut plus légitimement à la lumière du fonctionnement de certains – considérer que derrière chaque requête se cache une multiplicité de recherches. Et nous utiliserons d’autant plus librement moteur(s) de recherche(s) dans cet article, que les personnes qui ont pris l’habitude de toujours utiliser le même moteur, ont dû en faire des recherches avec ce dernier depuis qu’elles l’ont choisi.

Quelques précisions sur le fonctionnement des moteurs de recherches

Le fonctionnement habituel est pour le moins simple en apparence: Il existe 4 phases distinctes : L’indexation, le classement, la requête de l’internaute et bien entendu la réponse ! Allons dans le détail pour mieux comprendre.

Indexation : la première phase, les robots d’indexation ou crawlers

crawl par les liens des moteurs de recherhce

Le crawl en passant par le lien hypertexte

Le fonctionnement sera différent qu’il s’agisse d’un moteur interne ou principalement externe (voir ci-après), mais ici nous décrirons le fonctionnement des moteurs les plus courants (comme Google). Un robot d’indexation est un logiciel qui va avoir pour objectif de scanner le web dans le but de collecter des ressources qu’il pourra ensuite classer dans son index (que métaphoriquement nous transposerons à l’envi avec l’image d’une bibliothèque dans cet article). Ici le crawler, on parle souvent ici de web spider propose dans son terme anglais l’image, aussi peu attractive que pleine de justesse, d’une araignée. En effet, le crawler va se faufiler comme une araignée d’une ressource à une autre en suivant la gigantesque toile tissée du web, son chemin étant tracé par les liens hypertextes entre les pages web. Concrètement, le robot va traiter une file de liens hypertextes qu’il va suivre pour récupérer les pages (on utilise ici alors le terme de « parser ») et ajouter les pages dans son index (ou l’actualiser si des changements sont intervenus sur la page en question) puis, soit suivre les liens trouvés sur la nouvelle page, soit les récupérer et les remettre dans sa file de documents à aller découvrir pour une prochaine exploration. Le travail pour des crawlers sur des moteurs de recherche étant plus que fastidieux, avec la quantité (nous y revenons) d’informations présentes sur la toile, les référenceurs veilleront à rendre leurs sites et ceux de leurs clients bienveillants à l’égard des crawlers pour ne pas s’en attirer les foudres en faisant économiser du temps et des ressources sur tout ce qui peut l’être en excluant les pages et / ou les dossiers non pertinents à figurer dans l’index d’un moteur de recherche en lui indiquant de ne pas les traiter avec un fichier robots.txt dont on veillera qu’il est bien renseigné ou l’utilisation d’une balise meta robots en noindex. De même chaque expert SEO connaît l’importance du lien dans cette phase comme dans les suivantes, le poussant souvent à créer des situations favorisant le crawl (notamment par des actions de netlinking).

La deuxième phase, le classement

Le classement mériterait de plus longs développement encore mais pour simplifier, évoquons les « points », et la pertinence.

Classement par « points »

Une fois la page récupérée par le robot, le moteur va analyser le contenu de celle-ci pour voir comment il la classe, s’il la classe d’ailleurs. C’est à ce moment-là qu’il peut s’apercevoir entre autres si le contenu de la page est déjà présent ailleurs (et si votre site présente un contenu dupliqué d’un autre site, ce n’est guère bon signe) et s’il se souvient de votre site en bon ou mauvais terme (le contenu des dernières visites était-il suffisamment pertinent pour figurer dans l’index et offrir à l’utilisateur des réponses à ses questions ou au contraire me fait-il consommer des ressources de stockage inutilement). C’est aussi à ce moment qu’il s’aperçoit que vous lui faîtes consommer beaucoup de ressources avec un site très lent à charger ou au contraire que vous lui facilitez la tâche. Ainsi, même si un site rapide à charger reste une priorité avant tout pour l’expérience utilisateur du visiteur, cela permet aussi d’avoir un regard favorable du moteur de recherche.

Et par pertinence

Très évoquée en matière de référencement naturel, la pertinence est thématique et historique à la fois.

Thématique d’une part

Pour répondre efficacement et surtout rapidement au besoin (à la requête) de l’internaute, il faut que la réponse soit déjà prête ou tout du moins en partie. Ainsi, en plus du classement par points des bons et moins bons élèves, il faut également catégoriser les pages en fonction de la ou des thématiques qu’elles abordent. Et segmenter tout cela en fonction de la thématique, on parle ici de clusters, n’est pas toujours une mince affaire, car une seule et même page et même pour être plus précis un seul et même document peut être classé dans plusieurs catégories différentes. C’est là que la sémantique va jouer un rôle décisif pour permettre au moteur de classer les documents en fonction du sujet, ou des sujets principaux qu’il traite. Les champs lexicaux de la page, mais aussi ceux de tout l’entourage de la page (le plus souvent le site Internet où elle se trouve) indiqueront les différentes thématiques traitées pour savoir dans quelle(s) bibliothèque(s) le document sera légitime et pourra tenir une place, fut-elle lointaine, dans un thème donné.

Prenons un exemple. Un article qui traite de la façon de décorer une salle d’attente pour apaiser la patientèle d’un dentiste rentrera dans :

  • une bibliothèque déco,
  • une bibliothèque dentiste,
  • et pourrait même rentrer dans une bibliothèque « relaxation ».

Dans la multitude de critères qu’il prend en compte, le moteur s’attachera à déterminer la ou les thématiques dominantes et comment elles s’articulent avec l’environnement du document, le site en lui-même (la page s’il s’agit d’une image par exemple), mais aussi l’éventuel entourage avec les documents qui y sont rattachés, liens sortants et backlinks.

La présence de certains mots très orientés sémantiquement et peu exploités dans le langage courant est par exemple un indicateur fort pour un moteur de recherches. Ainsi donc, l’importance du champ lexical utilisé et d’un bon balisage sémantique vont permettre à l’expert SEO d’orienter le moteur vers les bonnes pistes et de lui faire comprendre de quoi il s’agit, prioritairement, et sur quelles requêtes le site sera le plus utile à l’internaute.

Historique d’autre part

Classer les très nombreux sites web en fonction de leurs thématiques n’est déjà pas évident comme nous venons de le voir, mais une fois que ce gros travail est réalisé, il peut encore y avoir plusieurs réponses pour une seule et même requête quand l’internaute ne fait rien pour aider le moteur de recherche. Par exemple, quelqu’un qui tape « colibri » dans la barre de recherche de Google, est-il un ornithologue en quête d’informations sur l’oiseau du même nom, ou un référenceur passionné de SEO à la recherche d’informations sur le filtre algorithmique Google Hummingbird mis en place par le géant de Mountain View pour plus de pertinence ? Si ce dernier a permis quelques améliorations dans les SERP, les recherches dans un moteur qui peuvent avoir un double (ou triple, ou plus) sens sont infinis… il devient alors primordial pour le moteur de trouver d’autres éléments qui pourront l’aider à apporter les bonnes réponses pour satisfaire les utilisateurs, dont l’historique. Et quand on dit historique ici, on ne pense pas à votre historique personnel de navigation, du moins pas uniquement, mais à l’ensemble des éléments que le moteur a à sa disposition (nous y reviendrons), pour mesurer la satisfaction de l’utilisateur sur les résultats de recherche qu’il lui propose. Pour preuve et pour « vous amuser », rendez-vous sur un navigateur et allez taper dans Google successivement « guépard royal » puis « jaguar ». Maintenant, ré-effectuez le test sur un autre navigateur en tapant « ferrari » puis « jaguar ». Vous constaterez peut-être comme nous, qu’il n’y a guère de différence entre les deux pages de résultats pour la requête « jaguar », très clairement orientée principalement sur la célèbre marque automobile.

Après, évidemment, plus les stratégies de référencement utilisées par la marque sont efficaces et plus les moteurs de recherches seront orientés vers le bon choix. Toujours par curiosité, reprenez votre requête « jaguar » et regardez bien les « résultats pour les images » de cette requête.

recherche par image

Images indexées dans Google sur « Jaguar »

Si la photographie d’un jaguar apparaît tout de même, le référencement sur Google images est bien meilleur que celui de la marque « Aigle » où le rapace porte si bien son nom qu’il ne laisse absolument rien à la marque de vêtements.

apparence des images dans un moteur de recherche

Google Image interprétant une requête sur « Aigle »

Cette dernière garde, heureusement pour elle, l’essentiel de la visibilité avec la première position, les résultats Google maps, la MyBusiness…

Requête : la troisième phase, les fameux mots clés ou keywords

La plupart du temps, quand on parle de moteur de recherche et de requêtes, il s’agit d’une requête sous la forme de mot(s), on parle ici d’expression clé ou de mots clés (keywords en anglais) que l’algorithme utilise pour mettre en relation l’information recherchée avec les meilleurs documents (ceux qu’il juge comme l’étant du moins) de son index. De nos jours, les moteurs de recherche sont de plus en plus fins et il est inutile – contrairement à ce que bien trop de personnes pensent à tort – de faire du bourrage de mots clés (keywords stuffing), stratégie qui consiste à répéter un nombre de fois trop conséquent l’expression clé que vous ciblez dans le contenu de votre page. Il s’agit là d’un excellent moyen de vous prendre une pénalité de la part du moteur, algorithmique s’il fait bien son travail, ou manuelle s’il est moins efficace mais qu’un concurrent vous a dénoncé comme utilisant cette technique abusive… Nous l’avons vu par ailleurs, il est aussi possible de faire de la recherche par image, mais dans cet article, nous nous focaliserons uniquement sur le fonctionnement basé sur la recherche de termes.

Réponse à la requête : la dernière phase les résultats (SERP)

On arrive un peu au cœur de la matrice, comment, avec les mots clés tapés par l’utilisateur, retourner les résultats présents dans l’index qui vont lui convenir ? Comme déjà évoqué, les principaux moteurs de recherches utilisent une multiplicité de critères et ont de nombreux moyens pour déterminer si un résultat est accueilli favorablement par l’internaute ou non. Par exemple, le plus connu et utilisé des moteurs dispose de nombreux « mouchards » : son navigateur Google Chrome pour commencer, le code Analytics présent sur une majorité de sites web (l’utilise-t-il, ne l’utilise-t-il pas, nous ne rentrerons pas ici dans cet interminable débat de référenceurs) mais aussi et surtout, l’analyse de plusieurs phénomènes comme par exemple le pogosticking. Illustré par l’image d’un jeu pour enfants anciennement célèbre, qui servait à rebondir, il s’agit, dans le langage d’un moteur de recherches, du fait de revenir sur la page de résultats du moteur après avoir cliqué sur un site : en cliquant sur précédent depuis le site, en relançant à nouveau la recherche, etc. Autant dire que le site visité n’envoie pas forcément (ce forcément pourrait faire lui aussi l’objet d’un article), un bon signal de pertinence sur la requête concernée au moteur de recherche.

Les différents moteurs de recherche

Ici nous avons principalement parlé des moteurs sous la forme la plus commune que vous imaginez, les moteurs de recherche web : Google, Yahoo!, Bing, Yandex (le moteur de recherche russe), Baidu (le moteur de recherche chinois) et autres, nous ne citons-là que les plus connus, mais nous en citerons d’autres un peu plus bas. Mais on pourrait considérer qu’il y a plusieurs formes différentes (et pas forcément toujours répertoriées comme telles) que voici.

Les moteurs internes

Un moteur de recherche peut tout à fait être un moteur exclusivement « interne ». Ce que nous entendons par là, c’est que ce dernier va aller chercher dans des données qui se trouvent physiquement au même endroit que lui. Exemple, le moteur de recherche de votre ordinateur (nous pourrions presque aller jusqu’à la fonction rechercher (ou ctrl + f) sur un document actif), le moteur de recherche interne d’un site sur WordPress, etc.

Les moteurs principalement externes

Ici, nous pouvons citer Google, lequel propose dans ses résultats de recherche des liens qui, la plupart du temps, vous font quitter le moteur, mais aussi Facebook, pour qui c’est l’inverse et qui ne vous fait que rarement sortir de chez lui.

Les méta-moteurs

Ici il s’agit d’une forme un peu particulière, celle des moteurs qui agrègent les résultats de plusieurs autres moteurs pour pouvoir proposer des résultats. Un méta-moteur, c’est un moteur de moteurs. Loin de nous l’idée de vouloir faire du keyword stuffing comme évoqué tout à l’heure, c’est simplement la réalité par laquelle il faut les désigner.

Les moteurs de recherche sur le web

Mais revenons-en à ceux qui vous intéressent le plus – et nous aussi en tant qu’agence de référencement – les moteurs sur le web pour vos recherches sur Internet.

Google, l’ogre sur le marché

Notre démarche ici va peut-être vous surprendre, mais nous n’allons guère développer cet acteur. Certes, le leader de Mountain view est LA référence en la matière, l’ogre sur le marché mondial, même s’il n’est pas hégémonique partout comme en France. Seulement voilà, nous vous en parlons régulièrement, vous le connaissez très probablement déjà très bien et nous en évoquons les différents aspects de son fonctionnement dans de nombreux autres articles et nous continueront de le faire à l’avenir.

Trouver un moteur de recherche alternatif à Google

Nous allons donc plutôt vous présenter quelques alternatives à Google que nous apprécions, vous nous pardonnerez sans doute notre part de subjectivité, que nous avons toutefois jugée plus intéressante que l’exhaustivité des moteurs de recherches qui existent et que vous pourrez trouver sans aucune difficulté. Même s’il en existe bien d’autres, nous nous sommes limités à trois.

Qwant, le français

Et pour le supplément de chauvinisme, vous ne nous en voudrez pas – en plus de le faire figurer dans notre sélection nous allons commencer par lui – le français Qwant. Vous nous en voudrez d’autant moins quand vous l’aurez testé, comme moteur de recherche alternatif à Google, car il présente des résultats pour le moins cohérents et tout cela dans le respect de votre vie privée puisqu’il vous assure la confidentialité des requêtes. En plus, sa présentation des résultats de différentes natures : sites web, les résultats liés à l’actualité, ceux en provenance des réseaux sociaux… que vous pouvez par ailleurs filtrer grâce au menu sur votre gauche, apporte une touche d’originalité et de fraîcheur là où beaucoup d’acteurs se ressemblent énormément.

Soutenez le moteur français : https://www.qwant.com/

Ecosia, le moteur écolo

Alors là, ne nous mentons pas, c’est bien plus conceptuel. Encore que. Vous pouvez le tester sur plusieurs requêtes, les résultats sont tout à fait crédibles et il y a de fortes chances que vous accédiez à l’information que vous étiez venu(e) chercher. Mais au-delà de sa pertinence, c’est le concept qui nous plaît pour ce moteur de recherche écologique. En effet, à chaque fois que vous faîtes une requête sur Ecosia, la société plante un arbre. Un projet engagé, d’une société qui, dans un souci de transparence, publie les rapports financiers et reçus de plantation des arbres. Pour la planète, souhaitons longue vie à ce moteur.

Pour aller planter un arbre avec une requête : https://www.ecosia.org

Duck Duck Go, le méta-moteur confidentiel

Nous avons enfin tenu pour notre sélection à y faire figurer Duck Duck Go pour deux raisons. La première, comme Qwant, il s’agit d’un outil de recherche qui milite pour le respect de la vie privée et d’un moteur de recherche qui garantit la confidentialité des requêtes. La seconde, c’est qu’il s’agit d’une belle illustration du concept présenté tout à l’heure de méta-moteur de recherches.

Comme le dit leur slogan, ne vous laissez pas espionner : https://duckduckgo.com

Les moteurs de recherche intégrés à vos navigateurs

Dernière petite chose avant de conclure, de nombreux moteurs vous proposent d’intégrer leur solution directement à votre navigateur web préféré. Cela peut être sympathique pour gagner du temps en vous évitant quelques clics ou pour celles et ceux qui aiment le changement et ne pas toujours rechercher sur la même interface.

Alors, in fine, quid des moteurs de recherches

Vous avez vu, il existe de nombreuses formes de moteurs et nous aimerions, en tant qu’agence web très clairement passionnée par le SEO, conclure de la sorte : si effectivement comme nous l’indiquions en préambule, que cela plaise ou non, aujourd’hui Internet c’est la vie, le moteur de recherche est de plus en plus ce qui vous permet d’y accéder. Il est donc essentiel pour vos sites d’être présents dans les index des moteurs de recherches, mais bien plus encore d’y être visibles si vous voulez devenir ou rester un acteur incontournable dans votre discipline et c’est la raison pour laquelle les optimisations SEO se doivent de toujours faire en sorte que votre site soit apprécié par tous les moteurs de recherches.

[Total : 2    Moyenne : 5/5]

A propos de l'auteur(e)

Pas de commentaire

Centre de préférences de confidentialité

Google Analytics

Google Analytics est un outil Google d'analyse d'audience Internet permettant aux propriétaires de sites Web et d'applications de mieux comprendre le comportement de leurs utilisateurs. Cet outil peut utiliser des cookies pour collecter des informations et générer des rapports sur les statistiques d'utilisation d'un site Web sans que les utilisateurs individuels soient identifiés personnellement par Google. Le cookie "__ga" est celui qui est le plus utilisé par Google Analytics.
En plus d’établir des rapports statistiques d’utilisation des sites web, Google Analytics peut également être utilisé, conjointement avec certains des cookies publicitaires décrits précédemment, pour proposer des publicités plus pertinentes sur les services Google (comme Google Search), sur l’ensemble d’Internet et pour mesurer votre interaction avec les publicités que nous affichons.

Google Analytics
_ga, _gid, _gat

Publicité Google

Google AdSense est un programme de monétisation proposé par Google aux éditeurs de sites web pour générer des revenus publicitaires à la performance. Un éditeur de site web peut adhérer gratuitement au programme et bénéficier d’affichages publicitaires sur son site en y plaçant des tags publicitaires correspondant aux formats de son choix par simple copier / coller d’un code fourni par le programme.
Google utilise des cookies pour rendre la publicité plus attractive pour les utilisateurs et plus rentable pour les éditeurs et les annonceurs. Les cookies servent ainsi également à sélectionner les publicités en fonction de leur pertinence pour l'utilisateur, à améliorer les rapports sur les performances des campagnes et à éviter la diffusion d'annonces que l'utilisateur a déjà vues.

Google AdSense
NID,SID,DSID, FLC, AID, TAID