Indexation Google : Comment mettre son site dans l'index ?

Indexation Google : Comment indexer un site sur le moteur de recherche ?

Au delà des autres moteurs de recherche, référencer son site Internet sur Google apparaît comme une priorité pour n’importe quel webmaster. A tel point que la création mais surtout la mise en production du site Web revêt un caractère particulier : Google va-t-il sonder mon site, le robot va t-il crawler l’ensemble des pages du site pour opérer son classement ? Pour s’en assurer, il existe plusieurs points à vérifier. Voici une petite check-list de ce qu’il faut prendre en compte.

  1. L’indexation dans Google, c’est quoi ?
  2. Vérifier que Google Bot peut accéder au site
  3. Vérifier les balises meta noindex
  4. Installer la Google Search Console
  5. S’assurer des logs
  6. Principes de base au lancement d’un site

Qu’est-ce que l’indexation dans Google ?

Lorsque l’on évoque le référencement naturel, on pense dans le langage courant avant tout à l’optimisation pour les moteurs de recherche. Nous vous laissons consulter ici une définition du SEO. Mais dans la pratique, il s’agit bien simplement de permettre aux différents moteurs de recherche :

  1. de se rendre sur un site Internet,
  2. de faciliter leur visite vers les pages et contenus souhaités (pages et contenus que l’on veut voir dans les résultats de recherche),
  3. d’exclure de la visite les pages et contenus que l’on ne souhaite pas voir dans les résultats de recherche.

Lors de la mise en ligne du site Internet, l’ensemble de ces principes est généralement appelée « opération de mise à l’index ». La mise à l’index consiste donc à définir les permissions et les restrictions d’accès à tout ou partie d’un site par des robots. Ce faisant, on utilise plusieurs outils et protocoles pour réussir l’opération.

Vérifiez que GoogleBot peut accéder au site

GoogleBot est le robot crawler, ou spider le plus connu de la société américaine. Il faut savoir que ce n’est pas l’unique bot de la firme et que d’autres se promènent de site en site pour sonder et classer les pages, contenus médias, vidéos, etc. Pour simplifier la démarche d’indexation, il faut s’assurer dans un premier temps que le robots.txt du site ne restreint pas l’accès à celui-ci. Il faut donc commencer par configurer ce fichier Robots.txt à la racine de votre serveur en supprimant ce type de ligne :

Empêcher Google Bot d'accéder aux répertoire du site
User-agent: googlebot
Disallow: /

Dans l’exemple ci-dessus, est exprimé : « Pour GoogleBot », « empêcher » (Disallow:) l’accès à tous les répertoires du site (« / »). Il suffit donc d’enlever « Disallow: / » pour que GoogleBot puisse se promener (en théorie) partout ! Notez que généralement on ne se limite pas à Google (il n’y pas que Google dans la vie), on exprime donc plutôt User-agent: *

On prendra soin de restreindre l’accès à un back-office, n’est-ce pas ?

Sauf que parfois cela ne suffit pas…

Vérifiez les balises meta index de vos pages

Si vous avez suivi la première étape, en enlevant le disallow, Googlebot va pouvoir aller voir vos contenus (pouvoir seulement jusqu’ici). Mais vous avez encore la possibilité de limiter l’index des pages avec une balise appelée « meta noindex ». Il arrive que cette dernière soit par défaut présente sur certains CMS comme WordPress lors de situations de pré-productions. A vous de jouer donc pour la supprimer sur les pages que vous souhaitez voir apparaître dans les résultats de recherche.

Balise meta noindex
<meta name="robots" content="noindex">

La supprimer suffit à encourager un robot de moteur de recherche quelconque à classer votre contenu. La balise typique à Google bot est :

Empêcher Google bot d'indexer une page
<meta name="googlebot" content="noindex">

Après tout, libre à vous de permettre une indexation sur Bing et consorts et non sur Google 🙂 Dans ce cas de figure précédent, Googlebot va pouvoir aller sur votre page mais ne la classera pas, il pourrait même être encouragé à ne pas suivre les liens de cette dernière en ajoutant la directive nofollow :

Google : Ne classe pas et ne suis pas les liens !
<meta name="googlebot" content="noindex, nofollow">

Choisissez donc avec précision les pages que vous ne voulez pas voir apparaître en résultat. A titre d’exemple, les mentions légales peuvent être retirées de l’index. Sauf que parfois, toutes ces mesures ne suffisent pas…

Installez la Google Search Console

Pour s’assurer que tout va bien, rien de tel que la mise en place d’une propriété sur la Google Search Console. Cette dernière permet de vérifier que Googlebot est bien en mesure d’indexer vos contenus. Un petit tour dans la section robots.txt pour lui dire qu’il a bien la permission de venir puis rendez-vous  donc sur le webmaster tools, section « index Google » :

index google search consolePetit état de la situation à un instant « t » : Le nombre total de pages indexées étant ici nul, vous pouvez demander à Google d’aller explorer vos contenus. D’ailleurs, la search console vous guide en premier lieu en vous proposant par exemple de faire un sitemap : Section « Exploration » -> sitemaps -> »Ajouter/tester » un sitemap. Encore faut-il avoir configuré un fichier sitemap sur votre site 🙂

ajouter un sitemap dans la search consoleLe sitemap peut aider, mais c’est toujours à la discrétion des moteurs (Sur Bing également, faites l’opération). Ce qui nous conduit donc à un autre outil « d’insistance », « Explorer comme Google« . Dans le même onglet « Exploration », vous trouverez ceci :

explorer comme pour google pour forcer l'indexation

En pratique, mettre le chemin d’un contenu et explorer puis dans une seconde fenêtre demander l’indexation, ça marche très bien (pour peu que les principes évoqués plus haut le permettent). Vous pouvez le faire pour ordinateur et pour mobile. Nous voilà bien. Sauf que :

  1. Il va falloir dans le cadre d’une création indexer l’ensemble des pages créées,
  2. Se heurter donc à un ras-le-bol du moteur qui vous le fait savoir en vous proposant des captchas plus compliqués à mesure que vous lui demandez d’indexer les pages,
  3. Google va vous indexer votre page mais rien n’exclut qu’il la retire… avec le temps

S’assurer que le bot vient faire un tour sur vos contenus (logs)

C’est ce que l’on appelle les logs (dans la search console, voir la section « statistiques sur l’exploration« ). Et il faut bien dire que plus vous avez de la profondeur de page sur un site, plus les risques de ne pas voir les robots s’y balader augmentent. Rappelez-vous : si Google bot ne vient pas, il ne peut pas classer et donc indexer votre contenu… Alors que fait-on ? On revient aux principes de l’optimisation en référencement naturel 😉 :

  1. On s’assure d’avoir du code lisible par les moteurs de recherche ; si votre site est bourré d’angular JS, d’Ajax, et même disons-le carrément de CSS à rallonge comme sur les WordPress à la mode Divi (nous l’avons dit que ce truc nous agace ?), de photos de 24 megapixels, ça marche moins bien…
  2. On s’arrange pour placer les pages les plus importantes près de la home (page d’accueil), bref, on réfléchit à son arborescence de site Internet,
  3. On crée du contenu texte (!!) et pas simplement une adresse web avec une image et 280 caractères de contenu (nous ne sommes pas sur Twitter 😉 ),
  4. On crée du maillage interne : faire un lien d’une page vers une autre, c’est le meilleur moyen d’encourager le bot à s’y rendre, pensez ainsi aussi au plan de site !
  5. On va chercher espère que l’on va avoir des backlinks.

Principes d’indexations de base au lancement d’un site

Pour assurer le crawl de vos pages, envisagez d’aller inscrire votre site dans les annuaires, c’est ce que l’on appelle soumettre son site dans les annuaires. Certes, peu d’utilisateurs vont sur ces derniers mais les bots y passent de temps en temps ; autant de signaux qui permettent de « déclarer au web que vous existez ». Certes également Google n’aime pas que l’on abuse du lien mais il s’agit ici d’une mise en ligne assez légitime : On cherche à rendre référençable le site. De même, les réseaux sociaux sont là pour créer un peu d’engagement (là encore vous donnerez des alertes aux moteurs si vous faites le tour de Twitter ou linkedin).

Enfin, si vous avez de réels problèmes avec l’indexation de votre site, pensez à faire faire un audit SEO.

[Total : 2    Moyenne : 5/5]

A propos de l'auteur(e)

Centre de préférences de confidentialité

Google Analytics

Google Analytics est un outil Google d'analyse d'audience Internet permettant aux propriétaires de sites Web et d'applications de mieux comprendre le comportement de leurs utilisateurs. Cet outil peut utiliser des cookies pour collecter des informations et générer des rapports sur les statistiques d'utilisation d'un site Web sans que les utilisateurs individuels soient identifiés personnellement par Google. Le cookie "__ga" est celui qui est le plus utilisé par Google Analytics.
En plus d’établir des rapports statistiques d’utilisation des sites web, Google Analytics peut également être utilisé, conjointement avec certains des cookies publicitaires décrits précédemment, pour proposer des publicités plus pertinentes sur les services Google (comme Google Search), sur l’ensemble d’Internet et pour mesurer votre interaction avec les publicités que nous affichons.

Google Analytics
_ga, _gid, _gat