Comment configurer un fichier robots.txt ? Définition et explications

Par Xavier Deloffre

S’il est un fichier qui est nécessairement observé lorsque vous faites réaliser un audit SEO, c’est bien le robots.txt. Dans cet article, voyons à quoi il sert et surtout quelques conseils pour bien le configurer dans une approche de référencement naturel. Commençons par une petite définition de cet outil très pratique pour exclure les parfois invasifs crawlers du Web.

Définition du fichier robots.txt pour commencer
Pré-requis pour la configuration
Exemple de structure du robots.txt
Explication sur la syntaxe d’un robots.txt
- Hiérarchie et traitement des règles
Que sont les Wildcards ?
Les différents robots de Google
- Conseils pour l’optimisation SEO
Le sitemap dans le robots.txt
- Pourquoi utiliser la Search Console en complément ?
L’alternative du HTTP X-Robots-Tag
Conclusion sur le robots.txt

Définition du fichier robots.txt pour commencer

Le fichier robots.txt est un composant discret mais essentiel de toute architecture web bien conçue. Il fait partie de ce que l’on appelle le protocole d’exclusion des robots (REP : Robots Exclusion Protocol), une norme qui remonte à l’année 1994. C’est à cette période que Martijn Koster, un pionnier de l’indexation web (également créateur du premier moteur de recherche « Aliweb »), a proposé cette convention en réaction au comportement trop insistant de certains crawlers, notamment celui du robot « Wanderer ». Le but ? Offrir un moyen simple et structuré de limiter l’accès des robots d’indexation à certaines parties d’un site Internet.

Concrètement, le fichier robots.txt est un fichier texte brut, lisible par les humains comme par les machines, et situé à la racine du serveur (https://www.nomdusite.com/robots.txt). Son objectif est de donner des instructions d’exploration aux bots – c’est-à-dire aux programmes automatisés comme les spiders de moteurs de recherche (Googlebot, Bingbot, etc.), mais aussi à de nombreux autres types de robots (SEO audit tools, scrapers, comparateurs…).

Par convention, la toute première chose que fait un robot lorsqu’il arrive sur un domaine est de chercher à lire ce fichier. S’il est présent, il définit immédiatement le périmètre autorisé ou interdit à l’exploration. C’est donc un **véritable point de contrôle à l’entrée du site**. À défaut, le robot considère que tout est accessible, sauf restrictions imposées ailleurs (headers HTTP, balises meta, protection serveur).

Dans une logique de référencement naturel (SEO), le fichier robots.txt est devenu une pièce stratégique. Il permet de :

Limiter le crawl sur des zones techniques ou peu pertinentes (ex : /wp-admin/ sur WordPress) ;
Réduire la charge serveur générée par des bots inutiles ou malveillants ;
Indiquer la localisation d’un fichier sitemap.xml pour une indexation plus fluide ;
Empêcher certains outils comme Screaming Frog SEO Spider, AhrefsBot, ou SemrushBot de scanner l’intégralité du site.

Il faut cependant noter que ce fichier n’a aucune valeur contraignante technique. Il s’agit d’une convention : les robots bienveillants (comme ceux des moteurs majeurs) la respectent, tandis que d’autres peuvent l’ignorer totalement. Il ne protège donc pas les données sensibles – il les signale simplement comme « hors limites » aux programmes qui jouent le jeu.

Utiliser correctement le fichier robots.txt est donc à la fois un acte de prévention technique et une démarche de gestion intelligente du budget crawl de votre site. En bloquant des zones secondaires, vous orientez les ressources des robots vers les pages importantes à indexer dans la SERP (Search Engine Results Pages). C’est une stratégie SEO fine et adaptable, à condition d’en comprendre les règles.

Enfin, précisons qu’il est également possible d’y spécifier le fichier sitemap.xml grâce à une ligne simple du type :

Sitemap: https://www.nomdusite.com/sitemap.xml

Cela facilite l’accès au plan de votre site pour les moteurs et optimise l’exploration de votre contenu. Attention toutefois, le robots.txt ne permet pas à lui seul d’empêcher l’indexation d’une page si celle-ci est déjà connue du moteur par un autre biais (ex : via un lien externe). Pour cela, l’usage des balises meta robots ou des entêtes HTTP X-Robots-Tag est plus approprié.

Bon à savoir : l’absence d’un fichier robots.txt sur un site n’est pas un défaut, mais une configuration volontaire. En revanche, un fichier mal configuré (par exemple, un Disallow: / non commenté) peut bloquer complètement l’indexation… Ce qui est l’une des erreurs SEO les plus fréquentes observées lors des audits techniques.

Pré-requis pour la configuration

La configuration du fichier robots.txt peut sembler simple à première vue, mais elle repose sur des règles précises et incontournables pour être correctement interprétée par les moteurs de recherche. Sa bonne mise en place conditionne en grande partie le comportement des bots sur votre site, et donc votre visibilité sur le Web.

Premier impératif : le fichier doit obligatoirement être placé à la racine de votre domaine principal. C’est-à-dire à l’emplacement accessible via l’URL : https://votresite.com/robots.txt. Il ne sera jamais pris en compte s’il est placé dans un sous-dossier (ex. : /blog/robots.txt ou /assets/robots.txt). De même, chaque sous-domaine (comme shop.votresite.com ou blog.votresite.com) doit disposer de son propre fichier robots.txt si vous souhaitez contrôler leur comportement séparément.

Deuxième règle : ce fichier doit porter le nom exact robots.txt en lettres minuscules, au pluriel, sans extension supplémentaire. Un fichier nommé Robot.txt, robots.TXT, ou encore robot.txt sera ignoré, car les serveurs web (notamment sur Linux) sont sensibles à la casse.

En ce qui concerne la taille, bien que le fichier soit au format texte et que le protocole n’impose théoriquement aucune limite, Google a officiellement indiqué qu’il ne lit que les 500 ko (kilobytes) initiaux du fichier. Toute information au-delà sera simplement ignorée. En pratique, un fichier bien structuré ne dépasse jamais quelques lignes ou quelques centaines d’octets. Cela le rapproche du comportement attendu d’un fichier .htaccess, autre fichier racine stratégique pour le fonctionnement et la sécurité d’un site.

Bonnes pratiques techniques à respecter :

Un seul fichier robots.txt par nom de domaine ou sous-domaine (pas de version multi-langue ou mobile séparée).
Encodage en UTF-8 sans BOM (Byte Order Mark), pour garantir une lecture universelle par tous les agents.
Commentaires autorisés dans le fichier, précédés d’un #. Très utile pour documenter les règles.
Fichier accessible en HTTP 200 (code de réponse OK). Une erreur 404 ou 403 empêchera l’interprétation.

Une fois le fichier en place, vous pouvez vérifier sa validité et son accessibilité à l’aide de la Search Console de Google, via l’outil de test dédié. Cela permet de détecter immédiatement d’éventuelles erreurs de syntaxe ou d’accès.

Exemple de structure du robots.txt

Pour visualiser un fichier robots.txt existant, il suffit d’ajouter /robots.txt à l’URL d’un site. Par exemple :

https://facemweb.com/robots.txt

⚠️ Attention : cette méthode fonctionne uniquement sur les domaines principaux. Si vous souhaitez contrôler un sous-domaine (ex. : blog.facemweb.com), il vous faudra créer un fichier robots.txt spécifique à ce sous-domaine, accessible à sa propre racine.

Voici un exemple typique de structure de fichier robots.txt pour un site WordPress :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dans ce cas, toutes les ressources présentes dans le répertoire /wp-admin/ (zone d’administration WordPress) sont bloquées pour tous les robots (User-agent: *), sauf l’exception faite pour le fichier admin-ajax.php, nécessaire au bon fonctionnement de nombreuses extensions ou thèmes utilisant l’Ajax côté frontend.

Supposons maintenant que vous souhaitez en plus empêcher un crawler bien connu des SEO comme Screaming Frog de scanner l’ensemble de votre site :

User-agent: Screaming Frog SEO Spider
Disallow: /

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dans cette configuration combinée, vous appliquez deux ensembles d’instructions :

Le robot Screaming Frog est bloqué sur l’ensemble du site (Disallow: /)
Tous les autres bots peuvent accéder au site, à l’exception du répertoire /wp-admin/, sauf admin-ajax.php

À noter : si plusieurs ensembles de règles sont présents dans le fichier, les moteurs de recherche sélectionnent celui qui correspond le plus précisément à leur propre nom d’agent. Autrement dit, un User-agent: Googlebot sera préféré à un User-agent: * lorsqu’il est rencontré par le crawler de Google.

Dans la suite de cet article, nous allons analyser en détail les instructions spécifiques que vous pouvez intégrer à votre fichier robots.txt : syntaxe, paramètres, bots ciblés, et exceptions à connaître.

Explication sur la syntaxe d’un robots.txt

Le fichier robots.txt repose sur une syntaxe volontairement simple, mais qu’il est essentiel de bien comprendre pour éviter des erreurs d’interprétation pouvant entraîner des conséquences fâcheuses en SEO : perte d’indexation, désindexation massive, ou au contraire ouverture involontaire de zones sensibles.

Chaque instruction est lue ligne à ligne par les robots, et plusieurs directives peuvent être cumulées dans un même fichier. Il existe trois instructions de base :

User-agent: définit à quel robot (ou groupe de robots) s’adresse la règle.
Disallow: indique le chemin ou la ressource à ne pas explorer.
Allow: accorde explicitement l’autorisation de crawler un fichier ou une URL, même si son répertoire parent est bloqué.

Attention : tous les robots ne respectent pas de la même façon ces instructions. Si Googlebot interprète correctement les exceptions Allow, ce n’est pas toujours le cas pour d’autres agents moins évolués, comme certains scrapers ou bots de performance. Il est donc important de ne pas supposer que les règles seront toujours appliquées de manière uniforme.

Voyons maintenant ces instructions présentées dans un tableau synthétique, avec des exemples concrets :

Syntaxe utilisée	Explications
User-agent:	Instruction de base pour définir quel robot est visé (Googlebot, Bingbot, AhrefsBot, etc.). C’est une chaîne sensible à la casse.
User-agent: *	Le caractère `` est un joker désignant tous les robots*. Cette règle est donc globale et s’applique si aucun nom plus précis n’est spécifié.
User-agent: Googlebot	Spécifie que la règle ne concerne que le robot d’indexation principal de Google (desktop et mobile).
User-agent: Screaming Frog SEO Spider	Bot spécifique à un outil d’analyse SEO. À condition que l’agent soit correctement nommé par l’outil dans l’en-tête HTTP, vous pouvez ainsi le bloquer.
Disallow: /	Bloque l’intégralité du site. Aucune page, ressource ou image ne pourra être crawlée. Extrêmement radical — à utiliser avec la plus grande précaution !
Disallow: /images/	Empêche l’exploration du dossier `/images/` — utile pour ne pas faire indexer des images internes, des miniatures, ou du contenu sensible.
Disallow: /images*	Grâce à `*` (joker), toutes les URL commençant par `/images` seront interdites : `/images2024`, `/images-old`, etc.
Disallow:	Champ vide = aucune interdiction. Le robot est autorisé à crawler toutes les ressources. C’est une manière explicite de signaler l’ouverture complète.
Allow: /	Donne la permission de crawler tout le site. Peut être utile lorsqu’un répertoire parent est interdit par `Disallow`, mais que l’on souhaite faire une exception.

Hiérarchie et traitement des règles

Les moteurs de recherche appliquent les instructions en respectant une hiérarchie basée sur la spécificité :

Plus la directive est précise, plus elle sera prioritaire.
En cas de conflit entre un Disallow général et un Allow plus précis, c’est généralement Allow qui l’emporte — mais uniquement chez Googlebot.
Chez Bing, Yandex ou Baidu, le comportement peut varier : certains ignorent les exceptions Allow dans certains cas.

Exemple :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Ce code dit à tous les robots de ne pas explorer le répertoire d’administration de WordPress… sauf admin-ajax.php, qui doit rester accessible pour les appels JavaScript côté frontend. Googlebot interprétera correctement ce cas d’exception.

Conseil de pro : lorsque vous combinez des instructions complexes, testez-les dans la Search Console (onglet « Tester le fichier robots.txt »). Vous pourrez simuler le comportement d’un robot sur une URL donnée et éviter les blocages accidentels.

Que sont les Wildcards ?

Non, les Wildcards ne sont pas ici des personnages de comics aux super-pouvoirs, mais bien des symboles génériques utilisés pour exprimer des correspondances partielles dans le contexte des règles du fichier robots.txt. En SEO comme en programmation, une wildcard agit comme un joker : elle permet de remplacer un ou plusieurs caractères variables dans une URL.

Dans le fichier robots.txt, les deux principaux caractères génériques utilisables sont :

* (astérisque) : représente une séquence de zéro ou plusieurs caractères.
$ (dollar) : utilisé pour marquer la fin d’une URL (équivalent à « se termine par »).

Ces opérateurs ne sont pas présents dans les spécifications d’origine du Robots Exclusion Protocol, mais sont reconnus par les principaux moteurs de recherche modernes tels que Google, Bing, Yahoo, Yandex et Baidu. Leur prise en charge a été confirmée dans les documents techniques de Google, ce qui en fait des outils puissants à condition de les utiliser avec rigueur.

Pourquoi utiliser des Wildcards ?

Les Wildcards sont particulièrement utiles dans les cas suivants :

Bloquer toutes les URL qui comportent des paramètres dynamiques (?) issus de filtres, de tri, ou de recherches internes.
Exclure des fichiers spécifiques selon leur extension (ex : .pdf, .php, .exe).
Restreindre l’accès à des structures d’URL évolutives ou générées automatiquement.
Gérer des pages paginées ou des chemins URL contenant des variables numériques.

Exemples de Wildcards utilisés dans robots.txt

Syntaxe utilisée pour l’instruction aux bots	Explication sur la Wildcard
User-agent: * Disallow: /*?	Bloque toutes les URL contenant un point d’interrogation `?`. Cela cible généralement les URL avec paramètres (ex : `/produits?page=3`), ce qui évite la duplication de contenu ou le gaspillage du budget crawl.
User-agent: Googlebot Disallow: /*.php$	Empêche Googlebot de crawler toutes les pages se terminant par `.php`. Le `$` indique une fin d’URL stricte. Cela peut être utile pour des fichiers d’admin ou des scripts obsolètes.
User-agent: * Disallow: /comments/feed/	Bloque les flux RSS ou Atom de commentaires, souvent inutiles au référencement et à fort taux de duplication.
User-agent: * Disallow: /search*	Interdit l’accès aux pages générées par le moteur de recherche interne du site, généralement sous la forme `/search?q=motclé`.
User-agent: * Disallow: /*.pdf$	Empêche l’indexation des documents PDF en bloquant toutes les URL qui finissent par `.pdf`.

Compatibilité et bonnes pratiques

✅ Les Wildcards sont supportées par :

Googlebot : compatibilité complète avec * et $.
Bingbot : support des jokers similaires, même si la documentation est moins précise.
Yandex et Baidu : interprétation partielle ou contextuelle, à tester avec prudence.

⚠️ Attention à la surutilisation des jokers. Mal configurés, ils peuvent entraîner :

La désindexation de pages stratégiques (comme des fiches produits dynamiques).
Le blocage involontaire de ressources importantes (ex : fichiers CSS ou JS si leur chemin contient une variable).
Une interprétation erronée sur des bots tiers ou obsolètes (outils SEO, crawlers commerciaux).

Conseil SEO avancé :

Avant d’implémenter des Wildcards, cartographiez les types d’URL dynamiques générés sur votre site à l’aide d’un crawler (comme Screaming Frog, Sitebulb ou JetOctopus), puis appliquez les exclusions de manière chirurgicale. Évitez les blocages globaux qui pourraient empêcher le crawl ou la compréhension de votre arborescence par Google.

Les différents robots de Google

Lorsqu’on parle de Googlebot, on pense généralement au célèbre robot d’exploration de Google chargé de parcourir les pages web pour les indexer. Mais en réalité, la firme de Mountain View dispose de tout un écosystème de crawlers, chacun dédié à un usage spécifique : image, vidéo, publicité, mobile, performance…

Connaître ces user-agents permet de mieux configurer votre robots.txt pour affiner le comportement de chaque robot, ou de les gérer finement via les balises meta robots ou les headers HTTP (X-Robots-Tag).

Voici un tableau récapitulatif des principaux robots Google que vous pouvez croiser :

Robot d’exploration de Google	À quoi il sert
Googlebot	Le robot principal de Google pour indexer les pages web en version desktop et mobile. C’est celui qui crawle le plus largement. Depuis 2019, Googlebot fonctionne en « evergreen » : il utilise la dernière version de Chrome pour le rendu des pages.
Googlebot-Mobile	Ancien robot mobile utilisé avant le passage au mobile-first indexing. Obsolète dans la plupart des cas depuis 2020, mais encore détecté pour certains audits.
Googlebot-Image	Crawler dédié à l’exploration des images pour Google Images. Il suit les balises `<img>` et évalue leur contexte (alt, nom de fichier, balises associées).
Googlebot-News	Spécifique aux sites présents dans Google News. Il explore uniquement les contenus éligibles aux actualités indexées (avec balises spécifiques ou fichiers sitemap-news).
Googlebot-Video	Responsable du crawl des contenus vidéo. Il indexe les balises `<video>`, les flux de données vidéo (YouTube, Dailymotion, etc.), et leurs métadonnées (extrait, vignette, durée).
Mediapartners-Google	Utilisé par Google AdSense pour crawler les pages et en analyser le contenu afin de proposer des publicités contextuelles adaptées. Il ne sert pas à l’indexation SEO.
AdsBot-Google	Crawler d’audit des pages de destination liées à vos campagnes Google Ads. Il évalue leur performance, leur qualité, leur rapidité et leur compatibilité mobile.
AdsBot-Google-Mobile	Similaire à AdsBot-Google, mais avec un user-agent mobile pour tester vos landing pages sur smartphones et tablettes.
Google-Site-Verification	Bot utilisé ponctuellement pour vérifier que vous êtes bien propriétaire d’un domaine lorsque vous connectez votre site à la Google Search Console ou à d’autres services Google (Analytics, Ads…).
Google-Read-Aloud	Nouvel agent utilisé par les outils d’accessibilité ou les assistants vocaux (Google Assistant) pour convertir les pages en audio. Peu utilisé, mais en augmentation sur les sites médias et actualités.
DuplexWeb-Google	Agent expérimental utilisé par l’intelligence artificielle Google Duplex (réservations automatiques, interactions vocales). Rarement actif, mais en cours de développement.

Conseils pour l’optimisation SEO

Attention, ces conseils ne sont généralement pas à appliquer :

Pour empêcher l’indexation d’images sans bloquer les pages, vous pouvez bloquer uniquement Googlebot-Image dans robots.txt.
Pour ne pas apparaître dans Google News, bloquez Googlebot-News — mais attention, cela peut aussi nuire à votre visibilité si vous êtes un site d’actualités.
Pour un ciblage fin sur les annonces, vérifiez comment AdsBot-Google interagit avec vos landing pages via la Search Console Ads.
️ Si vous souhaitez autoriser uniquement Googlebot et bloquer les crawlers publicitaires ou contextuels, vous pouvez ajuster vos règles comme suit :

User-agent: Mediapartners-Google
Disallow: /

User-agent: AdsBot-Google
Disallow: /

Le sitemap dans le robots.txt

Oui, il est tout à fait possible — et même recommandé — d’indiquer l’emplacement de votre fichier sitemap.xml directement dans votre fichier robots.txt. Cette pratique facilite la découverte automatique de votre plan de site par les crawlers, surtout si vous ne soumettez pas manuellement votre sitemap dans les outils pour webmasters.

Un sitemap est un fichier, généralement au format XML, qui liste les URL que vous souhaitez rendre accessibles à l’indexation. Il peut aussi contenir des informations supplémentaires comme la date de dernière modification, la priorité d’indexation ou encore la fréquence de mise à jour des pages.

Il existe plusieurs types de sitemaps :

Sitemap standard : URLs de pages HTML.
Sitemap images : URLs d’images hébergées sur votre site.
Sitemap vidéos : pour les plateformes de contenu vidéo.
Sitemap news : utile pour Google News, avec des balises spécifiques.
Index de sitemaps : permet de regrouper plusieurs fichiers sitemap.xml si votre site comporte des milliers ou millions d’URLs.

Pour indiquer votre sitemap dans le fichier robots.txt, il suffit d’ajouter une ligne au format suivant :

Sitemap: https://www.monomdedomaine.com/sitemap.xml

Cette ligne doit être positionnée n’importe où dans le fichier robots.txt, même avant ou après des règles de User-agent. Il est possible d’en ajouter plusieurs si vous avez plusieurs fichiers à déclarer :

Sitemap: https://www.monomdedomaine.com/sitemap.xml
Sitemap: https://www.monomdedomaine.com/sitemap-video.xml
Sitemap: https://www.monomdedomaine.com/sitemap-images.xml

⚠️ Attention aux erreurs fréquentes :

Le sitemap doit être accessible en HTTP 200, sans redirection permanente (301) ou temporaire (302).
L’URL du sitemap doit être complète (avec le protocole https://) et ne pas comporter d’erreurs de syntaxe.
Ne pas bloquer accidentellement l’accès au fichier sitemap dans le même robots.txt avec une directive Disallow.

Exemple incorrect (à éviter) :

User-agent: *
Disallow: /sitemap.xml
Sitemap: https://www.monomdedomaine.com/sitemap.xml

Vous indiquez le fichier sitemap, mais vous en interdisez l’accès dans la ligne juste au-dessus — contradiction fréquente lors des audits SEO !

Pourquoi utiliser la Search Console en complément ?

Bien que l’ajout dans le fichier robots.txt soit parfaitement ESSENTIEL, l’envoi du sitemap via la Google Search Console reste une méthode bien utile. En effet, cela vous permet de :

Suivre le taux de découverte des URLs déclarées.
Repérer les erreurs d’exploration ou d’indexation (404, redirections, pages exclues, etc.).
Segmenter vos sitemaps par sections du site ou types de contenu (ex. : blog, fiches produits, pages d’atterrissage).
Recevoir des alertes automatiques en cas d’inaccessibilité ou de baisse de couverture d’indexation.

Voici la procédure pour soumettre un sitemap dans la Search Console :

Rendez-vous sur Google Search Console ;
Sélectionnez la propriété correspondant à votre domaine ;
Dans le menu gauche, cliquez sur « Sitemaps » ;
Ajoutez votre fichier sitemap dans le champ prévu à cet effet (ex. : sitemap.xml), puis cliquez sur « Soumettre ».

✅ En combinant ces deux approches — mention dans le robots.txt et soumission manuelle — vous maximisez les chances que Google et les autres moteurs découvrent et traitent vos contenus rapidement et correctement.

Pour aller plus loin, consultez notre guide complet sur la configuration efficace d’un sitemap XML.

L’alternative du HTTP X-Robots-Tag

En matière de contrôle d’indexation, le fichier robots.txt n’est pas la seule solution. Pour des cas plus granulaires, notamment lorsque vous souhaitez appliquer des règles différentes en fonction du type de contenu, vous pouvez recourir à une alternative puissante : l’en-tête HTTP X-Robots-Tag.

Contrairement au fichier robots.txt, qui fonctionne au niveau global du site ou des répertoires, le X-Robots-Tag permet d’agir au niveau serveur, pour chaque type de ressource (page HTML, image, PDF, fichier vidéo, etc.). Il s’agit d’un en-tête HTTP transmis avec la réponse du serveur, que les moteurs de recherche peuvent lire et interpréter au même titre qu’une balise <meta name="robots">.

⚙️ Il est particulièrement utile dans les cas suivants :

Fichiers non HTML (PDF, DOC, CSV, etc.) pour lesquels vous ne pouvez pas insérer de balises <meta> ;
Règles dynamiques appliquées via des conditions serveur (fichiers PHP, formats AMP, etc.) ;
Ressources statiques que vous ne souhaitez pas indexer (documents en téléchargement, images privées, etc.) ;
Pages sensibles ou temporaires nécessitant une désindexation après une date précise.

Voici un exemple d’en-tête X-Robots-Tag en PHP pour empêcher la mise en cache dans la SERP :

header("X-Robots-Tag: noarchive", true);

Vous pouvez également cumuler plusieurs directives sur une même ligne :

header("X-Robots-Tag: noindex, nofollow, nosnippet", true);

Utilisation selon les technologies serveur

Selon votre environnement technique, la mise en œuvre du X-Robots-Tag peut différer :

- PHP : via la fonction header() (comme vu ci-dessus).
- Apache (via .htaccess) :

<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, noarchive"
</FilesMatch>

- Nginx : avec les instructions add_header dans la configuration du serveur :

location ~* \.pdf$ {
    add_header X-Robots-Tag "noindex, noarchive";
}

✅ Cette méthode est donc idéale pour appliquer des directives SEO à des fichiers où les balises <meta> ne sont pas exploitables.

Différentes instructions et valeurs possibles pour X-Robots-Tag

Voici un tableau des valeurs acceptées par le X-Robots-Tag, identiques à celles utilisées dans la balise <meta name="robots"> :

Valeur utilisée	Signification et usage
noindex	Empêche l’indexation de la ressource. Très utile sur des fichiers PDF, XML, ou des pages de test.
nofollow	Indique aux bots de ne pas suivre les liens présents sur la page. Souvent utilisé sur les pages d’archives ou à faible valeur SEO.
noarchive	Interdit l’affichage d’une version en cache dans la SERP. Peut renforcer la confidentialité ou éviter d’anciennes versions indexées.
noimageindex	Empêche l’indexation des images contenues sur la page, même si elles sont autorisées individuellement par ailleurs.
nosnippet	Supprime le texte d’extrait sous le titre de la page dans les résultats de recherche (extrait enrichi ou classique).
notranslate	Empêche Google d’afficher l’option « Traduire cette page » dans les SERP.
none	Équivalent de `noindex, nofollow`. Forme raccourcie pour bloquer complètement l’indexation et le suivi.
unavailable_after: [date]	Spécifie une date (RFC-850) après laquelle la page ne doit plus apparaître dans l’index. Exemple : `unavailable_after: 25-Aug-2025 15:00:00 EST`.
~~noodp~~	Désuet : interdisait à Google de reprendre les descriptions issues de l’annuaire DMOZ (fermé en 2017).

Balise `meta`, `robots.txt` ou `X-Robots-Tag` ? Quelle différence ?

Voici un petit comparatif des cas d’usage pour chaque méthode :

Méthode employée	Description de la méthode
robots.txt	Portée : Globale Types de ressources : Répertoires, groupes d’URL Souplesse : Basique Exemple d’usage : Interdire le crawl de `/admin/`
<meta name= »robots »>	Portée : Page HTML uniquement Types de ressources : HTML uniquement Souplesse : Moyenne Exemple d’usage : Ne pas indexer une page de contenu
X-Robots-Tag	Portée : Granulaire Types de ressources : Tous types de fichiers (HTML, PDF, images, vidéos…) Souplesse : Très élevée Exemple d’usage : Empêcher l’indexation de fichiers PDF ou vidéos

Conclusion sur le robots.txt

Nous avons ici essayé de dresser un panorama assez complet du fonctionnement du fichier robots.txt. Dans la réalité, les configurations sont multiples et même évolutives avec le temps pour les besoins du SEO. Il n’existe pas en soi de configuration unique pour la bonne est simple raison que les sites sont tous différents. Que l’on soit sur une technologie WordPress, Joomla ou Drupal influera bien entendu la manière de le concevoir mais nous attirons votre attention sur le fait qu’il existe toujours des spécificités propres aux objectifs du site. Dois-je masquer mon moteur de recherche interne ? Dois-je limiter l’indexation de tel type de page mais pas les images qui en sont dépendantes ? Suis-je sur un intranet ? Bref, un ensemble de questions préalables qu’il est bon de se poser avant de se lancer dans la duplication de tel ou tel code trouvé sur le Web.

De la même manière, observez avec attention les robots.txt de vos concurrents. Parfois, comme dans l’exemple de Screaming Frog, vous trouverez des astuces pour limiter l’accès à des ressources vous permettant d’auditer la concurrence. Il est possible par exemple d’empêcher le crawl d’un Majestic SEO ou d’un SEMRush (sur le site Webrankinfo, vous trouverez notamment une liste de ces robots) Bien vu Olivier Duffez ! A vous de voir la configuration que vous souhaitez sachant que vous avez intérêt aujourd’hui à mettre en place ce fichier dès le lancement de votre site (au moins pour le crawler de Google)

Xavier Deloffre

Fondateur de Facem Web, agence implantée à Arras et à Lille (Hauts-de-France), je suis spécialiste du Web Marketing, formateur expérimenté, et blogueur reconnu dans le domaine du Growth Hacking. Passionné par le référencement naturel (SEO) que j'ai découvert en 2009, j'imagine et développe des outils web innovants afin d'optimiser la visibilité de mes clients dans les SERPs. Mon objectif principal : renforcer leur notoriété en ligne par des stratégies digitales efficaces et créatives.

0 commentaires

Besoin de visibilité ?

☑️ Experts du référencement

☑️ + de 12 ans d’éxpérience

☑️ + 500 clients satisfaits

☑️ Création de sites

☑️ Audit SEO

☑️ Conseil SEO

☑️ Référencement de sites

☑️ Devis gratuit

Devenez visible !