Quels robots bloquer dans un fichier robots.txt ?

Par Xavier Deloffre

Les propriétaires de sites web découvrent tôt ou tard l’existence du fichier robots.txt. Petit mais puissant, ce fichier placé à la racine d’un site permet de donner des directives aux robots d’indexation sur les parties du site qu’ils sont autorisés ou non à explorer. Cependant, tous les robots ne se valent pas : certains sont bénéfiques, comme ceux des moteurs de recherche majeurs, tandis que d’autres sont indésirables, car ils consomment des ressources ou exploitent vos données sans permission. Alors, quels robots vaut-il mieux bloquer ? Voici un panorama complet pour bien configurer votre fichier robots.txt.

Comprendre le rôle du fichier robots.txt et des bots

Le fichier robots.txt est une porte d’entrée numérique. Il fait partie du protocole Robots Exclusion Protocol, utilisé par les robots web pour savoir s’ils peuvent accéder à certaines pages d’un site. Bien qu’il soit respecté par la majorité des robots dits « légitimes », il ne représente en aucun cas une barrière de sécurité : Il n’empêche pas un robot malveillant d’accéder à vos données.

Que fait un robot sur le Web ?

Un robot (également appelé crawler, spider ou bot)  est un agent logiciel automatisé conçu pour explorer les sites web de manière systématique. Il envoie des requêtes HTTP, parcourt les pages en suivant les liens HTML dans le Web et peut interpréter les métadonnées, les balises meta, le fichier sitemap.xml et le fichier robots.txt. L’objectif principal varie selon le type de robot : indexation, surveillance, collecte de données, ou extraction malveillante de contenu. Les robots fonctionnent en parcourant un site depuis une URL initiale (souvent la page d’accueil), puis suivent les hyperliens internes pour découvrir d’autres pages. Certains robots sont configurés pour respecter les règles de politesse définies dans le fichier robots.txt et limiter la fréquence de leurs requêtes, tandis que d’autres ignorent volontairement ces règles. Les robots bienveillants respectent aussi les en-têtes HTTP comme Retry-After ou Cache-Control, et peuvent suivre les redirections (codes HTTP 3xx) pour ne pas saturer inutilement les serveurs.

Voici une typologie des robots les plus couramment rencontrés :

  • Les moteurs de recherche : Googlebot, Bingbot, Baiduspider, YandexBot, etc. Ils parcourent le web pour indexer les contenus dans leurs bases de données afin de proposer des résultats pertinents aux utilisateurs. Ils analysent le contenu, les liens, la structure HTML, les microdonnées (JSON-LD, RDFa), et tiennent compte du fichier robots.txt pour respecter les limitations imposées ;
  • Les robots de monitoring : UptimeRobot, Pingdom, GTmetrix, etc. Ces robots mesurent la disponibilité et la performance des pages web. Ils effectuent des requêtes fréquentes et peuvent déclencher des alertes en cas d’erreur (HTTP 5xx ou latence élevée). Bien que généralement utiles, leur fréquence d’accès peut devenir problématique sur des sites à faible capacité serveur ;
  • Les robots de scraping : HTTrack, Scrapy, MJ12bot, etc. Ces bots sont conçus pour extraire des données de manière intensive. Ils peuvent aspirer des catalogues de produits, des articles, ou même l’intégralité d’un site pour le dupliquer. Beaucoup ne respectent pas le fichier robots.txt et sont souvent utilisés pour du vol de contenu ou la création de copies illégitimes ;
  • Les robots d’analyse SEO : AhrefsBot, SemrushBot, Screaming Frog, etc. Ils analysent l’architecture du site, les backlinks, les temps de réponse, les redirections, les balises meta, les erreurs 404 ou 500, et d’autres éléments utiles pour les audits techniques. Bien que ces robots soient utiles pour les professionnels du référencement, ils sollicitent fortement le serveur, surtout sur des sites de grande taille ou mal optimisés ;
  • Les robots malveillants : Ces bots n’ont aucun objectif légitime du point de vue de l’éditeur du site. Ils peuvent collecter des adresses e-mail pour du spam, tester des failles de sécurité connues (comme les injections SQL ou les faiblesses de formulaires), exécuter des attaques par dictionnaire, ou aspirer des contenus protégés par le droit d’auteur. Leur comportement est généralement agressif, leur signature est souvent déguisée, et ils ignorent systématiquement les directives du fichier robots.txt.

Le rôle du fichier robots.txt est d’agir comme un guide pour ces robots : Il indique quelles parties du site sont ouvertes ou non à l’indexation ou à l’exploration. Il s’agit d’un outil de régulation du trafic automatisé, utile pour préserver les ressources du serveur, éviter l’indexation de contenu sensible (comme les pages d’administration ou de filtrage), et contrôler la fréquence des visites des bots. Toutefois, cette méthode repose sur la coopération des robots. Ceux qui ignorent volontairement ce protocole peuvent continuer à naviguer librement sur votre site, ce qui justifie l’utilisation complémentaire de solutions comme les pare-feux applicatifs (WAF), la limitation du taux de requêtes (rate limiting), ou l’analyse comportementale côté serveur.

Les robots que vous pouvez (et devriez) bloquer

Certains robots sont inoffensifs, d’autres nuisent à la performance de votre site. Voici une liste détaillée de bots que vous pouvez envisager de bloquer, accompagnée de la directive à insérer dans votre fichier robots.txt.

Les robots de scraping agressifs ou non désirés

Les robots de scraping sont conçus pour parcourir un site dans le but d’en extraire des données spécifiques : Contenus éditoriaux, fiches produits, listes d’URL, informations de contact, etc. Contrairement aux moteurs de recherche traditionnels qui visent à indexer les pages pour les rendre accessibles via une recherche, ces bots ont souvent des finalités commerciales, concurrentielles ou automatisées. Beaucoup ne respectent pas les directives du fichier robots.txt ou accèdent aux pages à une fréquence élevée, ce qui peut saturer votre serveur, fausser vos statistiques d’analyse ou dupliquer vos contenus ailleurs sans autorisation. Voici une liste élargie de robots que vous pouvez envisager de bloquer (ou pas), sachant que certains de ces outils restent très utiles pour monitorer votre site Web.

  • AhrefsBot : Utilisé par la société Ahrefs pour explorer le web à grande échelle afin d’enrichir sa base de données de backlinks et de pages indexées. Très actif, il peut solliciter des centaines d’URL par heure, surtout si votre site est populaire.
    User-agent: AhrefsBot
    Disallow: /
  • SemrushBot : Crawler de l’outil SEO Semrush. Il visite massivement les pages pour collecter des données techniques et de netlinking, ce qui peut entraîner un pic de consommation de bande passante si vous n’êtes pas client de leurs services.
    User-agent: SemrushBot
    Disallow: /
  • MJ12bot : Robot développé par Majestic SEO, un outil d’analyse de liens. Bien qu’il respecte le fichier robots.txt, il est réputé pour sa fréquence élevée d’exploration, souvent jugée excessive sur les sites à forte volumétrie.
    User-agent: MJ12bot
    Disallow: /
  • BLEXBot : Associé à Blekko (désormais arrêté), ce bot reste actif sous certaines formes et explore les sites dans une logique de scoring algorithmique. Peu de bénéfices à le laisser explorer si vous ne ciblez pas d’audience spécifique via des agrégateurs tiers.
    User-agent: BLEXBot
    Disallow: /
  • DotBot : Robot de diffusion de données pour des plateformes de shopping ou d’analytique commerciale. Particulièrement agressif sur les boutiques en ligne, il peut aspirer les fiches produits à grande vitesse.
    User-agent: DotBot
    Disallow: /
  • SEOkicks-Robot : Utilisé pour construire un index de backlinks concurrent d’Ahrefs ou Majestic. Très peu utile si vous ne travaillez pas avec cette plateforme, et parfois perçu comme envahissant.
    User-agent: SEOkicks-Robot
    Disallow: /
  • LinkpadBot : Provenant d’un service russe de tracking de liens entrants. Son intérêt est très limité pour les webmasters hors Russie et sa charge serveur peut devenir problématique.
    User-agent: LinkpadBot
    Disallow: /
  • Exabot : Crawler de la société française Exalead, autrefois moteur de recherche. Il reste actif pour des besoins techniques ou de recherche, mais est rarement pertinent dans un contexte SEO moderne.
    User-agent: Exabot
    Disallow: /
  • Cliqzbot : Associé au navigateur anti-tracking Cliqz (abandonné depuis), ce bot continue à visiter certains sites pour alimenter des bases statistiques. Son utilité est désormais nulle.
    User-agent: Cliqzbot
    Disallow: /
  • Sistrix : Robot utilisé pour l’analyse concurrentielle de la visibilité SEO. Même s’il respecte en général les limitations, il n’apporte de valeur que si vous utilisez leur plateforme. Peut être bloqué pour limiter les requêtes.
    User-agent: SISTRIX
    Disallow: /
  • Cocolyzebot : Utilisé pour auditer les sites dans le cadre d’analyses SEO ou UX. Il peut générer une forte charge s’il parcourt l’ensemble des URLs d’un gros site e-commerce ou média sans restriction.
    User-agent: Cocolyzebot
    Disallow: /

Les robots de duplicateurs de contenu et aspirateurs de site

Certains outils et robots sont spécifiquement conçus pour cloner l’intégralité d’un site web afin d’en créer une copie locale. Ces duplicateurs de contenu automatisés peuvent aspirer toutes les pages HTML, les images, les fichiers JavaScript, les feuilles de style CSS, les documents PDF et d’autres ressources associées à un domaine. Bien que leur usage soit parfois légitime — pour de l’archivage personnel, du développement en local ou de la documentation technique —, ils sont aussi largement détournés pour copier des sites entiers à des fins commerciales, concurrentielles ou frauduleuses. Ces robots exécutent généralement des requêtes très rapprochées dans le temps, et ils parcourent l’ensemble de l’arborescence d’un site en suivant tous les liens internes. Cela peut saturer un serveur web, perturber les statistiques d’analyse du trafic (comme Google Analytics ou Matomo), provoquer une surconsommation de bande passante, et nuire à votre SEO si les contenus sont ensuite republier ailleurs sur le web sans autorisation.

  • HTTrack : HTTrack est un logiciel open source très répandu, utilisé pour copier des sites web en local afin d’en faire des sauvegardes ou des copies consultables hors ligne. Il fonctionne en téléchargeant récursivement toutes les pages liées à une URL de départ, ce qui peut aboutir à une réplication complète d’un site en quelques minutes. Il est souvent utilisé pour dupliqués de contenu, notamment dans les secteurs de l’e-commerce, de la formation en ligne, ou des blogs spécialisés. Si vous ne souhaitez pas que vos contenus soient aspirés et réutilisés sans autorisation, il est recommandé de bloquer HTTrack.
    User-agent: HTTrack
    Disallow: /
  • Wget : Wget est un utilitaire en ligne de commande, disponible sur la plupart des systèmes UNIX/Linux. Il permet de télécharger des pages web, des fichiers ou des arborescences entières via HTTP, HTTPS ou FTP. Grâce à ses nombreuses options, il est particulièrement efficace pour aspirer des sites de manière discrète, en simulant un comportement humain ou en limitant artificiellement la vitesse de téléchargement pour éviter d’être détecté. Il est utilisé aussi bien par des développeurs pour tester leurs propres serveurs que par des tiers malveillants pour copier ou analyser vos données sans en demander l’accès.
    User-agent: Wget
    Disallow: /
  • SiteSucker : SiteSucker est une application macOS (et iOS) qui permet aux utilisateurs de télécharger des sites web entiers sur leur appareil. L’interface simple et intuitive en fait un outil accessible à tous, y compris ceux qui n’ont aucune compétence technique. SiteSucker télécharge tous les fichiers nécessaires au fonctionnement local du site : pages HTML, images, vidéos, scripts, fichiers de style, etc. Bien qu’il soit conçu pour un usage personnel, il est parfois utilisé dans des contextes de plagiat ou pour créer des sites miroirs, ce qui peut porter atteinte à votre référencement ou à votre réputation en ligne.
    User-agent: SiteSucker
    Disallow: /

Bloquer ces agents utilisateurs dans votre fichier robots.txt est une première ligne de défense pour limiter la duplication non autorisée de votre contenu. Toutefois, gardez à l’esprit que ces outils peuvent ignorer ces consignes et accéder malgré tout aux pages. Il est donc conseillé de coupler cette mesure avec d’autres stratégies comme la mise en place de systèmes anti-scraping, de contrôles CAPTCHA, ou de limites d’accès basées sur l’analyse du comportement utilisateur ou de l’adresse IP.

Les robots douteux ou semi-malveillants qui se baladent sur le Web

Certains robots web ne sont pas directement malveillants, mais leur comportement peut nuire à la performance, à la sécurité ou à la pertinence stratégique de votre site. Ils se situent dans une zone grise : parfois utiles, parfois excessifs, voire carrément intrusifs. Ce sont souvent des robots de services tiers qui explorent les sites web sans but d’indexation dans les moteurs de recherche classiques, ou bien des crawlers de moteurs alternatifs peu utilisés par votre audience cible. Leur activité peut surcharger vos ressources serveur, altérer vos statistiques de trafic ou constituer une fuite d’informations commerciales. Voici une sélection de ces robots dits « semi-malveillants » ou « d’intérêt limité », avec les raisons pour lesquelles il peut être judicieux de les bloquer via le fichier robots.txt.

  • UptimeRobot : C’est un outil de surveillance de sites web qui vérifie la disponibilité des serveurs à intervalles réguliers. Il peut s’avérer très utile lorsqu’il est configuré par le propriétaire du site lui-même. Toutefois, certains utilisateurs externes ou prestataires de surveillance intègrent arbitrairement des sites tiers dans leurs listes de vérification, générant ainsi des requêtes fréquentes et non sollicitées. Ces accès ne servent aucun objectif de référencement, mais consomment inutilement des ressources système et peuvent masquer des vrais incidents de disponibilité si leur fréquence est excessive.
    User-agent: UptimeRobot
    Disallow: /
  • YandexBot : YandexBot est le robot du moteur de recherche Yandex, principalement utilisé en Russie et dans quelques pays de la CEI (Communauté des États Indépendants). À moins que votre activité ne vise spécifiquement des utilisateurs russophones ou localisés dans ces régions, autoriser ce robot n’apporte aucun avantage SEO. Pire, il peut explorer une grande quantité de pages, surchargeant votre infrastructure sans retombée en termes de visibilité ou de trafic qualifié. Dans un contexte où la souveraineté numérique est aussi un enjeu, certaines entreprises choisissent de bloquer les bots étrangers peu pertinents.
    User-agent: Yandex
    Disallow: /
  • Baiduspider : C’est le robot de Baidu, moteur de recherche dominant en Chine. Il est très actif et peut indexer massivement un site s’il détecte des signaux positifs. Cependant, son utilité dépend directement de votre stratégie d’expansion ou de présence sur le marché chinois. Pour un site localisé en Europe, en Afrique francophone ou en Amérique, les visites de Baiduspider sont généralement sans valeur ajoutée. De plus, la Chine appliquant des règles très strictes en matière de censure et d’accès à l’information, votre contenu risque de ne jamais apparaître dans les résultats de Baidu, même s’il est indexé.
    User-agent: Baiduspider
    Disallow: /
  • SeznamBot : Il est le robot d’indexation du moteur de recherche tchèque Seznam. Moins connu à l’international, ce moteur conserve une certaine part de marché en République tchèque. Toutefois, si votre activité n’a aucun lien avec cette zone géographique, autoriser son bot à explorer votre site est superflu. Il consommera des ressources sans effet mesurable sur votre référencement ou votre trafic organique.
    User-agent: SeznamBot
    Disallow: /

Bloquer ces robots peut contribuer à améliorer la stabilité de votre serveur, à fiabiliser vos rapports d’audience (notamment dans Google Analytics, Matomo ou Plausible), et à éviter des explorations inutiles par des bots non stratégiques. Le fichier robots.txt vous permet d’exercer un contrôle fin sur l’accès automatisé à votre site, mais il reste recommandé d’auditer régulièrement les logs serveur pour détecter d’autres robots non identifiés qui ne respecteraient pas vos consignes.

Bloquer les robots des outils d’intelligence artificielle

Avec la montée en puissance des modèles d’intelligence artificielle capables de générer du texte, du code ou des images à partir de données accessibles sur le web, de nouveaux types de robots font leur apparition. Il ne s’agit plus uniquement de crawlers destinés à l’indexation dans un moteur de recherche ou à l’analyse SEO, mais de robots conçus pour collecter du contenu afin d’alimenter des systèmes d’apprentissage automatique ou des assistants conversationnels. Ces bots sont parfois associés à des initiatives connues (comme OpenAI, Anthropic, Google AI, Perplexity ou You.com), mais d’autres sont moins transparents quant à leurs intentions. Ces robots peuvent explorer votre site afin de capturer des pages entières et les intégrer dans des corpus d’entraînement ou de réponse en temps réel. Le risque ? Voir votre contenu utilisé pour générer des réponses sur des plateformes tierces, sans attribution, sans trafic retour vers votre site, et potentiellement en concurrence directe avec votre propre offre éditoriale ou commerciale. Dans ce contexte, certains éditeurs choisissent désormais de bloquer ces bots pour protéger la valeur de leur contenu.

Voici quelques exemples de robots liés à des outils IA que vous pouvez choisir de bloquer via robots.txt :

  • GPTBot : Associé à OpenAI, ce robot est utilisé pour collecter des données utiles à l’entraînement ou à l’amélioration de modèles comme ChatGPT. Bien qu’il respecte le fichier robots.txt, il est important de décider si vous souhaitez que votre contenu soit indexé à cette fin.
    User-agent: GPTBot
    Disallow: /
  • CCBot : Utilisé par Common Crawl, une fondation qui alimente de nombreux projets d’intelligence artificielle, y compris des modèles linguistiques open source. Ce bot parcourt régulièrement le web et copie une grande quantité de contenu texte.
    User-agent: CCBot
    Disallow: /
  • AnthropicBot : Employé par la société Anthropic pour former des modèles tels que Claude. Bien qu’il soit relativement récent, il fonctionne de manière similaire à GPTBot et respecte également les règles du fichier robots.txt.
    User-agent: anthropic-ai
    Disallow: /
  • ClaudeBot : Variante spécifique du robot utilisé par Claude AI. Il peut apparaître séparément dans les logs de serveur selon la configuration.
    User-agent: ClaudeBot
    Disallow: /
  • PerplexityBot : Utilisé par Perplexity.ai, une plateforme qui répond aux questions en temps réel à partir du web. Ce bot peut extraire vos données pour alimenter des réponses automatiques sans générer de visites sur votre site.
    User-agent: PerplexityBot
    Disallow: /
  • YouBot : Le crawler de You.com, un moteur de recherche conversationnel basé sur l’intelligence artificielle. Il peut indexer et reformuler vos contenus dans ses réponses.
    User-agent: YouBot
    Disallow: /

Le blocage de ces bots IA est une décision stratégique. Si votre objectif est de garder le contrôle sur la diffusion, la monétisation et l’originalité de votre contenu, limiter l’accès à ces outils via robots.txt peut être pertinent. À noter toutefois que certains robots IA n’identifient pas encore clairement leur user-agent, ou peuvent masquer leur activité derrière d’autres agents utilisateurs génériques, ce qui rend leur détection plus complexe.

Le fichier robots.txt est un outil simple mais efficace pour contrôler qui accède à votre site web. Si certains robots doivent impérativement être autorisés (comme Googlebot ou Bingbot), d’autres peuvent ralentir votre serveur ou exploiter vos données sans votre consentement. Savoir quels robots bloquer dans un fichier robots.txt vous permet d’optimiser vos performances, de protéger vos contenus et de limiter les sollicitations non désirées. N’oubliez cependant pas que le robots.txt repose sur la bonne volonté du robot : pour les menaces plus sérieuses, des mesures de sécurité supplémentaires sont nécessaires (firewall, blocage IP, protection anti-scraping).

Xavier Deloffre

Xavier Deloffre

Fondateur de Facem Web, agence implantée à Arras et à Lille (Hauts-de-France), je suis spécialiste du Web Marketing, formateur expérimenté, et blogueur reconnu dans le domaine du Growth Hacking. Passionné par le référencement naturel (SEO) que j'ai découvert en 2009, j'imagine et développe des outils web innovants afin d'optimiser la visibilité de mes clients dans les SERPs. Mon objectif principal : renforcer leur notoriété en ligne par des stratégies digitales efficaces et créatives.

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Besoin de visibilité ?

☑️ Experts du référencement

☑️ + de 12 ans d’éxpérience

☑️ + 500 clients satisfaits

☑️ Création de sites

☑️ Audit SEO

☑️ Conseil SEO

☑️ Référencement de sites

☑️ Devis gratuit