robots.txt IA : GPTBot, ClaudeBot, PerplexityBot

Q: Puis-je facturer OpenAI pour l'usage de mon contenu ?

Pas directement via robots.txt. OpenAI propose des partenariats payants à certains gros médias (NYT, Le Monde, etc.) qui négocient des accords commerciaux séparés. Pour les sites de taille moyenne, il n'existe pas encore de mécanisme de monétisation standard : c'est une zone grise juridique en évolution.

Q: Comment savoir quels bots IA visitent mon site ?

Trois sources. Logs serveur (Apache, Nginx, Node) : tu filtres les user-agents contenant "GPT", "Claude", "Perplexity", "Bot". Cloudflare : dashboard → Analytics → Security → Bot type. Outils dédiés : dark-visitors.com, ou plugins WordPress de monitoring bots. ---

Chaque jour, des dizaines de bots IA parcourent ton site. Les laisser tous accéder librement ou les bloquer en bloc sont deux mauvaises stratégies.

OpenAI, Anthropic, Perplexity, Google et Meta utilisent chacun plusieurs user-agents distincts. Certains servent à entraîner les modèles, d'autres à fournir des réponses en temps réel : ce sont les sources que ChatGPT cite quand on lui pose une question. Bloquer GPTBot bloque l'entraînement mais pas la visibilité dans ChatGPT. Bloquer OAI-SearchBot fait exactement l'inverse.

La majorité des robots.txt français traitent encore les bots IA comme un bloc unique. C'est une erreur de visibilité qui coûte cher.

Ce guide liste tous les user-agents à connaître en 2026, explique ce que chaque bot fait réellement, et donne quatre stratégies de configuration avec du code prêt à copier pour Next.js, WordPress et Shopify.

Pourquoi distinguer les bots IA en 2026 ?

Un fichier robots.txt indique aux robots ce qu'ils peuvent ou ne peuvent pas explorer sur ton site. C'est purement déclaratif : un bot peut ignorer tes règles s'il le décide. La plupart des grands éditeurs (OpenAI, Anthropic, Google) les respectent. Quelques scrapers chinois ou marketing ne les respectent pas.

En 2026, les bots IA se rangent en trois familles distinctes que tu dois traiter différemment.

Les bots d'entraînement alimentent les datasets qui servent à entraîner les futurs modèles (GPT-5, Claude 4, Gemini 3). GPTBot, ClaudeBot, Google-Extended, Meta-ExternalAgent, Bytespider en font partie. Les bloquer empêche ton contenu de servir à entraîner les modèles, mais n'affecte pas la visibilité dans les produits actuels.

Les bots de citation en temps réel crawlent ton site quand un utilisateur pose une question à l'IA. C'est ce qui permet à ChatGPT de citer ton site dans une réponse sourcée, ou à Perplexity de te référencer. OAI-SearchBot, Claude-Web, PerplexityBot appartiennent à cette catégorie. Les bloquer fait disparaître ton site des résultats IA.

Les bots agents sont la nouveauté 2026. Quand un utilisateur demande à ChatGPT ou Claude de réaliser une tâche sur le web (réserver, comparer, acheter), un agent navigateur visite ton site en son nom. ChatGPT-User, Perplexity-User, browser-use entrent dans cette catégorie. Les bloquer empêche les utilisateurs d'agir via leur agent IA.

Traiter ces trois familles avec une même règle, c'est passer à côté de 90% de l'enjeu GEO.

Liste complète des user-agents IA en 2026

Voici le tableau de référence des bots IA actifs en 2026, avec leur rôle et la recommandation par défaut pour un site TPE/PME français.

Bot	User-agent	Éditeur	Rôle	Recommandation
GPTBot	`GPTBot`	OpenAI	Entraînement modèles	À arbitrer
OAI-SearchBot	`OAI-SearchBot`	OpenAI	Citation ChatGPT Search	À autoriser
ChatGPT-User	`ChatGPT-User`	OpenAI	Agent navigation utilisateur	À autoriser
ClaudeBot	`ClaudeBot`	Anthropic	Entraînement modèles	À arbitrer
Claude-Web	`Claude-Web`	Anthropic	Citation Claude	À autoriser
anthropic-ai	`anthropic-ai`	Anthropic	User-agent legacy	À autoriser
PerplexityBot	`PerplexityBot`	Perplexity	Crawl + citation	À autoriser
Perplexity-User	`Perplexity-User`	Perplexity	Agent navigation	À autoriser
Google-Extended	`Google-Extended`	Google	Entraînement Gemini	À arbitrer
GoogleOther	`GoogleOther`	Google	Usages internes Google	À arbitrer
Meta-ExternalAgent	`Meta-ExternalAgent`	Meta	Entraînement Llama	À arbitrer
Bytespider	`Bytespider`	ByteDance	Entraînement IA TikTok	À arbitrer
Applebot-Extended	`Applebot-Extended`	Apple	Entraînement Apple Intelligence	À arbitrer
CCBot	`CCBot`	Common Crawl	Dataset public	À arbitrer
Diffbot	`Diffbot`	Diffbot	Crawl B2B / extraction	À arbitrer
cohere-ai	`cohere-ai`	Cohere	Entraînement modèles Cohere	À arbitrer
Mistral	`MistralAI-User`	Mistral	Agent Le Chat	À autoriser

Trois remarques utiles.

D'abord, Googlebot n'est pas listé ici. Il sert au SEO Google classique et tu veux évidemment qu'il continue à crawler. C'est Google-Extended qui sert à l'entraînement de Gemini et que tu peux bloquer indépendamment.

Ensuite, Bingbot et Bing AI partagent le même user-agent. Tu ne peux donc pas bloquer Copilot sans bloquer Bing, ce qui rend ce blocage rarement souhaitable.

Enfin, cette liste évolue tous les 3 à 6 mois. OpenAI a ajouté ChatGPT-User en avril 2024, OAI-SearchBot en août 2024, MistralAI-User début 2026. Surveille la documentation officielle des éditeurs ou les listes maintenues par Cloudflare et dark-visitors.com.

Le piège classique : confondre crawl d'entraînement et crawl de citation

C'est l'erreur que je vois sur 7 robots.txt sur 10 quand j'audite un site français.

Le scénario typique : un dirigeant lit un article sur "comment empêcher OpenAI de voler son contenu". Il ajoute User-agent: GPTBot / Disallow: / à son robots.txt. Trois mois plus tard, il s'étonne que son site n'apparaisse pas dans ChatGPT.

Le problème, c'est que GPTBot et OAI-SearchBot sont deux bots différents avec deux missions différentes.

GPTBot crawle pour entraîner les futurs modèles GPT. Si tu bloques GPTBot, ton contenu ne sera pas utilisé pour entraîner GPT-5, GPT-6, etc. C'est un choix éditorial légitime : certains médias français l'ont fait pour ne pas alimenter gratuitement la concurrence d'OpenAI.

OAI-SearchBot crawle pour répondre aux requêtes ChatGPT Search en temps réel. C'est lui qui visite ton site quand un utilisateur demande "quel restaurant à Asnières ?". Si tu le bloques, ton site ne peut plus être cité par ChatGPT.

Conclusion : bloquer GPTBot peut être un choix de souveraineté. Bloquer OAI-SearchBot est un suicide GEO.

Le même piège existe chez Anthropic (ClaudeBot vs Claude-Web) et chez Google (Google-Extended vs Googlebot).

Quatre stratégies pour configurer ton robots.txt en 2026

Voici les quatre configurations que je recommande selon ton profil. Tu peux copier-coller telle quelle celle qui correspond à ton cas.

Stratégie 1 — Ouverture totale (recommandée pour 95% des TPE/PME)

C'est la stratégie par défaut pour la majorité des sites. Tu veux apparaître dans ChatGPT, Perplexity, Claude et Google AI Overviews. Tu n'as rien à protéger en termes de propriété intellectuelle ultra-sensible.

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

C'est tout. Trois lignes. Tous les bots, IA ou pas, peuvent accéder à tout ton site. Maximum de visibilité, zéro complexité.

Stratégie 2 — Bloquer l'entraînement, autoriser la citation

Pour les médias, blogueurs avec contenu original fort, ou entreprises qui veulent du GEO sans alimenter gratuitement l'entraînement IA.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

Avec cette config, ton site n'alimente pas les datasets d'entraînement mais reste citable en temps réel par ChatGPT, Claude, Perplexity et Gemini.

Stratégie 3 — Ouverture sauf zones sensibles

Configuration classique pour un site qui a des espaces privés (admin, espace client, API interne).

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /wp-admin/
Disallow: /espace-client/
Disallow: /panier
Disallow: /checkout

Sitemap: https://tonsite.fr/sitemap.xml

Attention : ne bloque pas /wp-content/uploads/. Les images servent au GEO (Perplexity, ChatGPT Vision, Gemini).

Stratégie 4 — Blocage total IA (déconseillé pour la plupart)

Pour les sites avec contenu confidentiel, paywall strict, ou industries soumises à confidentialité forte.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: *
Allow: /

Sitemap: https://tonsite.fr/sitemap.xml

Avec cette config, tu disparais complètement des réponses IA. Pour un site B2B avec contenu très différenciant et clientèle obtenue par d'autres canaux, c'est défendable. Pour 99% des sites, c'est se tirer une balle dans le pied.

Implémentation pratique : Next.js, WordPress, Shopify

Next.js App Router

Avec Next.js 13+, tu as deux options. La plus propre est de créer un fichier app/robots.ts :

import { MetadataRoute } from 'next';

export default function robots(): MetadataRoute.Robots {
  return {
    rules: [
      {
        userAgent: ['GPTBot', 'ClaudeBot', 'Google-Extended'],
        disallow: '/',
      },
      {
        userAgent: '*',
        allow: '/',
        disallow: ['/admin/', '/api/'],
      },
    ],
    sitemap: 'https://tonsite.fr/sitemap.xml',
  };
}

Next.js génère automatiquement le fichier /robots.txt à la racine. Pas de redémarrage nécessaire, le contenu est servi statiquement.

WordPress

Trois méthodes selon ton équipement.

Avec Yoast SEO : SEO → Outils → Éditeur de fichiers → robots.txt. Yoast crée le fichier s'il n'existe pas et te permet de l'éditer directement.

Avec RankMath : RankMath SEO → Réglages généraux → Edit robots.txt. Même principe.

Sans extension : connecte-toi en FTP à la racine de ton site (au même niveau que wp-config.php), crée un fichier robots.txt avec le contenu voulu. WordPress laisse passer prioritairement le fichier physique.

Shopify

Shopify génère un robots.txt par défaut que tu peux customiser depuis 2021. Va dans Admin → Boutique en ligne → Thèmes → Modifier le code → Templates → Add a new template → robots.txt.liquid.

Edite le fichier liquid pour ajouter tes règles. Exemple pour bloquer les bots d'entraînement :

{% for group in robots.default_groups %}
  {{- group.user_agent }}
  {%- for rule in group.rules -%}
    {{ rule }}
  {%- endfor -%}
{%- endfor %}

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Pour Webflow, Framer, et autres builders : passe par leur interface SEO dédiée, ils gèrent rarement les bots IA en standard et il faut parfois passer en plan payant.

Vérifier que ton robots.txt fonctionne

Une fois ton fichier déployé, vérifie qu'il est lu correctement. Trois outils pour ça.

Google Search Console propose un testeur de robots.txt qui te montre comment Googlebot interprète ton fichier. Va dans Settings → Crawl stats → robots.txt. Tu peux tester ligne par ligne quelle URL est autorisée ou bloquée.

curl en ligne de commande te permet de simuler n'importe quel user-agent :

curl -A "GPTBot" https://tonsite.fr/
curl -A "OAI-SearchBot" https://tonsite.fr/
curl -A "PerplexityBot" https://tonsite.fr/

Si le bot reçoit une réponse 200, l'accès est autorisé. Si c'est un 403 ou un blocage applicatif, vérifie aussi ton firewall (Cloudflare, AWS WAF) qui peut bloquer un user-agent indépendamment du robots.txt.

Les outils tiers comme technicalseo.com/tools/robots-txt ou merkle.com/robots-txt-checker font le même travail avec une interface graphique.

Les 5 erreurs classiques à éviter

1. Bloquer OAI-SearchBot en pensant bloquer ChatGPT

C'est l'erreur n°1 vue dans les audits. La personne veut "se protéger d'OpenAI", bloque OAI-SearchBot, et perd toute visibilité dans ChatGPT Search. Si l'intention est de refuser l'entraînement, c'est GPTBot qu'il faut cibler.

2. Oublier que robots.txt est purement déclaratif

Un bot peut ignorer ton robots.txt. La plupart des grands éditeurs le respectent par convention, certains scrapers ne le respectent pas. Si tu as vraiment besoin de bloquer un crawler, passe par ton firewall (Cloudflare WAF, AWS WAF, fail2ban côté serveur).

3. Placer robots.txt ailleurs qu'à la racine

Le fichier doit être accessible à https://tonsite.fr/robots.txt, pas dans /seo/robots.txt ou /static/robots.txt. Sinon les bots ne le trouvent pas.

4. Bloquer /wp-content/uploads/ ou les dossiers images

Erreur fréquente sur WordPress quand on pense "protéger ses photos". Les images servent au GEO : Perplexity, ChatGPT Vision et Gemini les analysent pour comprendre le contexte de tes pages.

5. Oublier de tester après modification

Une virgule mal placée, un user-agent mal orthographié et toute ta règle saute. Teste systématiquement après chaque modification avec Search Console ou curl.

Au-delà du robots.txt — llms.txt et Cloudflare

Le robots.txt est l'outil historique mais il a deux limites en 2026 : il indique seulement ce qui est autorisé ou interdit, et il dépend du bon vouloir des bots.

Deux compléments à connaître.

llms.txt est un nouveau standard émergent en 2026. Au lieu de simplement autoriser/interdire, il fournit aux IA un sommaire structuré de ton site avec les pages importantes en Markdown. C'est un guide d'orientation, pas un filtre. Cloudflare, Vercel et Anthropic l'ont déployé en 2024-2025. Pour aller plus loin, lis notre guide complet llms.txt.

Cloudflare Bot Fight Mode et son nouveau AI Bot Blocker (sorti en 2026) permettent de bloquer les bots IA au niveau réseau, sans dépendre du robots.txt. C'est utile si tu veux vraiment empêcher un crawler malveillant. Disponible en plan gratuit Cloudflare avec quelques limitations.

Combinaison recommandée pour 2026 : robots.txt ouvert + llms.txt détaillé + Cloudflare en filet de sécurité si besoin.

FAQ

Faut-il bloquer GPTBot pour protéger son contenu ?

Bloquer GPTBot empêche ton contenu d'alimenter les futurs modèles GPT. C'est légitime si tu vends de l'information premium, si tu es un média, ou si tu refuses de fait alimenter gratuitement la concurrence. Pour une TPE/PME avec un site vitrine, le gain est nul et tu risques de te tromper de cible (cf. piège GPTBot vs OAI-SearchBot).

Quelle est la différence entre GPTBot et OAI-SearchBot ?

GPTBot crawle pour entraîner les modèles OpenAI futurs. OAI-SearchBot crawle pour répondre aux requêtes ChatGPT Search en temps réel. Bloquer GPTBot t'exclut des datasets d'entraînement. Bloquer OAI-SearchBot te fait disparaître de ChatGPT.

Combien de bots IA crawlent mon site chaque jour ?

Sur un site TPE/PME français avec 50-200 pages, compte typiquement 5 à 20 visites de bots IA par jour, tous éditeurs confondus. Sur un site média ou e-commerce avec 10 000+ pages, ça peut monter à plusieurs milliers de hits quotidiens. Vérifie tes logs serveur ou ton dashboard Cloudflare.

Les bots IA respectent-ils tous robots.txt ?

Les grands éditeurs (OpenAI, Anthropic, Google, Meta, Perplexity, Apple, Cohere) le respectent. Certains scrapers commerciaux (Bytespider, Diffbot) le respectent généralement. Des crawlers anonymes ou malveillants l'ignorent. Pour ces derniers, il faut un firewall.

Puis-je facturer OpenAI pour l'usage de mon contenu ?

Pas directement via robots.txt. OpenAI propose des partenariats payants à certains gros médias (NYT, Le Monde, etc.) qui négocient des accords commerciaux séparés. Pour les sites de taille moyenne, il n'existe pas encore de mécanisme de monétisation standard : c'est une zone grise juridique en évolution.

Le blocage robots.txt est-il rétroactif ?

Non. Si ton contenu a déjà été crawlé et intégré aux datasets d'entraînement d'un modèle, le bloquer aujourd'hui n'efface pas ce qui a déjà été appris. Tu ne fais que prévenir les futures captures. Pour la suppression rétroactive, il faut passer par les procédures de droit à l'oubli ou les formulaires de retrait des éditeurs (OpenAI accepte certaines demandes pour le contenu personnel).

Comment savoir quels bots IA visitent mon site ?

Trois sources. Logs serveur (Apache, Nginx, Node) : tu filtres les user-agents contenant "GPT", "Claude", "Perplexity", "Bot". Cloudflare : dashboard → Analytics → Security → Bot type. Outils dédiés : dark-visitors.com, ou plugins WordPress de monitoring bots.

La décision qui fait toute la différence

Si tu ne dois retenir qu'une chose : ne confonds jamais les bots d'entraînement (GPTBot, ClaudeBot, Google-Extended) et les bots de citation (OAI-SearchBot, Claude-Web, PerplexityBot). C'est là que se joue ta visibilité GEO, et c'est l'erreur que je vois le plus souvent en audit.

Pour le reste, la stratégie 1 ou 3 suffit à 95% des TPE/PME. Teste ton fichier après chaque modification, et complète-le avec un llms.txt pour guider activement les IA vers tes pages stratégiques.

Tu veux qu'on audite ton robots.txt actuel et qu'on vérifie ta visibilité dans ChatGPT, Claude et Perplexity ? Notre audit GEO en 48h couvre exactement ça. Et pour aller plus loin sur le standard émergent, lis notre guide llms.txt complet.

robots.txt pour les IA : guide GPTBot, ClaudeBot, PerplexityBot (2026)