Question 1

Qu'est-ce que le fichier robots.txt ?

Accepted Answer

Le fichier robots.txt est un fichier texte placé à la racine d'un site web qui indique aux robots d'exploration (crawlers) quelles pages ou sections peuvent être explorées.

Il suit le Robots Exclusion Protocol (REP). Ce fichier est lu avant tout par Google, Bing et les autres moteurs de recherche.

Question 2

Où placer le fichier robots.txt ?

Accepted Answer

Le fichier robots.txt doit toujours être placé à la racine du domaine : https://votresite.com/robots.txt. Il ne peut pas être dans un sous-dossier. Si votre site utilise plusieurs sous-domaines, chaque sous-domaine doit avoir son propre fichier robots.txt.

Question 3

Disallow: / bloque-t-il vraiment tout ?

Accepted Answer

La directive Disallow: / interdit à un robot d'explorer toutes les pages du site. Cependant, Google peut quand même afficher l'URL dans les résultats s'il la découvre via un lien externe, sans en connaître le contenu.

Pour empêcher l'indexation, utilisez plutôt la balise meta robots noindex.

Question 4

Comment autoriser un seul moteur de recherche ?

Accepted Answer

Utilisez des blocs User-agent séparés. Par exemple : User-agent: Googlebot suivi de Allow: / autorise Google, puis User-agent: * suivi de Disallow: / bloque tous les autres robots.

L'ordre des blocs n'a pas d'importance, chaque robot s'applique les règles de son bloc.

Question 5

La directive Sitemap est-elle obligatoire ?

Accepted Answer

Non, la directive Sitemap est optionnelle mais fortement recommandée. Elle indique aux moteurs de recherche où trouver votre sitemap XML, ce qui accélère la découverte et l'indexation de vos pages.

Vous pouvez inclure plusieurs URLs de sitemap dans un même fichier robots.txt.

Générateur Robots.txt

Questions fréquentes