Robots.txt : Comment et pourquoi bien le configurer

Le référencement va bien au-delà de la recherche de mots clés et de la création de backlinks. Il existe également un aspect technique du référencement (vitesse de page, adaptation pour mobile,…) qui aura un impact important sur votre classement de recherche.

Le fichier robots.txt fait partie de cet aspect technique du SEO.

D’après mon expérience, la plupart des gens ne connaissent pas trop les fichiers robots.txt ou alors ils en ont juste entendu parler. Je vous ai donc créé un article pour mieux comprendre ce fichier.

Table des matières

Qu’est-ce que le fichier robots.txt ?

Robots.txt est un fichier texte qui explique aux robots de Google comment explorer les pages d’un site Web. La plupart des moteurs de recherche (Google, Bing et Yahoo) suivent scrupuleusement les consignes donnés par notre fichier robots.txt.

Voici un exemple pour que vous puissiez mieux comprendre : Quand un automobiliste conduit sur la route, il va regarder les panneaux qui l’entourent… S’il y a un sens interdit, le conducteur va éviter la route. S’il y a une obligation de tourner à droite, le conducteur va tourner à droite. Ces panneaux nous donnent une règle de conduite afin de gérer au mieux la circulation.

Le fichier robots.txt va agir comme les panneaux et va donner « une règle de conduite » aux robots de Google (conducteur).

S’il n’y a pas de fichier robots.txt ou s’il n’y a pas de directives applicables, les moteurs de recherche exploreront l’intégralité du site Web.

Comment configurer un fichier robots.txt ?

Le fichier robots.txt joue un rôle essentiel dans le référencement naturel. Il indique aux moteurs de recherche comment explorer votre site Web. Avant de vous expliquer son importance, vous devez comprendre comment configurer un fichier robots.txt.

A quoi ressemble un fichier robots.txt

Je vais partir du principe que vous utilisez WordPress. Voici à quoi ressemble le fichier robots.txt généré par WordPress :

User-agent: *
Disallow: /wp-admin/

Et non, vous ne rêvez pas, le fichier robots.txt comporte uniquement deux lignes de code. Décortiquons maintenant le corps de ce fichier robots.txt :

User-agent: le “User-agent” indique pour quels moteurs de recherche les directives qui suivent sont destinées.
* : cela indique que les directives sont destinées à tous les moteurs de recherche.
“Disallow” : il s’agit d’une directive indiquant quel contenu n’est pas accessible au “User-agent”.
/wp-admin/ : C’est le “chemin” (la ressource) qui est inaccessible pour les robots (user-agent)

En résumé: notre fichier robots.txt indique à tous les moteurs de recherche de ne pas indexer les fichiers se trouvant dans le répertoire /wp-admin/. Quand on y pense c’est plutôt normal, on ne veut pas que Google indexe notre espace administrateur… Niveau sécurité ça craint !

Pour que vous puissiez modifier votre fichier robots.txt sans risque, nous allons voir les cinq variables que vous pouvez utiliser dans votre fichier.

User-agent

C’est la commande qui permet de choisir le robot d’exploration Web auquel vous donnez des instructions (généralement un moteur de recherche). Voici une liste des users-agent les plus connus :

Voyons maintenant ce que ça donne si on modifie un peu notre fichier avec les éléments ci-dessus :

User-agent: msnbot
Disallow: /wp-admin/

Dans cet exemple, on interdit uniquement le moteur de recherche Bing d’explorer les ressource se trouvant dans wp-admin. A ne surtout pas faire !!

Les directives peuvent s’appliquer à des agents utilisateurs spécifiques, mais elles peuvent également s’appliquer à tous les agents utilisateurs. On mettra alors dans ce cas : “User-agent: *”. Comme notre exemple de base.

Disallow

La commande “Disallow” est une variable utilisée pour indiquer à un user-agent de ne pas explorer une URL particulière. Veillez à rentrer une seule URL par ligne.

User-agent: *
Disallow: /category/

Dans l’exemple ci-dessus, j’interdis à tous les moteurs de recherche (robots) d’explorer les articles et pages se trouvant dans une catégorie quelconque.

Cette commande marche également si l’on veut bloquer l’accès à un fichier spécifique. Par exemple :

User-agent: *
Disallow: /category/private/sextape.mp4

Bon je pense que vous avez compris le principe, pas besoin d’expliquer ce que fait ce fichier robots.txt 😉

Allow

La commande “allow” est là pour indiquer à Googlebot (et uniquement Googlebot) qu’il peut accéder à un dossier ou un sous-dossier même si son dossier ou son sous-dossier parent est interdit.

Disallow: /category/
Allow: /category/seo/

Dans l’exemple ci-dessus, j’autorise les robots de Google à explorer uniquement les articles ou pages se trouvant dans la catégorie “SEO”. La commande “Allow” est juste là pour contrer la commande “Disallow”.

Sitemap

En utilisant la commande “sitemap”, vous pouvez indiquer aux moteurs de recherche où trouver votre sitemap. Bien sûr, vous pouvez également soumettre vos plans de site XML à chaque moteur de recherche à l’aide de leurs solutions respectives.

Sinon vous pouvez le faire en une seule fois en indiquant l’adresse url de votre sitemap dans votre fichier robots.txt.

Sitemap: https://www.objectif-affiliation.com/sitemap_index.xml

Quelle est l’importance du fichier robots.txt ?

Maintenant que vous savez utiliser parfaitement un fichier robots.txt, on va voir pourquoi il doit bien configurer et comment il peut améliorer notre SEO.

Accessibilité

Il est important que le fichier robots.txt soit bien configuré car il contrôle l’accès des robots qui explorent votre site. Imaginez que votre fichier robots.txt interdise à Googlebot d’explorer l’intégralité de votre site… Vos pages ne seraient pas indexé ou prendraient énormément de temps à s’indexer, ce qui n’est pas géniale pour votre référencement naturel.

Budget d’exploration

Si vous avez du mal à indexer toutes vos pages, il se peut que vous ayez un problème de budget d’exploration… Le budget d’exploration est le nombre de pages que Googlebot explore et indexe sur un site Web dans un délai donné. Si votre nombre de pages dépasse le budget d’exploration de votre site, vous allez avoir des pages sur votre site qui ne sont pas indexées.

La solution est de bloquer les pages sans importance avec le fichier robots.txt, comme ça Googlebot dépensera votre budget d’exploration uniquement sur les pages qui comptent réellement.

Comment tester son fichier robots.txt

Comme nous venons de le voir, Il est important que votre fichier robots.txt soit correctement configuré. Si une erreur venait à se glisser dans votre fichier, certaines de vos pages pourraient de jamais être indexé.

Mais heureusement, Google met à disposition un outil permettant de vérifier notre fichier robots.txt. Cet outil Robots Testing Tool !

Si vous avez lié votre site à un compte Google Search Console, la plateforme vous montrera directement le fichier robots.txt présent sur le site ainsi que les potentielles erreurs.