Robots.txt : Le guide

Par Ace Agency

26/08/2023

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt consiste en un document texte qui comporte des instructions conçues pour orienter les robots des moteurs de recherche. Il détermine les pages que ces robots ont la permission ou l’interdiction d’explorer.

Ces directives sont formulées sous forme d’autorisations ou d’interdictions pour réguler le comportement des différents robots d’exploration, qu’il s’agisse d’une autorisation spécifique ou générale.

Le format d’un tel fichier peut sembler complexe à première vue, mais sa syntaxe informatique est relativement simple. Nous entrerons dans les détails de cette syntaxe plus tard dans cet article.

Pourquoi est-il crucial de disposer d’un fichier robots.txt ?

Ce fichier joue un rôle central dans la régulation de l’activité des robots d’exploration des moteurs de recherche. Son objectif est d’éviter que ces robots ne surchargent votre site web avec des visites inutiles ou n’indexent des pages non destinées à être accessibles au public.

Voici quelques raisons pour lesquelles le fichier robots.txt est utilisé :

  1. Optimisation du budget de crawl : Le « budget de crawl » désigne le nombre de pages qu’un moteur de recherche, comme Google, peut explorer sur votre site à un moment donné. Ce nombre est influencé par la taille, la santé et les backlinks de votre site.

Il est crucial de gérer ce budget, car lorsque le nombre de pages dépasse ce budget, certaines pages risquent de ne pas être indexées. Cette situation peut entraîner l’absence de classement de ces pages pour des mots-clés.

En excluant les pages moins importantes à l’aide du fichier robots.txt, vous pouvez optimiser l’utilisation des ressources d’exploration du moteur de recherche, en les dirigeant vers les contenus les plus pertinents.

  1. Blocage des pages non pertinentes ou dupliquées : Toutes les pages d’un site web n’ont pas besoin d’être explorées et indexées par les moteurs de recherche. Cela s’applique particulièrement aux pages de résultats de recherche internes, aux pages dupliquées ou aux pages de connexion, qui ne sont pas destinées à être accessibles aux utilisateurs.

Le fichier robots.txt permet de bloquer l’exploration de ces pages par les robots d’exploration. Par exemple, WordPress bloque automatiquement l’accès au dossier /wp-admin/ pour tous les robots.

  1. Restriction d’accès aux ressources spécifiques : Parfois, il peut être nécessaire d’exclure des ressources telles que des fichiers PDF, des vidéos ou des images des résultats de recherche. Cela peut être motivé par la volonté de protéger la confidentialité de ces ressources ou de diriger l’attention des moteurs de recherche vers le contenu le plus important.

Dans de tels cas, le fichier robots.txt est un outil efficace pour empêcher l’indexation de ces ressources par les moteurs de recherche.

Comment fonctionne le fichier robots.txt ?

Ces fichiers fournissent des directives aux robots des moteurs de recherche concernant les URL qu’ils sont autorisés à explorer et celles qu’ils doivent éviter. Les moteurs de recherche ont deux missions principales :

  1. Exploration du web pour découvrir du contenu.
  2. Indexation du contenu afin de le rendre accessible aux internautes.

Lorsqu’un robot d’exploration arrive sur un site web, sa première action est de rechercher le fichier robots.txt. Si ce fichier est présent, le robot le consulte avant de commencer toute exploration.

La syntaxe du fichier robots.txt est relativement simple. Vous attribuez des règles aux robots en spécifiant leur agent utilisateur (le robot du moteur de recherche) suivi des directives. Un caractère générique, l’astérisque (*), peut également être utilisé pour appliquer des directives à tous les bots.

Comment localiser un fichier robots.txt ?

Le fichier robots.txt est stocké sur le serveur, de la même manière que tout autre fichier de votre site web.

Vous pouvez accéder au fichier robots.txt de n’importe quel site en ajoutant « /robots.txt » à la fin de l’URL de la page d’accueil.

Le fichier robots.txt doit toujours être situé à la racine de votre domaine. Pour le site www.exemple.com, son emplacement serait : www.exemple.com/robots.txt. Si le fichier n’est pas à la racine, les robots d’exploration supposeront qu’il n’existe pas.

N’hésitez pas à nous contacter ou à visiter notre blog pour plus de conseils sur le digital et accompagnement dans le domaine du web et du marketing.