
S
i votre site Web comporte des sous-domaines, vous devrez créer un fichier texte unique pour chaque partie. Cela signifie que le site principal aura son propre fichier robots.txt et, de même, chaque sous-domaine aura le sien.
Le fichier Robots.txt est utilisé pour faciliter l’analyse du site : grâce à la structure du fichier texte, le moteur de recherche est en mesure de reconnaître les zones du site qui peuvent être analysées et celles qui, au contraire, sont à éviter. Cela permet de définir une limitation pour les contenus qui ne sont pas importants et qui, selon le propriétaire du site, ne sont pas pertinents pour l’analyse et l’optimisation dans le moteur de recherche, ce qui simplifie et allège le processus global d’analyse. Il est permis, si on le souhaite, de restreindre l’accès à certains dossiers ou secteurs du site, demandant ainsi que le sujet particulier ne soit pas indexé.
Les moteurs de recherche scrutent régulièrement les sites web à la recherche de contenu à analyser et à optimiser. Les instructions émises par robots.txt, plus communément appelées directives, facilitent cette démarche, avec des explications précises à suivre à la lettre. Contrairement à d’autres, dont il n’y a aucune certitude, le moteur de recherche Google a ajouté une limitation. Elle nécessite un fichier robots.txt qui ne dépasse pas 500 ko. Si le fichier texte pèse plus que cela, Google ne suivra pas ses directives mais procédera comme si aucun fichier texte n’existait.
Cela signifie qu’en l’absence du fichier texte, les crawlers procéderont à une analyse complète du site, sans aucune limitation.
Comment reconnaître la présence ou l'absence du fichier texte robots.txt ?
La présence ou l’absence du fichier robots.txt peut être vérifiée à partir de la réponse que le spider reçoit lorsqu’il commence à analyser le site. En fonction du type de réponse qu’il reçoit, le crawler se déplace en conséquence. Si le code http 404 est présenté, le crawler comprendra que le site en question ne contient aucun fichier et analysera donc l’ensemble du site web. Au contraire, le code http 200 indique la présence du fichier, qui peut donc supporter des limitations que le spider devra suivre. Si le logiciel ne reçoit aucune réponse, c’est-à-dire s’il ne lit aucun code, le robot d’exploration n’analysera pas le site.
Écriture du fichier texte robots.txt
Après avoir établi l’importance de l’inclusion d’un fichier robots.txt dans votre répertoire principal, il est essentiel de pouvoir rédiger ce fichier texte le mieux possible. Insérer des directives sans les connaître, au lieu d’améliorer votre classement, pourrait finir par le détériorer. Si vous souhaitez modifier le texte ultérieurement, vous pouvez le faire manuellement ou en utilisant un plugin de référencement tel que Yoast SEO.
La présence d’un fichier correct, c’est-à-dire contenant des informations précises, permet de réaliser correctement la numérisation. Cela permet également d’éviter l’optimisation du contenu dupliqué, qui rend difficile le classement.
En outre, l’analyse du site doit être effectuée dans un certain délai. En d’autres termes, le logiciel doit respecter certains délais lors de l’analyse d’un site web. Les directives incluses dans le fichier robots.txt vous permettent de diriger le scan vers les fichiers principaux, afin de positionner votre contenu de la manière la plus stratégique.

Améliorer la visibilité du site : ce qu'il faut inclure dans le fichier robots.txt
La création du fichier robots.txt commence par un document .txt vide. Une fois les directives insérées et le fichier renommé ” robots.txt “, le fichier sera inséré, comme initialement écrit, dans le répertoire principal du serveur. Si vous préférez un guide, vous devriez créer votre document dans un générateur de fichier robots.txt, qui est également capable de reconnaître et d’éviter toute erreur. La première règle importante à retenir est que chaque directive doit être placée sur sa propre ligne. Rédiger le document sans séparer les instructions entraînerait une confusion pour le moteur de recherche et risquerait de créer des inexactitudes.
Chaque action que vous voulez effectuer comporte un certain libellé.
Prenons un exemple dans le fichier robots.txt :
User agent : Googlebot
Disallow : /Breadcrumb/
Allow : /Breadcrumb/google.pdf
Sitemap : https://www.nomdemonsite.fr/sitemap.xml
Vous voulez améliorer la visibilité et le classement de votre site ? Contactez un consultant en référencement naturel qui peut vous aider.
Robots.txt : la commande User Agent
Tout d’abord, vous vous tournez vers les user agents. C’est là que vous communiquez directement avec les moteurs de recherche, en déclarant que vous voulez adresser le travail à tous les moteurs, ou le limiter à quelques-uns. Si, par exemple, vous souhaitez travailler exclusivement sur Google, il est important d’inclure ce type de formulation : User-agent : Googlebot. Il est ainsi clair pour le robot d’exploration que vous ne voulez travailler que sur un moteur de recherche particulier. Si, par contre, vous voulez traiter avec tout le monde, sans aucune distinction, il suffit d’insérer un astérisque à la place du nom du moteur. L’astérisque, en effet, indique que l’action indiquée s’adresse à tous, sans exclusion.
Robots.txt, autorisations et limitations : allow, disallow et noindex
Dans la ligne de fond, la nomenclature ” disallow ” fait référence au contenu que vous ne souhaitez pas numériser. En insérant le dossier ” breadcrumb ” dans cette ligne, nous annonçons à Google qu’il doit éviter de le scanner. Au contraire, dans la ligne ” autoriser “, nous entrons dans le chemin qui peut être suivi et scanné.
Il est possible d’insérer différents dossiers, notamment si l’on veut éviter de scanner les fils d’Ariane, mais il faut faire une exception pour le fichier ” Google ” à l’intérieur du dossier ” fils d’Ariane “. C’est-à-dire qu’ils vous permettent de définir le chemin à prendre dans le crawl du moteur de recherche, afin de ne placer que ce que vous voulez.
La commande Disallow ne bloque cependant pas l’indexation des pages analysées par les spiders : la balise Noindex est nécessaire pour cela. De cette façon, les pages scannées ne seront pas incluses dans les SERP. Comme Google n’a jamais confirmé l’efficacité de cette commande, si elle est insérée dans le fichier robots.txt, de nombreuses personnes insèrent la méta robots noindex dans les pages qu’elles ne veulent pas indexer dans les moteurs de recherche.

Robots.txt : le signe du dollar et le dièse
Si vous incluez une URL dans les directives ” disallow ” ou ” allow “, vous pouvez ajouter un signe dollar ($) à la fin de celle-ci. Ce symbole vous permet d’empêcher l’exploration de toutes les URL se terminant par cette extension spécifique. Les commentaires peuvent être ajoutés soit au-dessus de la première ligne de la directive, soit à la fin de celle-ci. Si vous ajoutez un dièse (#) au début, ceux-ci ne seront pas pris en compte par le logiciel, mais peuvent être utiles lorsque vous traitez avec des développeurs ou des consultants. Le dièse détermine un texte qui n’intéressera pas le logiciel et ne le perturbera donc pas.
Robots.txt : la fonction du plan du site dans l'optimisation du site
La dernière ligne de la directive rapportée est celle du sitemap. En effet, le fichier texte robots.txt permet de signaler, afin de le préciser, la position du sitemap.xml aux moteurs de recherche. Le plan du site, qui n’est rien d’autre qu’un plan du site web, a été créé dans le but de rapporter une sorte d’index du site sur lequel on navigue. Un outil qui simplifie la recherche de l’utilisateur, lui permettant de trouver plus facilement les éléments qu’il recherche. Au sein du fichier texte robots.txt, les sitemaps ont pour mission d’organiser la structure du contenu du site de manière à faciliter son analyse par les moteurs de recherche. L’insertion de l’url du plan du site dans la directive, comme indiqué dans l’exemple, déclarera la présence du plan du site dans le site Web. Si vous vous retrouvez avec des sitemaps différents, vous pouvez les insérer et les spécifier dans le fichier texte robots.txt.
En utilisant une ligne de directive pour chaque sitemap, il est possible de les ajouter en utilisant les en-têtes sitemap-1.xml et ainsi de suite, signalant ainsi la présence de tous les sitemap.
Robots.txt, à quoi il sert : le résumé
Pour résumer, examinons l’utilisation du fichier robots.txt :
- bloquer l’accès des crawlers aux sections privées du domaine ;
- bloquer l’accès des moteurs de recherche aux scripts, index, utilitaires ou autres types de code ;
- bloquer l’indexation du contenu dupliqué sur le site ;
- simplifier l’analyse du plan de site XML.
Il n’est pas obligatoire de mettre en œuvre le fichier sur son propre site, mais au vu des nombreux avantages, c’est toujours recommandé, notamment en termes de SEO.
De plus, le robot Google arrive sur le site déjà équipé d’un budget de crawl, c’est-à-dire le nombre d’URL qu’il est capable d’analyser. Par conséquent, le fait d’indiquer les pages à exclure garantit que le robot utilise le budget uniquement pour les pages qui l’intéressent, en évitant de le gaspiller sur des pages non pertinentes ou même en double sur le site.