Indexation Google : Comment bien indexer les pages de votre site web

La gestion de l’indexation reste une tâche extrêmement importante dans l’optimisation pour les moteurs de recherche (SEO). L’objectif est de ne faire indexer que les pages souhaitées par Google et d’éviter les doublons.
Il existe différents outils techniques qui permettent de contrôler les pages dans l’index Google. Mais si ces outils sont confondus ou mal utilisés, l’effet escompté peut être perdu ou des signaux négatifs peuvent même être envoyés au moteur de recherche. Dans cet article, je vous montre quels sont les outils existants et dans quels cas ils sont utilisés.
En tant que Consultant SEO, je peux vous accompagner dans l’élaboration de votre future stratégie de référencement.
Pourquoi la gestion de l’indexation est-elle importante en SEO ?
Il s’agit en premier lieu de ne mettre à la disposition de l’utilisateur et du moteur de recherche, que des pages qui offrent une valeur ajoutée. Or, les domaines accumulent au fil du temps, des pages sans contenu ou des doublons qui n’ont aucune pertinence pour l’utilisateur.
Pour simplifier, on parle de doublons lorsqu’il existe plusieurs pages au contenu très similaire ou exactement identique avec des URL différentes. Cela complique l’exploration et l’évaluation des pages par Google Bot et peut entraîner un classement moins bon ou un classement non souhaité du doublon au lieu de la page originale souhaitée.
Parallèlement, il existe des pages ou même des domaines entiers sur le domaine qui ne représentent certes pas des doublons, mais qui ne doivent pas pour autant apparaître dans l’index et donc dans les requêtes de recherche. Il peut s’agir par exemple de pages dans le processus de paiement, de pages de services ou encore de répertoires avec des images.
Comment savoir si mes pages sont indexés sur Google
Pour vérifier les pages actuellement indexées et identifier d’éventuels problèmes, il est possible d’utiliser ce que l’on appelle la requête de site de Google Search. Pour effectuer une requête de site, vous devez saisir dans la recherche Google : ” site:www.mon-site.fr “.
SCREEN SERP SITE :
Vous obtiendrez comme résultats de recherche toutes les URL qui se trouvent dans l’index. Si vous avez plusieurs sous-domaines, saisissez le domaine sans www. afin que toutes les pages soient affichées. Faites attention aux URLs avec des paramètres et/ou aux résultats qui n’ont pas de sens pour vous. Bien entendu, il n’est pas possible de vérifier chacune des milliers de pages indexées. Mais une première analyse devrait vous donner une idée générale de la qualité des pages indexées et vous permettre d’identifier des modèles en cas de problèmes éventuels.

Comment pousser l’indexation et éviter les doublons
Nous souhaitons à présent clarifier la question de la manipulation des pages existantes. Pour contrôler le crawling ou l’indexation, on utilise les outils suivants :
- Robot.txt
- Balise méta Robots
- Balises Canonical
Outre ces points, il existe bien sûr d’autres moyens pour annuler l’indexation des pages de votre site web à court ou à long terme, comme le code d’état 410 ou encore les redirections. Ces deux points sont toutefois appliqués à des pages qui n’existent plus et ne seront donc pas abordés dans un premier temps.
Pousser l’indexation de vos pages grâce à la Google Search Console
Vous pouvez également solliciter une demande d’indexation à Google grâce à l’outil Google Search Console. Cela permet de tester votre URL et d’indexer vos pages plus rapidement.
Pour se faire, allez dans l’onglet « Inspection de l’URL », ajoutez-y l’URL que souhaitez soumettre, vérifiez son état à l’aide du bouton « TESTER L’URL EN DIRECT » puis, appuyez sur « DEMANDE UNE INDEXATION ».

Le robots.txt
Structure du fichier robots.txt
Selon l’accord du protocole standard Robots-Exclusion, un crawler web (robot) qui trouve un site web lit d’abord le fichier robots.txt (en minuscules) dans le répertoire racine (“root”) d’un domaine. Dans ce fichier, il est possible de définir si et comment le site web peut être visité par un crawler web. Les exploitants de sites web ont ainsi la possibilité de bloquer certaines zones de leur présence sur le web pour (certains) moteurs de recherche.
Grâce à ce fichier, vous indiquez donc à Google quelles pages peuvent être visitées et quelles pages ne doivent pas l’être. Une structure de base pourrait par exemple ressembler à ceci :
- User-agent : *
- Désactiver : /wishlist/
- Désactiver : /admin.html
- Sitemap : https://www.mon-site.fr/sitemap_index.xml
Avec cette entrée dans le Robots.txt, vous autorisez les moteurs de recherche (User-Agent) à visiter toutes les pages, à l’exception des deux répertoires exclus. En outre, le chemin du sitemap est également affiché, ce qui permet aux moteurs de recherche de comprendre plus rapidement l’architecture du site.
Il faut toutefois mentionner ici que l’exclusion de certaines pages ou de certains répertoires dans le robots.txt n’empêche pas l’indexation de base et donc l’apparition dans les résultats de recherche. Cependant, la plupart des moteurs de recherche s’en tiennent aujourd’hui à cette indication dans le fichier.
Conseil : Pensez à soumettre également le sitemap à la Search Console.
Balise Méta Robots
Structure et variations des balises meta
La balise méta mentionnée ci-dessus sert à contrôler le comportement du crawler ou des robots Google (ainsi que des autres crawlers web). Il existe quatre valeurs qui peuvent également être combinées entre elles :
- “index” : la page est indexée
- “noindex” : la page n’est pas indexée
- “follow” : suivre les liens sur la page en question
- “nofollow” : ne pas suivre les liens sur la page concernée.
Si cette balise n’est pas activée sur un site web, la page concernée est indexée par le crawler et tous les liens sont suivis. Cela correspond donc à cette balise :
- <meta name=”robots” content=”index, follow”>.
Si une page ne doit pas être indexée, mais que les liens doivent être suivis, la balise suivante est utilisée :
- <meta name=”robots” content=”noindex, follow”>.
Balise canonical
Structure de la balise canonical
Lors de la mise en place de la balise Canonical, il est possible d’indiquer au robot Google une page préférée (page canonique) parmi plusieurs pages ayant un contenu très similaire ou identique. Cette méthode est souvent utilisée pour les pages de filtrage. En règle générale, il est recommandé de placer la balise Canonical sur toutes les pages. S’il n’y a pas de contenu dupliqué pour une page, la balise Canonical renvoie à la page sur laquelle elle est implémentée (en tant que page canonique). La balise Canonical aurait donc la structure suivante :
- Page canonique : http://monsite.fr/article1.html
- Balise canonical : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
S’il existe pour cette page une autre page avec un contenu très similaire ou identique, le Canonical doit renvoyer à la page d’origine (page canonique). La même balise canonical que celle de la page canonique est donc affichée sur le doublon. Cela correspond à cette structure :
- Page (dupliqué) : http://monsite.fr/article1.html?parameter1¶meter2
- Balise canonique : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
Il faut toutefois mentionner ici que l’activation de cette balise n’empêche pas nécessairement l’indexation des pages concernées. Si les pages ou les répertoires doivent être exclus de l’index, il faut travailler avec la balise méta “robots”.
CONCLUSION : Tout connaitre de l’indexation Google
Les méthodes présentées ici vous permettent d’éviter les doublons de manière simple et efficace et de décider vous-même quelles pages doivent être prises en compte par Google dans l’indexation. Vérifiez vous-même de temps en temps, à l’aide de la requête de site, quelles pages se trouvent actuellement dans l’index. Si vous avez besoin d’informations supplémentaires ou si vous avez encore des questions, je suis bien sûr à votre disposition dans les commentaires de cet article. :- )
WordPress : Le meilleur CMS pour créer un site web de A à Z

Wordpress est le système de gestion de contenu le plus populaire sur le marché et, de plus, le plus répandu. Grâce à la communauté importante et active qui en résulte, une assistance complète est garantie. WordPress permet d’éditer visuellement des pages web en ligne et s’adapte très facilement aux différentes exigences.
WordPress est modulable à l’infini. Avec plus de 40.000 plugins, WordPress offre une fonctionnalité énorme.
Grâce aux nombreux thèmes, le design web de WordPress peut également être très facilement adapté et offre une mise en page adaptée à tous les goûts. Cependant, faites appel à un professionnel du SEO si vous souhaitez être accompagné sur votre stratégie de référencement WordPress.
Aujourd’hui, plus de 36% des sites web sont basés sur le CMS WordPress, qui connaît un grand succès. WordPress ne s’adresse pas seulement aux débutants, mais aussi aux utilisateurs avancés et aux professionnels. Au départ, l’application open source n’était qu’un logiciel de blog. En 2020, WordPress s’est toutefois transformé en un puissant système de gestion de contenu (CMS).
D’anciens CMS ont été victimes de la place de leader qu’occupe WordPress et des CMS comme Joomla ou Drupal font désormais partie du passé. Même le très complexe Typo3 tremble désormais devant WordPress et s’est retranché dans sa propre niche de CMS.
Mais qu’est-ce que WordPress exactement ? Développé en 2003 comme logiciel de blogging, WordPress est aujourd’hui le leader du marché des systèmes de gestion de contenu. WordPress est une solution open source pour presque toutes les tâches qu’un site web moderne ou une plateforme web doit remplir aujourd’hui. Il existe des milliers d’extensions fonctionnelles, également appelées plugins, qui offrent la meilleure solution pour presque toutes les exigences.
Grâce à la grande communauté derrière WordPress, le CMS est en constante évolution. La grande convivialité et l’adaptabilité permettent une prise en main facile. L’installation en cinq minutes facilite un démarrage rapide de votre premier site web.
WordPress : Le CMS le plus utilisés dans le monde
WordPress, en tant que solution open source, est le leader du marché en matière de systèmes de gestion de contenu. Selon les statistiques de W3Techs, plus de la moitié des sites web CMS utilisent WordPress. D’autres systèmes de gestion de contenu comme Joomla, Drupal ou Typo3 suivent de loin. Près d’un site Internet sur quatre est un site WordPress. La version actuelle de WordPress a été téléchargée, selon ses propres indications, 42 millions de fois.
L’avantage de WordPress réside donc dans sa large diffusion. Il en résulte quelques avantages qui parlent en faveur de WordPress :
- La grande communauté assure un support unique.
- De nombreux sites web traitent de WordPress et l’on trouve ainsi rapidement, grâce à Google, des réponses à toutes les questions relatives à WordPress.
- Plus de 43.000 plugins offrent la fonctionnalité adéquate pour chaque exigence. (Plugin de sécurité, d’optimisation de votre vitesse de chargement…)
- La très grande communauté de développeurs assure une installation sûre de WordPress.
- WordPress est optimisé pour les débutants du web et vise une utilisation particulièrement simple.
- Il existe de nombreux freelances WordPress, ce qui permet d’obtenir rapidement de l’aide de partout.
- Les failles de sécurité peuvent être rapidement comblées.
- Des milliers de thèmes premium confèrent à votre site WordPress un design web unique.
Comment fonctionne WordPress ?
WordPress est basé sur le langage de script PHP et stocke toutes les données dans une base de données (MySQL) sur le serveur web. Pour que cela fonctionne, le fournisseur d’hébergement web doit prendre en charge PHP et MySQL.
Pour simplifier, WordPress peut être considéré comme un logiciel qui s’exécute sur le propre espace web et génère ainsi le site web de manière dynamique. Qu’est-ce que cela signifie exactement ?
WordPress se divise en un frontend et un backend. Le frontend désigne le site web proprement dit, c’est-à-dire ce que le visiteur voit. Dans le backend, le webmaster peut ajouter des contenus, créer des pages et des contributions et télécharger et placer des images. Le backend de WordPress reste caché au visiteur du site. Il sert à la gestion du site web par le webmaster.
Le principal avantage de WordPress : Les Thèmes & les plugins
Le design web de votre site WordPress peut être adapté via le thème WordPress activé. D’un point de vue technique, un thème se compose de fichiers CSS et de modèles qui forment la structure de base HTML de votre site web. Des milliers de thèmes prédéfinis, gratuits ou payants, offrent l’embarras du choix lorsqu’il s’agit du design d’un site WordPress. En un clic, le site WordPress change complètement d’aspect. Les thèmes WordPress peuvent être activés à volonté dans le backend. Le thème WordPress permet donc de contrôler le design du site.
Plus de 43.000 plugins WordPress fournissent des fonctionnalités supplémentaires pour votre projet web. Ces plugins WordPress sont en partie gratuits et en partie payants. Les plugins permettent d’ajouter des fonctions supplémentaires à votre site WordPress.
L’installation d’un plugin WordPress est un jeu d’enfant et se fait en deux clics. Grâce à la grande communauté WordPress, il existe désormais un plugin WordPress pour chaque exigence, même la plus spécifique.
- Plugin Yoast SEO pour vous aider dans l’élaboration de votre SEO
- Plugin Imagify pour réduire le poids de vos images
- Elementor afin de créer votre site web de A à Z en drag & drop
Editer facilement vos propres contenus grâce à WordPress
Les contenus de WordPress peuvent être édités avec un éditeur web (TinyMCE). Il existe deux modes différents : l’éditeur visuel et l’éditeur de texte.
L’éditeur visuel est ce que l’on appelle un éditeur WYSIWYG. WYSIWYG signifie “What you see is what you get” – en français : ce que tu vois, c’est ce que tu obtiens. Avec cet éditeur, il est possible d’effectuer des mises en forme de texte et d’insérer des images sans connaissances en programmation. La fonctionnalité de l’éditeur visuel ressemble par exemple à celle de Microsoft Word.
L’éditeur de texte permet à l’utilisateur avancé de WordPress de travailler directement sur le texte source du site web. Ici, toutes les balises HTML peuvent être utilisées pour éditer votre site web.
Le guide complet du plug-in Yoast SEO pour votre référencement WordPress
Avec plus de 5 millions d’installations, Yoast SEO est l’un des plugins WordPress SEO les plus populaires. Je l’ai également utilisé pendant longtemps et je vais vous montrer à travers ce guide complet, comment configurer le plugin. Outre les paramètres avancés, je vous explique brièvement comment optimiser votre contenu pour les moteurs de recherche.
Dans un premier temps, non, le plugin ne se charge pas de l’optimisation pour les moteurs de recherche !
Il offre cependant toutes les conditions pour optimiser votre site web pour les moteurs de recherche. La plupart des utilisateurs ne connaissent et n’utilisent qu’une petite partie des fonctions de Yoast SEO. Le plugin ne se limite cependant pas à la Meta Box située sous tes articles et tes pages !
A travers ce guide complet du plug-in Yoast, vous trouverez les paramètres les plus importants pour les blogs et quelques conseils pour mieux utiliser le plugin ! Et si jamais vous souhaitez être accompagné par un consultant SEO afin de générer davantage de trafic, n’hésitez pas à me contacter. 😊
Les paramètres généraux de Yoast SEO
Après l’installation et l’activation du plugin, vous trouverez une nouvelle boîte intitulée ” Yoast SEO ” en dessous de vos pages, articles, catégories, etc.
Je suppose que vous connaissez cette boîte et que vous l’utilisez déjà.
Mais connaissez-vous les nombreuses possibilités de réglage qui concernent globalement votre site ?
Modèle pour votre balise de titre
Vous devriez saisir un modèle pour les balises Title de vos pages pour lesquelles vous n’attribuez pas manuellement de balise Title propre. Il peut s’agir d’articles, mais aussi de pages ou d’archives.
Directement depuis le plug-in, vous trouverez les configurations correspondantes dans le menu sous ” SEO ” -> ” Types de publications “. Vous pouvez y entrer le modèle par défaut des balises Title et Méta Description pour certains types de pages.
Normalement, vous pouvez conserver le modèle déjà enregistré, sauf, si bien sûr vous souhaitez changer quelque chose. Le charabia que vous rencontrez dans le champ de saisie est constitué de variables. Ces variables récupèrent certains textes et les insèrent dans la balise Title.
Les variables déposées par Yoast SEO pour les balises Title des articles se présentent comme suit :
%%title%% %%page% %%sep%% %%nom du site%%%.
Cela signifie que le titre que vous avez saisi sera d’abord utilisé. Si l’article a plusieurs pages, le numéro de la page est ensuite lu, suivi d’un séparateur (peut être trouvé sous ” SEO ” -> ” Réglages SEO ” -> ” Séparateur de titre “.
Si vous souhaitez modifier ce modèle standard, vous trouverez ici les variables possibles. Pour ma part, je laisse le modèle par défaut, car je saisis de toute façon toujours les balises Title et Description manuellement.

Dans cet élément de menu, vous pouvez également placer certains types de pages en noindex (ne sont pas affichés dans les résultats de recherche).
Noindex, Follow & désactivation des pages d'archives
Le CMS WordPress crée automatiquement des pages dites « d’archives ». Celles-ci se composent par exemple de tous les articles qui sont attribués à une certaine catégorie, un mot-clé ou un auteur.
Si vous utilisez des catégories ou des mots-clés, vous devriez en tout cas mettre ces pages d’archives sur ” index ” sous ” SEO ” -> ” Titre & Metas ” ->” Taxonomies “. J’ai désactivé les archives d’auteurs sur ce blog, tout comme les archives de dates, car je ne fais référence nulle part aux pages d’auteurs et je ne les utilise pas non plus.

Le sitemap XML généré par Yoast SEO
L’importance des sitemaps XML n’est plus un secret pour personne. Ils aident les moteurs de recherche à voir l’ensemble de votre site web et toutes les sous-pages.
Yoast SEO offre la possibilité d’activer et de configurer les sitemaps dans l’onglet ” SEO ” -> ” Réglages généraux ” -> ” Plan de site XML “.
Le sitemap XML devrait en tout cas être activé pour que vous puissiez le soumettre à la Google Search Console. Il est alors accessible sous : votresite.fr/sitemap_index.xml.
Sous l’onglet ” Types de publications “, dans ” Réglages SEO “, vous pouvez définir quels types de pages doivent être listés dans le sitemap. Les articles, les pages et les médias doivent être activés dans tous les cas. En outre, vous pouvez exclure des contributions à l’aide de leur ID dans l’onglet ” Contributions exclues ” et définir les taxonomies à inclure dans le plan du site sous ” Taxonomies “. Si vous utilisez des catégories ou des mots-clés, vous pouvez les activer. Si vous ne les utilisés pas, je vous conseille de les désactiver.
Yoast SEO ne propose pas uniquement des possibilités d’optimisation pour les moteurs de recherche, mais aussi pour Facebook, Twitter & Co. Sous ” SEO ” -> “Réseaux sociaux “, vous pouvez lier votre site web à vos médias sociaux afin d’attirer l’attention des moteurs de recherche sur cette connexion.

Paramètre des réseaux sociaux
L’onglet ” Facebook ” permet en outre d’ajouter ce que l’on appelle les ” Open Graph Data “. Ces données font en sorte que votre page d’accueil, lorsqu’elle est partagée sur Facebook, soit bien présentée. Vous pouvez définir le titre, la description et l’image qui doit apparaître lorsque vous partagez votre page d’accueil.
Ce qui est très pratique, c’est que vous pouvez enregistrer une image qui sera toujours utilisée si vous n’avez pas défini d’image individuelle pour une page ou une publication.
Sous ” Twitter “, vous pouvez activer la Twitter Card et choisir le format souhaité. L’onglet ” Pinterest ” offre également la possibilité de relier votre site web à ce réseau.
Connectez vos outils de Webmaster à votre compte Yoast SEO
Pour éviter d’avoir besoin d’autres plug-ins, Yoast SEO permet de connecter votre site web aux outils pour webmasters Google, Bing, Yandex et Baidu.
Paramètres spécifiques aux pages et aux messages
Maintenant que les configurations les plus importantes concernant l’ensemble de votre blog ou de votre site ont été expliquées et effectuées, passons aux configurations spécifiques des pages et aux messages. Ces réglages ne concernent que la page, le message, la catégorie, etc. sur laquelle vous les effectués. Ils remplacent les réglages par défaut effectués précédemment.
Vous trouvez ces réglages dans la Yoast SEO Meta Box en dessous de l’éditeur. Si vous ne la voyez pas, cliquez tout en haut à droite sur ” Personnaliser l’affichage ” et cochez la case ” Yoast SEO “.
Aperçu Google & adaptation des balises Title et Description
Cette section de la Yoast SEO Meta Box est probablement celle qu’utilisent la plupart des personnes. Dans l’aperçu de Google, vous pouvez voir à quoi ressemblera votre page dans les résultats de recherche Google.
Vous pouvez modifier les trois parties de l’aperçu Google directement depuis l’éditeur de votre nouvelle page/ article. N’oubliez pas que la balise Title est extrêmement pertinente pour les moteurs de recherche et les utilisateurs, que l’URL joue également un rôle crucial, mais que la balise Méta Description n’est pas prise en compte par les moteurs de recherche, mais n’est pertinente que pour les utilisateurs !

Analyse de lisibilité et couleurs propulsés par le plugin Yoast SEO
Au-dessus de l’aperçu Google se trouve un onglet appelé ” Lisibilité “. Il s’agit de l’analyse de la valeur de Flesch et d’autres valeurs pour évaluer la lisibilité. La quantité de mots après les sous-titres permet de vérifier si votre texte présente une bonne structure. La longueur des phrases est également analysée, ainsi que d’autres facteurs.
Cette analyse est très pratique, car dans le flux d’écriture, on ne se rend souvent pas compte de la longueur des phrases et des paragraphes. En revanche, cela n’est pas à prendre au pied de la lettre, parfois certaines métriques ne sont pas cohérentes avec la longueur ou la pertinence de votre article.

Données Facebook & Twitter (Open Graph)
C’est ici que vous pouvez saisir le titre, la description et l’image qui doit apparaître lors du partage de la page sur Facebook et Twitter. Il est incroyablement important que vous remplissiez les champs pour Facebook et Twitter. Même si vous ne partagez pas vos pages et vos articles via ces deux canaux, beaucoup d’autres le font ! Si l’aperçu de la page n’est pas optimisé, vous perdez de nombreux lecteurs potentiels.
Pour l’image, ne prenez pas la même que celle que vous utilisez pour la publication. Facebook et Twitter ont certaines directives concernant la taille d’affichage d’une image. Si ce format n’est pas respecté, certaines parties de l’image peuvent être coupées ou l’image peut être pixellisée dans son ensemble. Découpez donc les images en fonction des différents réseaux sociaux !

Contrôler les Meta Robots
Dans l’onglet « avancé » de la Yoast SEO Box, vous arrivez dans les paramètres avancés. Ici, vous devez faire attention, car vous pouvez causer des problèmes avec de mauvais réglages.
Dans cette fenêtre, vous pouvez contrôler les Meta Robots. Vous pouvez par exemple définir que la page soit sur noindex, c’est-à-dire qu’elle ne puisse pas être indexée. Vous pouvez également indiquer si les crawlers doivent suivre les liens ou non (follow / nofollow), vous pouvez également saisir une URL canonique pour éviter le duplicate content.
Dans 99% des cas, vous ne devez rien régler ici !

Connaissiez-vous déjà ces possibilités de réglage ou n’avez-vous utilisé jusqu’à présent que la Yoast SEO Meta Box sous les articles et les pages ? Si c’est le cas, quelles sont les nouvelles options que vous avez découvertes et qui vous semblent les plus intéressantes ? Je serais très heureux de recevoir vos commentaires ! 😊
Robots.txt : Ce qu’il est, à quoi il sert et quels sont ses avantages ?

S
i votre site Web comporte des sous-domaines, vous devrez créer un fichier texte unique pour chaque partie. Cela signifie que le site principal aura son propre fichier robots.txt et, de même, chaque sous-domaine aura le sien.
Le fichier Robots.txt est utilisé pour faciliter l’analyse du site : grâce à la structure du fichier texte, le moteur de recherche est en mesure de reconnaître les zones du site qui peuvent être analysées et celles qui, au contraire, sont à éviter. Cela permet de définir une limitation pour les contenus qui ne sont pas importants et qui, selon le propriétaire du site, ne sont pas pertinents pour l’analyse et l’optimisation dans le moteur de recherche, ce qui simplifie et allège le processus global d’analyse. Il est permis, si on le souhaite, de restreindre l’accès à certains dossiers ou secteurs du site, demandant ainsi que le sujet particulier ne soit pas indexé.
Les moteurs de recherche scrutent régulièrement les sites web à la recherche de contenu à analyser et à optimiser. Les instructions émises par robots.txt, plus communément appelées directives, facilitent cette démarche, avec des explications précises à suivre à la lettre. Contrairement à d’autres, dont il n’y a aucune certitude, le moteur de recherche Google a ajouté une limitation. Elle nécessite un fichier robots.txt qui ne dépasse pas 500 ko. Si le fichier texte pèse plus que cela, Google ne suivra pas ses directives mais procédera comme si aucun fichier texte n’existait.
Cela signifie qu’en l’absence du fichier texte, les crawlers procéderont à une analyse complète du site, sans aucune limitation.
Comment reconnaître la présence ou l'absence du fichier texte robots.txt ?
La présence ou l’absence du fichier robots.txt peut être vérifiée à partir de la réponse que le spider reçoit lorsqu’il commence à analyser le site. En fonction du type de réponse qu’il reçoit, le crawler se déplace en conséquence. Si le code http 404 est présenté, le crawler comprendra que le site en question ne contient aucun fichier et analysera donc l’ensemble du site web. Au contraire, le code http 200 indique la présence du fichier, qui peut donc supporter des limitations que le spider devra suivre. Si le logiciel ne reçoit aucune réponse, c’est-à-dire s’il ne lit aucun code, le robot d’exploration n’analysera pas le site.
Écriture du fichier texte robots.txt
Après avoir établi l’importance de l’inclusion d’un fichier robots.txt dans votre répertoire principal, il est essentiel de pouvoir rédiger ce fichier texte le mieux possible. Insérer des directives sans les connaître, au lieu d’améliorer votre classement, pourrait finir par le détériorer. Si vous souhaitez modifier le texte ultérieurement, vous pouvez le faire manuellement ou en utilisant un plugin de référencement tel que Yoast SEO.
La présence d’un fichier correct, c’est-à-dire contenant des informations précises, permet de réaliser correctement la numérisation. Cela permet également d’éviter l’optimisation du contenu dupliqué, qui rend difficile le classement.
En outre, l’analyse du site doit être effectuée dans un certain délai. En d’autres termes, le logiciel doit respecter certains délais lors de l’analyse d’un site web. Les directives incluses dans le fichier robots.txt vous permettent de diriger le scan vers les fichiers principaux, afin de positionner votre contenu de la manière la plus stratégique.

Améliorer la visibilité du site : ce qu'il faut inclure dans le fichier robots.txt
La création du fichier robots.txt commence par un document .txt vide. Une fois les directives insérées et le fichier renommé ” robots.txt “, le fichier sera inséré, comme initialement écrit, dans le répertoire principal du serveur. Si vous préférez un guide, vous devriez créer votre document dans un générateur de fichier robots.txt, qui est également capable de reconnaître et d’éviter toute erreur. La première règle importante à retenir est que chaque directive doit être placée sur sa propre ligne. Rédiger le document sans séparer les instructions entraînerait une confusion pour le moteur de recherche et risquerait de créer des inexactitudes.
Chaque action que vous voulez effectuer comporte un certain libellé.
Prenons un exemple dans le fichier robots.txt :
User agent : Googlebot
Disallow : /Breadcrumb/
Allow : /Breadcrumb/google.pdf
Sitemap : https://www.nomdemonsite.fr/sitemap.xml
Vous voulez améliorer la visibilité et le classement de votre site ? Contactez un consultant en référencement naturel qui peut vous aider.
Robots.txt : la commande User Agent
Tout d’abord, vous vous tournez vers les user agents. C’est là que vous communiquez directement avec les moteurs de recherche, en déclarant que vous voulez adresser le travail à tous les moteurs, ou le limiter à quelques-uns. Si, par exemple, vous souhaitez travailler exclusivement sur Google, il est important d’inclure ce type de formulation : User-agent : Googlebot. Il est ainsi clair pour le robot d’exploration que vous ne voulez travailler que sur un moteur de recherche particulier. Si, par contre, vous voulez traiter avec tout le monde, sans aucune distinction, il suffit d’insérer un astérisque à la place du nom du moteur. L’astérisque, en effet, indique que l’action indiquée s’adresse à tous, sans exclusion.
Robots.txt, autorisations et limitations : allow, disallow et noindex
Dans la ligne de fond, la nomenclature ” disallow ” fait référence au contenu que vous ne souhaitez pas numériser. En insérant le dossier ” breadcrumb ” dans cette ligne, nous annonçons à Google qu’il doit éviter de le scanner. Au contraire, dans la ligne ” autoriser “, nous entrons dans le chemin qui peut être suivi et scanné.
Il est possible d’insérer différents dossiers, notamment si l’on veut éviter de scanner les fils d’Ariane, mais il faut faire une exception pour le fichier ” Google ” à l’intérieur du dossier ” fils d’Ariane “. C’est-à-dire qu’ils vous permettent de définir le chemin à prendre dans le crawl du moteur de recherche, afin de ne placer que ce que vous voulez.
La commande Disallow ne bloque cependant pas l’indexation des pages analysées par les spiders : la balise Noindex est nécessaire pour cela. De cette façon, les pages scannées ne seront pas incluses dans les SERP. Comme Google n’a jamais confirmé l’efficacité de cette commande, si elle est insérée dans le fichier robots.txt, de nombreuses personnes insèrent la méta robots noindex dans les pages qu’elles ne veulent pas indexer dans les moteurs de recherche.

Robots.txt : le signe du dollar et le dièse
Si vous incluez une URL dans les directives ” disallow ” ou ” allow “, vous pouvez ajouter un signe dollar ($) à la fin de celle-ci. Ce symbole vous permet d’empêcher l’exploration de toutes les URL se terminant par cette extension spécifique. Les commentaires peuvent être ajoutés soit au-dessus de la première ligne de la directive, soit à la fin de celle-ci. Si vous ajoutez un dièse (#) au début, ceux-ci ne seront pas pris en compte par le logiciel, mais peuvent être utiles lorsque vous traitez avec des développeurs ou des consultants. Le dièse détermine un texte qui n’intéressera pas le logiciel et ne le perturbera donc pas.
Robots.txt : la fonction du plan du site dans l'optimisation du site
La dernière ligne de la directive rapportée est celle du sitemap. En effet, le fichier texte robots.txt permet de signaler, afin de le préciser, la position du sitemap.xml aux moteurs de recherche. Le plan du site, qui n’est rien d’autre qu’un plan du site web, a été créé dans le but de rapporter une sorte d’index du site sur lequel on navigue. Un outil qui simplifie la recherche de l’utilisateur, lui permettant de trouver plus facilement les éléments qu’il recherche. Au sein du fichier texte robots.txt, les sitemaps ont pour mission d’organiser la structure du contenu du site de manière à faciliter son analyse par les moteurs de recherche. L’insertion de l’url du plan du site dans la directive, comme indiqué dans l’exemple, déclarera la présence du plan du site dans le site Web. Si vous vous retrouvez avec des sitemaps différents, vous pouvez les insérer et les spécifier dans le fichier texte robots.txt.
En utilisant une ligne de directive pour chaque sitemap, il est possible de les ajouter en utilisant les en-têtes sitemap-1.xml et ainsi de suite, signalant ainsi la présence de tous les sitemap.
Robots.txt, à quoi il sert : le résumé
Pour résumer, examinons l’utilisation du fichier robots.txt :
- bloquer l’accès des crawlers aux sections privées du domaine ;
- bloquer l’accès des moteurs de recherche aux scripts, index, utilitaires ou autres types de code ;
- bloquer l’indexation du contenu dupliqué sur le site ;
- simplifier l’analyse du plan de site XML.
Il n’est pas obligatoire de mettre en œuvre le fichier sur son propre site, mais au vu des nombreux avantages, c’est toujours recommandé, notamment en termes de SEO.
De plus, le robot Google arrive sur le site déjà équipé d’un budget de crawl, c’est-à-dire le nombre d’URL qu’il est capable d’analyser. Par conséquent, le fait d’indiquer les pages à exclure garantit que le robot utilise le budget uniquement pour les pages qui l’intéressent, en évitant de le gaspiller sur des pages non pertinentes ou même en double sur le site.