Comment bien utiliser la Google Search Console en 2022 ? Le guide complet

Vous êtes propriétaire d’un site web ou d’une entreprise et que vous essayez d’optimiser votre site web, vous avez peut-être déjà entendu parler de la Google Search Console. Si vous n’êtes pas familier avec la Search Console, vous ne savez peut-être pas à quel point elle est importante.
Initialement connue sous le nom de Google Webmaster Tools depuis près d’une décennie, Google a rebaptisé sa suite d’outils Google Search Console en 2015.
À chaque nouvelle année, Google met à notre disposition de nouveaux outils et analyses et données que nous pouvons suivre dans la Google Search Console.
Bien configurer la Google Search Console
Avant toute chose : la Search Console est mise à disposition gratuitement par Google. En effet, Google a tout intérêt à ce que votre site Internet réponde le mieux possible aux exigences des utilisateurs et des moteurs de recherche. Comme Google doit de toute façon collecter des données sur votre site web pour le rendre trouvable via la recherche sur le web, la mise à disposition des données dans l’outil n’occasionne pratiquement pas de frais supplémentaires pour Google.
Faire appel à un consultant en référencement naturel, peut vous être d’une grande aide dans la mise en place de la Search Console et de son optimisation.
Que propose la Google Search Console ?
Les fonctionnalités de la GSC couvrent les domaines suivants :
- Analyse : Comment votre site web se positionne-t-il dans les résultats de recherche ? Pour quelles requêtes de recherche vous trouve-t-on ? Quels backlinks pointent vers vos contenus ?
- Surveillance : Google a-t-il constaté des erreurs lors de l’accès à votre site ? Votre site est-il toujours adapté aux mobiles ? Y a-t-il des problèmes techniques ?
- Configuration : Comment Google doit-il accéder à votre site ? Celui-ci est-il par exemple orienté vers un pays particulier ?
Les questions énumérées sont à chaque fois à considérer comme des exemples et couvrent les cas d’application les plus fréquents lors de l’utilisation de la GSC.
Pour pouvoir utiliser la Search Console, vous devez vous identifier comme propriétaire d’un site web ou obtenir l’accès à un site web d’un propriétaire existant. Pour configurer un site web pour la première fois dans la Google Search Console, une clé d’identification personnelle doit être déposée sur le site web. Une présence web confirmée est appelée “propriété” dans la GSC. Pour valider un site Web, vous avez donc besoin de :
- Un compte utilisateur chez Google
- Votre clé d’identification personnelle sur le site web.
Pour commencer à vérifier votre site web, rendez-vous sur https://search.google.com/search-console/about et connectez-vous.
Google propose différents types de vérification pour les sites web :
- Domain-Property : ceci permet de tout regrouper sur le site web
- URL-Property : seules les données relatives aux adresses commençant par le préfixe correspondant sont affichées. Si je choisis ici par exemple https://www.mon-site.fr/, les données pour http:// n’y seraient pas saisies.

En bref : en créant une propriété de domaine, vous obtenez davantage de données. Celles-ci sont toutefois regroupées sur différents domaines de pages. Cela signifie, par exemple, que les contenus sous blog.mon-site.fr ainsi que www.mon-site.fr apparaissent ensemble dans une propriété de domaine. Si vous publiez des contenus sous différents sous-domaines, comme blog. et www., vous avez tout intérêt à utiliser une propriété de domaine. Vous pouvez bien entendu combiner la propriété de domaine et les préfixes d’URL.
Mais comment configurer ces propriétés exactement ?
Pour cela, il est nécessaire de publier la clé de vérification personnelle sur la propriété. Pour cela, Google propose différentes options comme le téléchargement d’un fichier HTML. Toutes les méthodes sont équivalentes, le choix n’a donc aucune importance. Vous trouverez un aperçu des méthodes de vérification avec plus d’informations dans l’aide de la Search Console.

Comprendre le tableau de bord de la Google Search Console
Après avoir mis à disposition la clé de vérification sur le site web comme décrit par Google, vous pouvez terminer le processus et voir ensuite ce que l’on appelle le tableau de bord. Celui-ci vous donne un aperçu de la manière dont votre site web est actuellement trouvé dans la recherche Google ainsi que de la couverture de l’index, y compris les améliorations possibles pour les différentes adresses.
En cliquant sur « Exporter », vous pouvez obtenir plus de détails sur les données affichées. Vous pouvez également utiliser la navigation de gauche.

Le rapport de performances : Pour quelle requête vous trouve-t-on ?
Le domaine d’analyse le plus populaire de la Search Console se trouve dans l’onglet « Performances ». Ici, vous pouvez voir pour quelles requêtes de recherche votre site web a été trouvé, depuis quel pays la requête de recherche a été effectuée, sur quelles adresses les utilisateurs sont entrés, via quel type de terminal et bien plus encore. Vous voyez : c’est très complet !
Au-dessus du graphique, vous pouvez sélectionner ce que l’on appelle les métriques. Celles-ci sont :
- Clics : Combien de fois le site web a-t-il été visité ?
- Les impressions : Combien de fois le site web est-il apparu dans les résultats de recherche consultés par l’utilisateur ?
- Taux de clics (CTR) : quel est le rapport entre les clics et les impressions ?
- Position : à quelle position le site web est-il apparu ?
En dessous du graphique, vous trouverez les dimensions dans lesquelles vous pouvez consulter les données :
- Requêtes de recherche : pour quelles requêtes de recherche avez-vous été trouvé ?
- Les pages : Avec quelle adresse avez-vous été affiché ?
- Pays : depuis quel pays la recherche a-t-elle été effectuée ?
- Appareil : via quel type d’appareil (desktop, mobile, tablette) la requête a-t-elle été effectuée ?
- Apparence dans les SERP : Votre site web a-t-il été affiché, par exemple, avec des évaluations par étoiles ou autres ?
- Dates : comment les données se répartissent-elles par jour ?

Le rapport de performance est très puissant et peut vous fournir énormément d’informations sur les contenus qui sont actuellement particulièrement bien classés dans les recherches Google. Grâce aux filtres, vous pouvez analyser les données en fonction de vos besoins. Si vous choisissez par exemple sous Appareil => Mobile, toutes les données seront filtrées après un clic. Vous pouvez donc voir quelles recherches ont été effectuées sur des appareils mobiles et les combiner avec toutes les dimensions telles que les pages d’accueil ou les recherches.
Dans la barre principale, vous pouvez voir les filtres mis en place et les régler. Une option de comparaison est également disponible. Pour ce faire, cliquez sur ” + Nouveau ” dans la barre supérieure, sélectionnez ce que vous souhaitez comparer (par exemple la semaine dernière avec cette semaine) et fixez les valeurs. Vous pouvez ainsi voir où les positions ont éventuellement changé.
J’aimerais vous recommander un article de l’aide de la Search Console pour une lecture plus approfondie. Dans cet article, Google explique comment se calculent les différentes valeurs telles que les impressions, les clics et la position moyenne.
Prenez un peu de temps pour vous familiariser avec le rapport de performance. Je vous le garantis : Cela en vaut la peine ! Il contient énormément d’informations pour développer et évaluer la visibilité de votre site web.
Vérification de l'URL : Vos pages sont-elles indexées et peuvent-elles être améliorées ?
La vérification de l’URL est un outil qui vous permet de vérifier si certaines adresses de votre site web présentent un potentiel d’amélioration. Cette fonction est également visible dans la barre principale en haut. Vous y saisissez une adresse et recevez ensuite des informations de Google.
En cliquant sur les flèches, vous obtiendrez de plus amples informations. Le test en direct, accessible par un lien en haut à droite, est particulièrement intéressant. Grâce à lui, vous demandez à Google d’appeler à nouveau la page et de la vérifier. En effet, les données affichées initialement proviennent de ce que l’on appelle l’index Google et montrent la dernière version de la page que Google a saisie. Après l’envoi d’un test en direct et un clic sur Afficher la page testée, vous voyez le texte source que Google a traité ainsi qu’une image visuelle de la page.
Alors, à quoi sert la vérification de l’URL ?
- Vérifier si une page figure dans l’index Google
- Si des améliorations peuvent être apportées à une page et, si oui, lesquelles.
- Quel est le texte source affiché par Google et à quoi ressemble le site pour Google.
- Pour informer Google d’une mise à jour du contenu d’un site web ou d’une toute nouvelle adresse.
Google vous renvoie toujours à la vérification de l’URL par différents moyens au sein de la Search Console.
Couverture de l'index : quelles sont les pages (non) indexées ?
Dans la vérification de l’URL, Google vous dit déjà si certaines adresses peuvent être trouvées via Google (parce qu’elles sont indexées). Pour obtenir cette information pour le site web dans son ensemble, il existe un rapport spécifique avec la couverture d’index.
Pour mon site utilisé comme exemple, 30 pages sont actuellement indexées sans erreur par Google. En outre, 26 adresses sont connues du moteur de recherche, mais ne peuvent pas être trouvées via la recherche Web (Exclu) en raison de différents critères d’exclusion.
La tendance permet de voir comment évolue le nombre d’adresses dans le cluster concerné. Si, par exemple, le nombre de pages avec redirection diminue sans que vous ayez activement supprimé des redirections, cela peut être le signe d’un problème. Il en va de même si vous mettez beaucoup de nouvelles pages en ligne, mais que la ligne verte stagne.
Comme pour les autres rapports, il existe de nombreux cas d’application pour la couverture de l’index. Ils vont de la liste des pages introuvables (erreur 404) aux adresses bloquées. Les données (jusqu’à 1.000 sont affichées) peuvent être filtrées ou téléchargées comme dans le rapport de performance par exemple. Utilisez à cet effet les icônes situées au-dessus du tableau de données.
Il est particulièrement intéressant de rechercher les adresses qui ont été indexées par Google, mais qui n’apparaissent dans aucun plan du site. L’idée de base est que toutes les adresses souhaitées pour l’indexation devraient être contenues dans des sitemaps XML. Le rapport permet d’identifier les adresses qui ont été omises lors de la création des sitemaps.
Vos sitemaps ont-ils été traités correctement à votre Search Console
Les sitemaps XML vous permettent d’envoyer de (nouvelles) adresses aux moteurs de recherche afin d’accélérer leur intégration dans l’index. Seules les adresses qui y sont reprises peuvent être trouvées via la recherche web.
Pour que vous puissiez consulter les statistiques, vous devez envoyer vos sitemaps XML. Pour ce faire, saisissez leur adresse dans le masque de saisie et envoyez-la.
Dans la partie supérieure gauche du rapport de couverture, vous voyez que l’évaluation a été limitée au fichier sélectionné. Le cas échéant, vous voyez les adresses qui ont été soumises, mais qui n’ont pas encore été indexées. Bien entendu, Google affiche également les adresses qui n’ont pas pu être consultées. Utilisez ce filtrage de données pour optimiser les sitemaps XML défectueux.

Actions manuelles et problèmes de sécurité : existe-t-il des problèmes graves
Si Google a constaté des violations des directives pour webmasters ou des problèmes de sécurité sur le site web, vous trouverez plus d’informations à ce sujet dans les points de menu correspondants. Dans 99% des cas, vous voyez sur les rapports que tout va bien. En cas de problèmes, Google vous envoie une notification dans la Search Console et en plus par e-mail, si vous n’avez pas modifié ce paramètre par défaut.
Les liens : Qui fait des liens vers vos contenus ?
Le netlinking est une notion primordiale en SEO. En effet, chaque fois que vous cliquez sur un mot ou une image pour accéder à un autre site web, vous avez suivi un lien (ou backlink). Dans l’idéal, un grand nombre de sites web de qualité établissent un lien vers vos contenus car c’est un signal très fort pour chaque moteur de recherche et il est généralement récompensé par de très bonnes positions.
Dans la Google Search Console, vous pouvez voir quels sont les liens externes et internes connus de Google pointent vers vos contenus. Dans la partie supérieure droite, vous trouverez les possibilités de téléchargement.
En cliquant sur Plus, vous obtenez d’autres données. Vous pouvez par exemple analyser d’où proviennent les backlinks vers une sous-page bien précise. Comme d’habitude, vous pouvez filtrer les données affichées à l’aide de l’entonnoir.
Comment utiliser les données pour optimiser votre site web ? Par exemple en regardant quelles pages web sont très souvent reliées en interne comme en externe. Ces pages sont facilement accessibles et de nombreux utilisateurs visitent ces adresses. Utilisez ces pages pour rendre d’autres contenus accessibles !
Les paramètres de la Google Seach Console
Au début de ce tutoriel détaillé sur la Google Search Console, je vous ai dit qu’il était possible de configurer son propre site web via cet outil. Dans de nombreux cas, cette ou ces fonctions n’ont pas encore été transférées dans la nouvelle présentation et se trouvent actuellement sous Outils et rapports précédents.
Dans la zone des paramètres, vous pouvez actuellement ajouter d’autres utilisateurs et annoncer un changement de domaine. En outre, vous pouvez voir ici, si Google saisit actuellement votre site web via un crawler pour smartphone ou pour ordinateur. Si c’est le cas, votre site web a déjà été converti à ce que l’on appelle le Mobile Frist Index. Si ce n’est pas le cas, ce n’est pas un inconvénient. Veillez toutefois à ce que votre site soit optimisé pour les mobiles.
Tutoriel de la Google Search Console (GSC) terminé
Le guide complet pour bien utiliser la Search Console en 2022 est maintenant terminé.
Il y a certains points que je n’ai pas abordé, car tout le monde n’y est pas éligible en fonction des données récoltés par Google. C’est le cas de l’onglet « Expériences » et l’onglet « Améliorations » qui ne sont pas très importants. Je vous laisse surfer dessus par vous-même afin de voir quel serait leurs utilités pour votre site internet.
Merci d’être venu jusqu’ici. J’espère vraiment que ce tutoriel vous a donné un aperçu complet de la Google Search Console. Pour un outil gratuit, l’étendue des fonctions est géniale, de plus, la GSC vous aide à améliorer votre site web en permanence. Bonne optimisation à tous ! 🙂
Indexation Google : Comment bien indexer les pages de votre site web

La gestion de l’indexation reste une tâche extrêmement importante dans l’optimisation pour les moteurs de recherche (SEO). L’objectif est de ne faire indexer que les pages souhaitées par Google et d’éviter les doublons.
Il existe différents outils techniques qui permettent de contrôler les pages dans l’index Google. Mais si ces outils sont confondus ou mal utilisés, l’effet escompté peut être perdu ou des signaux négatifs peuvent même être envoyés au moteur de recherche. Dans cet article, je vous montre quels sont les outils existants et dans quels cas ils sont utilisés.
En tant que Consultant SEO, je peux vous accompagner dans l’élaboration de votre future stratégie de référencement.
Pourquoi la gestion de l’indexation est-elle importante en SEO ?
Il s’agit en premier lieu de ne mettre à la disposition de l’utilisateur et du moteur de recherche, que des pages qui offrent une valeur ajoutée. Or, les domaines accumulent au fil du temps, des pages sans contenu ou des doublons qui n’ont aucune pertinence pour l’utilisateur.
Pour simplifier, on parle de doublons lorsqu’il existe plusieurs pages au contenu très similaire ou exactement identique avec des URL différentes. Cela complique l’exploration et l’évaluation des pages par Google Bot et peut entraîner un classement moins bon ou un classement non souhaité du doublon au lieu de la page originale souhaitée.
Parallèlement, il existe des pages ou même des domaines entiers sur le domaine qui ne représentent certes pas des doublons, mais qui ne doivent pas pour autant apparaître dans l’index et donc dans les requêtes de recherche. Il peut s’agir par exemple de pages dans le processus de paiement, de pages de services ou encore de répertoires avec des images.
Comment savoir si mes pages sont indexés sur Google
Pour vérifier les pages actuellement indexées et identifier d’éventuels problèmes, il est possible d’utiliser ce que l’on appelle la requête de site de Google Search. Pour effectuer une requête de site, vous devez saisir dans la recherche Google : ” site:www.mon-site.fr “.
SCREEN SERP SITE :
Vous obtiendrez comme résultats de recherche toutes les URL qui se trouvent dans l’index. Si vous avez plusieurs sous-domaines, saisissez le domaine sans www. afin que toutes les pages soient affichées. Faites attention aux URLs avec des paramètres et/ou aux résultats qui n’ont pas de sens pour vous. Bien entendu, il n’est pas possible de vérifier chacune des milliers de pages indexées. Mais une première analyse devrait vous donner une idée générale de la qualité des pages indexées et vous permettre d’identifier des modèles en cas de problèmes éventuels.

Comment pousser l’indexation et éviter les doublons
Nous souhaitons à présent clarifier la question de la manipulation des pages existantes. Pour contrôler le crawling ou l’indexation, on utilise les outils suivants :
- Robot.txt
- Balise méta Robots
- Balises Canonical
Outre ces points, il existe bien sûr d’autres moyens pour annuler l’indexation des pages de votre site web à court ou à long terme, comme le code d’état 410 ou encore les redirections. Ces deux points sont toutefois appliqués à des pages qui n’existent plus et ne seront donc pas abordés dans un premier temps.
Pousser l’indexation de vos pages grâce à la Google Search Console
Vous pouvez également solliciter une demande d’indexation à Google grâce à l’outil Google Search Console. Cela permet de tester votre URL et d’indexer vos pages plus rapidement.
Pour se faire, allez dans l’onglet « Inspection de l’URL », ajoutez-y l’URL que souhaitez soumettre, vérifiez son état à l’aide du bouton « TESTER L’URL EN DIRECT » puis, appuyez sur « DEMANDE UNE INDEXATION ».

Le robots.txt
Structure du fichier robots.txt
Selon l’accord du protocole standard Robots-Exclusion, un crawler web (robot) qui trouve un site web lit d’abord le fichier robots.txt (en minuscules) dans le répertoire racine (“root”) d’un domaine. Dans ce fichier, il est possible de définir si et comment le site web peut être visité par un crawler web. Les exploitants de sites web ont ainsi la possibilité de bloquer certaines zones de leur présence sur le web pour (certains) moteurs de recherche.
Grâce à ce fichier, vous indiquez donc à Google quelles pages peuvent être visitées et quelles pages ne doivent pas l’être. Une structure de base pourrait par exemple ressembler à ceci :
- User-agent : *
- Désactiver : /wishlist/
- Désactiver : /admin.html
- Sitemap : https://www.mon-site.fr/sitemap_index.xml
Avec cette entrée dans le Robots.txt, vous autorisez les moteurs de recherche (User-Agent) à visiter toutes les pages, à l’exception des deux répertoires exclus. En outre, le chemin du sitemap est également affiché, ce qui permet aux moteurs de recherche de comprendre plus rapidement l’architecture du site.
Il faut toutefois mentionner ici que l’exclusion de certaines pages ou de certains répertoires dans le robots.txt n’empêche pas l’indexation de base et donc l’apparition dans les résultats de recherche. Cependant, la plupart des moteurs de recherche s’en tiennent aujourd’hui à cette indication dans le fichier.
Conseil : Pensez à soumettre également le sitemap à la Search Console.
Balise Méta Robots
Structure et variations des balises meta
La balise méta mentionnée ci-dessus sert à contrôler le comportement du crawler ou des robots Google (ainsi que des autres crawlers web). Il existe quatre valeurs qui peuvent également être combinées entre elles :
- “index” : la page est indexée
- “noindex” : la page n’est pas indexée
- “follow” : suivre les liens sur la page en question
- “nofollow” : ne pas suivre les liens sur la page concernée.
Si cette balise n’est pas activée sur un site web, la page concernée est indexée par le crawler et tous les liens sont suivis. Cela correspond donc à cette balise :
- <meta name=”robots” content=”index, follow”>.
Si une page ne doit pas être indexée, mais que les liens doivent être suivis, la balise suivante est utilisée :
- <meta name=”robots” content=”noindex, follow”>.
Balise canonical
Structure de la balise canonical
Lors de la mise en place de la balise Canonical, il est possible d’indiquer au robot Google une page préférée (page canonique) parmi plusieurs pages ayant un contenu très similaire ou identique. Cette méthode est souvent utilisée pour les pages de filtrage. En règle générale, il est recommandé de placer la balise Canonical sur toutes les pages. S’il n’y a pas de contenu dupliqué pour une page, la balise Canonical renvoie à la page sur laquelle elle est implémentée (en tant que page canonique). La balise Canonical aurait donc la structure suivante :
- Page canonique : http://monsite.fr/article1.html
- Balise canonical : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
S’il existe pour cette page une autre page avec un contenu très similaire ou identique, le Canonical doit renvoyer à la page d’origine (page canonique). La même balise canonical que celle de la page canonique est donc affichée sur le doublon. Cela correspond à cette structure :
- Page (dupliqué) : http://monsite.fr/article1.html?parameter1¶meter2
- Balise canonique : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
Il faut toutefois mentionner ici que l’activation de cette balise n’empêche pas nécessairement l’indexation des pages concernées. Si les pages ou les répertoires doivent être exclus de l’index, il faut travailler avec la balise méta “robots”.
CONCLUSION : Tout connaitre de l’indexation Google
Les méthodes présentées ici vous permettent d’éviter les doublons de manière simple et efficace et de décider vous-même quelles pages doivent être prises en compte par Google dans l’indexation. Vérifiez vous-même de temps en temps, à l’aide de la requête de site, quelles pages se trouvent actuellement dans l’index. Si vous avez besoin d’informations supplémentaires ou si vous avez encore des questions, je suis bien sûr à votre disposition dans les commentaires de cet article. :- )
Qu’est ce que le sitemap et à quoi sert-il ?

Le plan du site est considéré comme un élément important d’un site web, qui sert principalement au référencement naturel et répertorie un grand nombre de sous-pages avec leurs URL. Ainsi, le plan du site est une liste des pages d’un site web qui peuvent être vues ou consultées publiquement par des robots d’exploration ou des utilisateurs. Un document ou une page web peut être utilisé comme plan du site. En règle générale, le document ou les pages HTML contenant les URLs répertoriées sont organisés de manière hiérarchique.
Outre les catégories responsables de la structure d’un site web, le plan de site répertorie également certaines sections relatives aux médias et aux actualités, les éléments communautaires, le contenu du blog etc. Les sitemaps sont souvent présents sur Internet et sont également appelés protocoles sitemap. Ce protocole a été fondé sur l’idée de créer des sites Web adaptés aux robots d’exploration. En 2005, Google a développé la première technologie sitemap.
Les deux versions existante d'un plan de site
Il existe deux versions courantes d’un plan de site. Un plan de site XML (ou sitemap.xml) est un format structuré que le propriétaire du site et le visiteur ne voient pas. Cette version ne communique pratiquement qu’avec les crawlers des moteurs de recherche.


Cela leur permet de voir l’importance d’une seule sous-page, le nombre de visiteurs qui cliquent dessus et la fréquence de sa mise à jour. Le XML est un document qui utilise une structure et un codage particuliers. Ce codage est également considéré comme la norme permettant aux robots d’exploration du Web d’analyser et de trouver les sitemaps. La deuxième version est le plan du site HTML. Ce système est conçu pour aider l’utilisateur à mieux organiser le contenu du site Web. Les sitemaps HTML ne doivent pas nécessairement capturer chaque sous-page.
Il aide également les visiteurs et les robots des moteurs de recherche à trouver le contenu d’un site web et est donc accessible au public, par exemple via un lien sur la page d’accueil (généralement dans le pied de page) ou une entrée dans le menu du site. Les pages HTML, contrairement aux versions XML, indiquent la conception de la page web. Les pages XML, en revanche, sont blanches et n’ont pas de contenu CSS ou de codes HTML. Le XML est également beaucoup plus précis que le codage HTML. Les erreurs ne sont pas tolérées, ce qui signifie que la syntaxe est toujours exacte.

Les origines et le but principal d’un sitemap pour le référencement naturel
En 2005, Google a introduit les sitemaps pour permettre aux développeurs web de publier des listes de liens depuis leurs sites web. L’idée de base est que certains sites Web comportent un grand nombre de pages dynamiques qui n’existent que grâce au contenu des visiteurs, comme les forums. Le fichier sitemap contient les URLs de ces pages afin que les robots d’exploration du web puissent les trouver.
Les principaux moteurs de recherche – Bing, Google, Yahoo et Ask – partagent tous un protocole sitemap, ce qui facilite bien sûr l’adhésion des opérateurs de sites web aux spécifications et aux directives de restriction énumérées ci-dessous. Cependant, les sitemaps ne peuvent pas garantir que tous les liens seront explorés, ni l’indexation. Toutefois, un plan de site reste la meilleure assurance pour indiquer à un moteur de recherche que votre site web existe et qu’il se développe ou propose un nouveau contenu.
Utiliser et intégrer un sitemap à bon escient
Si vous avez de l’expérience dans le codage de documents Web, vous pouvez créer un plan du site à l’aide de simples extraits de code et le télécharger sur le serveur sur lequel se trouve le site Web. Faire appel un consultant SEO peut grandement vous aider. Cela peut également se faire avec des systèmes de gestion de contenu. Cependant, elles sont plutôt destinées aux profanes qui souhaitent mettre en place des plates-formes web sans grandes connaissances.
Ces groupes de personnes ont la possibilité d’utiliser ce que l’on appelle des plug-ins et de les utiliser pour installer un plan du site en un clic de souris. L’avantage de cette méthode est que la conception et le contenu exacts du plan du site peuvent être créés ou sélectionnés sans grand effort de codage supplémentaire.
De tels plug-ins qui peuvent fournir un plan du site peuvent être trouvés pour WordPress ainsi que pour Joomla, Drupal et d’autres systèmes de gestion de contenu. Le plus connu est Yoast SEO sur WordPress. En ce qui concerne le protocole sitemap, il convient également de noter que les plug-ins généralement utilisés dans les systèmes de gestion de contenu ont une limite automatique de 50 000 URLs.
Quelles sont les limites du plan du site ?
Il y a quelques restrictions à connaître lors de l’utilisation d’un plan de site. Par exemple, il n’est pas permis de répertorier dans le plan du site plus de 50 000 URLs qui renvoient à du contenu sur la plate-forme web. Si vous avez plus de contenu, vous devez en rayer une partie ou n’inclure que le plus important dans le plan du site. Une autre restriction concerne la taille du plan du site. Il ne doit pas dépasser 50 Mo.
Cette limite de taille supérieure doit également être respectée lors de l’utilisation de sites web compressés. Toutefois, vous pouvez contourner les restrictions en utilisant simplement plusieurs sitemaps. Le sitemap principal renvoie à tous les autres sitemaps, ce qui vous permet théoriquement d’inclure un total de 2,5 milliards d’URLs dans votre protocole sitemap.

Sitemap et Robot.txt, le duo ultime pour un SEO parfait
Les exploitants de sites web utilisent généralement un fichier Robots.txt. Ce fichier est considéré comme le commandant du crawler. Il spécifie par des commandes les pages et les fichiers qui peuvent être enregistrés et visités par les robots des moteurs de recherche. Cela exerce une grande influence sur l’indexation des pages web. Par exemple, on peut déterminer que les crawlers ne sont pas autorisés à mettre en œuvre certaines images dans les moteurs de recherche d’images de Google.
Vous pouvez également exclure de l’indexation par les moteurs de recherche le contenu précieux mais accessible au public que vous ne voulez pas que le monde entier examine. Étant donné que le sitemap n’a pas de grande valeur ajoutée pour un site web, il est fortement conseillé de l’exclure également de l’indexation des moteurs de recherche. Dans le pire des cas, l’accumulation des liens peuvent même détériorer la réputation dont jouissait auparavant un site web auprès de Google et d’autres moteurs de recherche.
Un bon travail de référencement ne fait que s’améliorer avec le temps. Ce sont seulement les astuces des moteurs de recherche qui doivent continuer à changer lorsque les algorithmes de classement changent.
Jill Whalen
Robots.txt : Ce qu’il est, à quoi il sert et quels sont ses avantages ?

S
i votre site Web comporte des sous-domaines, vous devrez créer un fichier texte unique pour chaque partie. Cela signifie que le site principal aura son propre fichier robots.txt et, de même, chaque sous-domaine aura le sien.
Le fichier Robots.txt est utilisé pour faciliter l’analyse du site : grâce à la structure du fichier texte, le moteur de recherche est en mesure de reconnaître les zones du site qui peuvent être analysées et celles qui, au contraire, sont à éviter. Cela permet de définir une limitation pour les contenus qui ne sont pas importants et qui, selon le propriétaire du site, ne sont pas pertinents pour l’analyse et l’optimisation dans le moteur de recherche, ce qui simplifie et allège le processus global d’analyse. Il est permis, si on le souhaite, de restreindre l’accès à certains dossiers ou secteurs du site, demandant ainsi que le sujet particulier ne soit pas indexé.
Les moteurs de recherche scrutent régulièrement les sites web à la recherche de contenu à analyser et à optimiser. Les instructions émises par robots.txt, plus communément appelées directives, facilitent cette démarche, avec des explications précises à suivre à la lettre. Contrairement à d’autres, dont il n’y a aucune certitude, le moteur de recherche Google a ajouté une limitation. Elle nécessite un fichier robots.txt qui ne dépasse pas 500 ko. Si le fichier texte pèse plus que cela, Google ne suivra pas ses directives mais procédera comme si aucun fichier texte n’existait.
Cela signifie qu’en l’absence du fichier texte, les crawlers procéderont à une analyse complète du site, sans aucune limitation.
Comment reconnaître la présence ou l'absence du fichier texte robots.txt ?
La présence ou l’absence du fichier robots.txt peut être vérifiée à partir de la réponse que le spider reçoit lorsqu’il commence à analyser le site. En fonction du type de réponse qu’il reçoit, le crawler se déplace en conséquence. Si le code http 404 est présenté, le crawler comprendra que le site en question ne contient aucun fichier et analysera donc l’ensemble du site web. Au contraire, le code http 200 indique la présence du fichier, qui peut donc supporter des limitations que le spider devra suivre. Si le logiciel ne reçoit aucune réponse, c’est-à-dire s’il ne lit aucun code, le robot d’exploration n’analysera pas le site.
Écriture du fichier texte robots.txt
Après avoir établi l’importance de l’inclusion d’un fichier robots.txt dans votre répertoire principal, il est essentiel de pouvoir rédiger ce fichier texte le mieux possible. Insérer des directives sans les connaître, au lieu d’améliorer votre classement, pourrait finir par le détériorer. Si vous souhaitez modifier le texte ultérieurement, vous pouvez le faire manuellement ou en utilisant un plugin de référencement tel que Yoast SEO.
La présence d’un fichier correct, c’est-à-dire contenant des informations précises, permet de réaliser correctement la numérisation. Cela permet également d’éviter l’optimisation du contenu dupliqué, qui rend difficile le classement.
En outre, l’analyse du site doit être effectuée dans un certain délai. En d’autres termes, le logiciel doit respecter certains délais lors de l’analyse d’un site web. Les directives incluses dans le fichier robots.txt vous permettent de diriger le scan vers les fichiers principaux, afin de positionner votre contenu de la manière la plus stratégique.

Améliorer la visibilité du site : ce qu'il faut inclure dans le fichier robots.txt
La création du fichier robots.txt commence par un document .txt vide. Une fois les directives insérées et le fichier renommé ” robots.txt “, le fichier sera inséré, comme initialement écrit, dans le répertoire principal du serveur. Si vous préférez un guide, vous devriez créer votre document dans un générateur de fichier robots.txt, qui est également capable de reconnaître et d’éviter toute erreur. La première règle importante à retenir est que chaque directive doit être placée sur sa propre ligne. Rédiger le document sans séparer les instructions entraînerait une confusion pour le moteur de recherche et risquerait de créer des inexactitudes.
Chaque action que vous voulez effectuer comporte un certain libellé.
Prenons un exemple dans le fichier robots.txt :
User agent : Googlebot
Disallow : /Breadcrumb/
Allow : /Breadcrumb/google.pdf
Sitemap : https://www.nomdemonsite.fr/sitemap.xml
Vous voulez améliorer la visibilité et le classement de votre site ? Contactez un consultant en référencement naturel qui peut vous aider.
Robots.txt : la commande User Agent
Tout d’abord, vous vous tournez vers les user agents. C’est là que vous communiquez directement avec les moteurs de recherche, en déclarant que vous voulez adresser le travail à tous les moteurs, ou le limiter à quelques-uns. Si, par exemple, vous souhaitez travailler exclusivement sur Google, il est important d’inclure ce type de formulation : User-agent : Googlebot. Il est ainsi clair pour le robot d’exploration que vous ne voulez travailler que sur un moteur de recherche particulier. Si, par contre, vous voulez traiter avec tout le monde, sans aucune distinction, il suffit d’insérer un astérisque à la place du nom du moteur. L’astérisque, en effet, indique que l’action indiquée s’adresse à tous, sans exclusion.
Robots.txt, autorisations et limitations : allow, disallow et noindex
Dans la ligne de fond, la nomenclature ” disallow ” fait référence au contenu que vous ne souhaitez pas numériser. En insérant le dossier ” breadcrumb ” dans cette ligne, nous annonçons à Google qu’il doit éviter de le scanner. Au contraire, dans la ligne ” autoriser “, nous entrons dans le chemin qui peut être suivi et scanné.
Il est possible d’insérer différents dossiers, notamment si l’on veut éviter de scanner les fils d’Ariane, mais il faut faire une exception pour le fichier ” Google ” à l’intérieur du dossier ” fils d’Ariane “. C’est-à-dire qu’ils vous permettent de définir le chemin à prendre dans le crawl du moteur de recherche, afin de ne placer que ce que vous voulez.
La commande Disallow ne bloque cependant pas l’indexation des pages analysées par les spiders : la balise Noindex est nécessaire pour cela. De cette façon, les pages scannées ne seront pas incluses dans les SERP. Comme Google n’a jamais confirmé l’efficacité de cette commande, si elle est insérée dans le fichier robots.txt, de nombreuses personnes insèrent la méta robots noindex dans les pages qu’elles ne veulent pas indexer dans les moteurs de recherche.

Robots.txt : le signe du dollar et le dièse
Si vous incluez une URL dans les directives ” disallow ” ou ” allow “, vous pouvez ajouter un signe dollar ($) à la fin de celle-ci. Ce symbole vous permet d’empêcher l’exploration de toutes les URL se terminant par cette extension spécifique. Les commentaires peuvent être ajoutés soit au-dessus de la première ligne de la directive, soit à la fin de celle-ci. Si vous ajoutez un dièse (#) au début, ceux-ci ne seront pas pris en compte par le logiciel, mais peuvent être utiles lorsque vous traitez avec des développeurs ou des consultants. Le dièse détermine un texte qui n’intéressera pas le logiciel et ne le perturbera donc pas.
Robots.txt : la fonction du plan du site dans l'optimisation du site
La dernière ligne de la directive rapportée est celle du sitemap. En effet, le fichier texte robots.txt permet de signaler, afin de le préciser, la position du sitemap.xml aux moteurs de recherche. Le plan du site, qui n’est rien d’autre qu’un plan du site web, a été créé dans le but de rapporter une sorte d’index du site sur lequel on navigue. Un outil qui simplifie la recherche de l’utilisateur, lui permettant de trouver plus facilement les éléments qu’il recherche. Au sein du fichier texte robots.txt, les sitemaps ont pour mission d’organiser la structure du contenu du site de manière à faciliter son analyse par les moteurs de recherche. L’insertion de l’url du plan du site dans la directive, comme indiqué dans l’exemple, déclarera la présence du plan du site dans le site Web. Si vous vous retrouvez avec des sitemaps différents, vous pouvez les insérer et les spécifier dans le fichier texte robots.txt.
En utilisant une ligne de directive pour chaque sitemap, il est possible de les ajouter en utilisant les en-têtes sitemap-1.xml et ainsi de suite, signalant ainsi la présence de tous les sitemap.
Robots.txt, à quoi il sert : le résumé
Pour résumer, examinons l’utilisation du fichier robots.txt :
- bloquer l’accès des crawlers aux sections privées du domaine ;
- bloquer l’accès des moteurs de recherche aux scripts, index, utilitaires ou autres types de code ;
- bloquer l’indexation du contenu dupliqué sur le site ;
- simplifier l’analyse du plan de site XML.
Il n’est pas obligatoire de mettre en œuvre le fichier sur son propre site, mais au vu des nombreux avantages, c’est toujours recommandé, notamment en termes de SEO.
De plus, le robot Google arrive sur le site déjà équipé d’un budget de crawl, c’est-à-dire le nombre d’URL qu’il est capable d’analyser. Par conséquent, le fait d’indiquer les pages à exclure garantit que le robot utilise le budget uniquement pour les pages qui l’intéressent, en évitant de le gaspiller sur des pages non pertinentes ou même en double sur le site.