
La gestion de l’indexation reste une tâche extrêmement importante dans l’optimisation pour les moteurs de recherche (SEO). L’objectif est de ne faire indexer que les pages souhaitées par Google et d’éviter les doublons.
Il existe différents outils techniques qui permettent de contrôler les pages dans l’index Google. Mais si ces outils sont confondus ou mal utilisés, l’effet escompté peut être perdu ou des signaux négatifs peuvent même être envoyés au moteur de recherche. Dans cet article, je vous montre quels sont les outils existants et dans quels cas ils sont utilisés.
En tant que Consultant SEO, je peux vous accompagner dans l’élaboration de votre future stratégie de référencement.
Il s’agit en premier lieu de ne mettre à la disposition de l’utilisateur et du moteur de recherche, que des pages qui offrent une valeur ajoutée. Or, les domaines accumulent au fil du temps, des pages sans contenu ou des doublons qui n’ont aucune pertinence pour l’utilisateur.
Pour simplifier, on parle de doublons lorsqu’il existe plusieurs pages au contenu très similaire ou exactement identique avec des URL différentes. Cela complique l’exploration et l’évaluation des pages par Google Bot et peut entraîner un classement moins bon ou un classement non souhaité du doublon au lieu de la page originale souhaitée.
Parallèlement, il existe des pages ou même des domaines entiers sur le domaine qui ne représentent certes pas des doublons, mais qui ne doivent pas pour autant apparaître dans l’index et donc dans les requêtes de recherche. Il peut s’agir par exemple de pages dans le processus de paiement, de pages de services ou encore de répertoires avec des images.
Comment savoir si mes pages sont indexés sur Google
Pour vérifier les pages actuellement indexées et identifier d’éventuels problèmes, il est possible d’utiliser ce que l’on appelle la requête de site de Google Search. Pour effectuer une requête de site, vous devez saisir dans la recherche Google : ” site:www.mon-site.fr “.
SCREEN SERP SITE :
Vous obtiendrez comme résultats de recherche toutes les URL qui se trouvent dans l’index. Si vous avez plusieurs sous-domaines, saisissez le domaine sans www. afin que toutes les pages soient affichées. Faites attention aux URLs avec des paramètres et/ou aux résultats qui n’ont pas de sens pour vous. Bien entendu, il n’est pas possible de vérifier chacune des milliers de pages indexées. Mais une première analyse devrait vous donner une idée générale de la qualité des pages indexées et vous permettre d’identifier des modèles en cas de problèmes éventuels.

Comment pousser l’indexation et éviter les doublons
Nous souhaitons à présent clarifier la question de la manipulation des pages existantes. Pour contrôler le crawling ou l’indexation, on utilise les outils suivants :
- Robot.txt
- Balise méta Robots
- Balises Canonical
Outre ces points, il existe bien sûr d’autres moyens pour annuler l’indexation des pages de votre site web à court ou à long terme, comme le code d’état 410 ou encore les redirections. Ces deux points sont toutefois appliqués à des pages qui n’existent plus et ne seront donc pas abordés dans un premier temps.
Pousser l’indexation de vos pages grâce à la Google Search Console
Vous pouvez également solliciter une demande d’indexation à Google grâce à l’outil Google Search Console. Cela permet de tester votre URL et d’indexer vos pages plus rapidement.
Pour se faire, allez dans l’onglet « Inspection de l’URL », ajoutez-y l’URL que souhaitez soumettre, vérifiez son état à l’aide du bouton « TESTER L’URL EN DIRECT » puis, appuyez sur « DEMANDE UNE INDEXATION ».

Le robots.txt
Structure du fichier robots.txt
Selon l’accord du protocole standard Robots-Exclusion, un crawler web (robot) qui trouve un site web lit d’abord le fichier robots.txt (en minuscules) dans le répertoire racine (“root”) d’un domaine. Dans ce fichier, il est possible de définir si et comment le site web peut être visité par un crawler web. Les exploitants de sites web ont ainsi la possibilité de bloquer certaines zones de leur présence sur le web pour (certains) moteurs de recherche.
Grâce à ce fichier, vous indiquez donc à Google quelles pages peuvent être visitées et quelles pages ne doivent pas l’être. Une structure de base pourrait par exemple ressembler à ceci :
- User-agent : *
- Désactiver : /wishlist/
- Désactiver : /admin.html
- Sitemap : https://www.mon-site.fr/sitemap_index.xml
Avec cette entrée dans le Robots.txt, vous autorisez les moteurs de recherche (User-Agent) à visiter toutes les pages, à l’exception des deux répertoires exclus. En outre, le chemin du sitemap est également affiché, ce qui permet aux moteurs de recherche de comprendre plus rapidement l’architecture du site.
Il faut toutefois mentionner ici que l’exclusion de certaines pages ou de certains répertoires dans le robots.txt n’empêche pas l’indexation de base et donc l’apparition dans les résultats de recherche. Cependant, la plupart des moteurs de recherche s’en tiennent aujourd’hui à cette indication dans le fichier.
Conseil : Pensez à soumettre également le sitemap à la Search Console.
Balise Méta Robots
Structure et variations des balises meta
La balise méta mentionnée ci-dessus sert à contrôler le comportement du crawler ou des robots Google (ainsi que des autres crawlers web). Il existe quatre valeurs qui peuvent également être combinées entre elles :
- “index” : la page est indexée
- “noindex” : la page n’est pas indexée
- “follow” : suivre les liens sur la page en question
- “nofollow” : ne pas suivre les liens sur la page concernée.
Si cette balise n’est pas activée sur un site web, la page concernée est indexée par le crawler et tous les liens sont suivis. Cela correspond donc à cette balise :
- <meta name=”robots” content=”index, follow”>.
Si une page ne doit pas être indexée, mais que les liens doivent être suivis, la balise suivante est utilisée :
- <meta name=”robots” content=”noindex, follow”>.
Balise canonical
Structure de la balise canonical
Lors de la mise en place de la balise Canonical, il est possible d’indiquer au robot Google une page préférée (page canonique) parmi plusieurs pages ayant un contenu très similaire ou identique. Cette méthode est souvent utilisée pour les pages de filtrage. En règle générale, il est recommandé de placer la balise Canonical sur toutes les pages. S’il n’y a pas de contenu dupliqué pour une page, la balise Canonical renvoie à la page sur laquelle elle est implémentée (en tant que page canonique). La balise Canonical aurait donc la structure suivante :
- Page canonique : http://monsite.fr/article1.html
- Balise canonical : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
S’il existe pour cette page une autre page avec un contenu très similaire ou identique, le Canonical doit renvoyer à la page d’origine (page canonique). La même balise canonical que celle de la page canonique est donc affichée sur le doublon. Cela correspond à cette structure :
- Page (dupliqué) : http://monsite.fr/article1.html?parameter1¶meter2
- Balise canonique : <link rel=”canonical” href=”http://monsite.fr/article1.html”>.
Il faut toutefois mentionner ici que l’activation de cette balise n’empêche pas nécessairement l’indexation des pages concernées. Si les pages ou les répertoires doivent être exclus de l’index, il faut travailler avec la balise méta “robots”.
CONCLUSION : Tout connaitre de l’indexation Google
Les méthodes présentées ici vous permettent d’éviter les doublons de manière simple et efficace et de décider vous-même quelles pages doivent être prises en compte par Google dans l’indexation. Vérifiez vous-même de temps en temps, à l’aide de la requête de site, quelles pages se trouvent actuellement dans l’index. Si vous avez besoin d’informations supplémentaires ou si vous avez encore des questions, je suis bien sûr à votre disposition dans les commentaires de cet article. :- )