Logo Ya-graphic : Création de boutique en ligne et référencement Google
Nous sommes à votre service pour vous proposer le meilleur service de référencement Google et de création de site e-commerce. Depuis 2008 nous apportons satisfaction à nos clients, qu'ils soient de France ou d'ailleurs.
3 av Adrien Mazet, Rés La Carraire, bât c - n°36, Miramas, FR
(+33) 06.52.64.70.04
contact@ya-graphic.com
Suivez YA-GRAPHIC

“robots.txt wordpress”, une suggestion Google expliquée

“robots.txt wordpress”, une suggestion Google expliquée

C’est le 2ème article consacré aux suggestions de recherche dans Google Search. Aujourd’hui j’ai décidé d’expliquer la requête “robots.txt wordpress”. Pourquoi les gens tapent cette requête dans Google Search ? Que cherchent-ils ?

Je vous avais déjà expliqué ce qu’est WordPress dans un article publié au mois d’avril. Donc pour aller plus vite je vais m’attarder sur le fichier robots.txt. Pourquoi les gens tapent-ils “robots.txt wordpress” dans le moteur de recherche de Google ? Voici donc un questions-réponses à ce sujet.

Robot pixel art

Où trouve-t-on le fichier robots.txt ?

Le fichier robots.txt est un simple fichier au format texte qui se trouve à la racine d’un site web. Vous pouvez y accéder en tapant l’adresse d’un site web dans votre navigateur, par exemple : http://www.***********.com/robots.txt (remplacer les étoiles par un nom de domaine de votre choix)

A quoi sert ce fichier texte ?

Le fichier robots.txt est un protocole d’exclusion des robots. Avant d’indexer les pages web d’un site dans un moteur de recherche un robot explorateur consulte d’abord le fichier robots.txt. Le webmaster est censé y indiquer les répertoires, les pages web, les images ou autres types de fichier qui ne doivent pas être explorés par les robots.

Quels rapports entretiennent WordPress et le fichier robots.txt ?

Un site WordPress, qu’il soit un blog, un forum, un site e-commerce ou quoi que ce soit d’autre utilise le fichier robots.txt comme tout autre CMS ou site traditionnel. C’est le contenu qui est différent.

Quand un utilisateur tape la requête “robots.txt wordpress” ce qui l’intéresse c’est le contenu du fichier robots.txt. Il ne sait probablement pas quoi y mettre ou comment bloquer les répertoires sensibles de son site WordPress. Généralement ce sont les répertoires /wp-admin/, /wp-includes/ et /wp-content/ qui sont bloqués aux robots d’exploration. Le répertoire /uploads/, inclus dans wp-content, contient les images du site qui peuvent être explorés par les robots. Le tout se présente ainsi :

[quote]User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Allow: /wp-content/uploads/[/quote]

C’est le type de consignes qui était nécessaire il y a quelques années. Mais le Web évolue et il faut se mettre à la page. Aujourd’hui vous n’êtes plus obligés d’inclure ces consignes dans votre fichier robots.txt. Une consigne dans l’en-tête HTTP X-Robots-Tag des pages d’administration – proposée par Joost de Valk il y a 3 ans – empêche déjà les moteurs de recherche de montrer ces pages dans les résultats de recherche, une solution beaucoup plus propre selon Joost.

Les robots s’intéressent aussi au fichier sitemap.xml, un fichier qui liste les URL de votre site WordPress. On peut indiquer l’adresse du fichier sitemap.xml dans le fichier robots.txt. Si vous n’avez pas encore installé ce fichier essentiel, il serait temps de le créer. Voici la ligne qui correspond au fichier sitemap.xml et qui doit être inclue dans votre fichier robots.txt (j’ai ajouté aussi l’URL des flux RSS, utile pour Google) :

[quote]Sitemap: http://www.********.com/sitemap_index.xml
Sitemap: http://www.********.com/feed/[/quote]

Comment exclure tous les robots sauf Googlebot de votre site WordPress ?

Les consignes ci-dessous montrent que seul Googlebot peut explorer votre site WordPress, les autres ne sont pas censés explorer votre site.

[quote]

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

[/quote]

Notez que vous pouvez contrôler l’exploration de vos pages de manière plus précise. Google possède en effet plusieurs user-agents dont Googlebot, le robot d’exploration principal de Google. Il y a aussi Googlebot-Image, Googlebot-Mobile, Mediapartners-Google, etc. Vous trouverez l’ensemble des user-agents de Google dans cette page web.

Combien y a-t-il de robots explorateurs ?

Il existe plusieurs centaines de robots explorateurs. Vous connaissez peut-être déjà les plus connus qui sont Googlebot de Google, Bingbot de Bing, on peut citer aussi DuckDuckBot, Yahoo! Slurp, Qwantify, Baiduspider, Yandex, etc. Vous trouverez une liste des robots d’exploration dans cette base de données de robots.

Notez qu’ils explorent non seulement les sites WordPress mais aussi une quantité d’autres CMS sans faire de distinction.

Comment savoir si un robot a exploré votre site WordPress ?

Vous pouvez consulter les logs de votre site web pour contrôler l’ensemble des robots d’exploration qui passent sur votre site. Chaque robot d’exploration est clairement identifié. Vous avez même leur adresse IP.

Si vous ne savez pas comment accéder à vos fichiers logs, votre hébergeur web se fera un plaisir de vous aider.

Est-ce que tous les robots respectent le fichier robots.txt ?

Des robots d’exploration respectent les consignes de votre fichier robots.txt, d’autres ne les respectent pas. Si vous tenez vraiment à ce qu’aucun robot n’accède à des répertoires confidentiels, une protection est possible grâce au fichier .htaccess. Les robots ne pourront plus accéder à une URL spécifique grâce à une protection par mot de passe.

Faut-il utiliser le même langage pour tous les robots ?

Certains robots comprennent vos consignes de manière différente. Il est donc nécessaire de s’adresser individuellement à chacun de ces robots.

Est-ce que le fichier robots.txt protège efficacement les répertoires confidentiels ou privés ?

Non. Une consigne dans un fichier robots.txt n’empêche pas les moteurs de recherche d’indexer vos répertoires confidentiels ou privés. C’est juste une première mesure. L’autre consiste à bloquer l’accès à ces répertoires par un mot de passe – avec le fichier .htaccess.

Comment savoir si votre fichier robots.txt contient des erreurs ou pas ?

Il y a quelques outils pour le savoir. J’en connais un que j’utilise souvent, c’est Robots.txt Cheker. Vous pouvez utiliser aussi d’autres outils. Google en propose un dans sa Search Console, il faut inscrire votre site WordPress pour pouvoir l’utiliser. La seule limite de cet outil c’est qu’il limite le test de votre fichier aux robots d’exploration de Google.

Sources : Google (En savoir plus sur les fichiers robots.txt) – Wikipédia (Protocole d’exclusion des robots) – Wikipédia (Robot d’indexation)

Yassine A.

Professionnel du SEO et du Webmarketing depuis plus de 10 ans. J'apporte PLUS de visibilité et PLUS de ventes aux entreprises, agences, startups et micro-entrepreneurs que j'accompagne. Certifié Google. Mes spécialités sont le référencement naturel (SEO) et la création de site E-commerce.