Lors du dernier article consacré à l’amélioration de votre référencement, nous avons parlé du fichier sitemap. Ce fichier, une fois créé et publié, permet aux robots des moteurs de recherche de consulter votre site et donc de référencer l’intégralité de vos pages. On pourrait penser qu’on pourrait s’arrêter là. En effet, vous allez me dire que maintenant que toutes vos pages sont référencées, à quoi bon de continuer ? Et bien non! Il va falloir créer un fichier robots.txt qui aura pour fonction de définir l’accès ou non de certaines de vos pages car : 1) des pages sont confidentielles; 2) Évitons trop de contenu dupliqué pour les moteur.

1) certaines de vos pages sont ‘confidentielles’ : on ne va pas permettre aux robots de référencer vos fichiers wordpress du style : /wp-admin/, /wp-include/, /wp-content/, ni les /cgi-bin/ car cela n’a aucun intérêt pour le lecteur;

2) Évitons le duplicate content (contenu dupliqué) : le contenu dupliqué nuit au référencement. Je ne vais pas entrer dans les détails car j’en ai suffisamment parlé sur mon blog, aller consulter mes articles traitant de ce sujet. On va donc demander aux robots de ne pas aller dans certains fichiers où l’on trouve le même contenu dans d’autres fichiers.

Pour résumer, quand on va créer ce fichier robots.txt, on va vouloir :

1. Bloquer l’accès à des fichiers délicats, inutiles pour le lecteur;
2. Bloquer l’accès à des fichiers dont le contenu est “dupliqué”.

Créons donc ce fichier robots.txt. Ouvrez par exemple votre ‘bloc note’ et nommez le ‘robots.txt’. On le placera à la racine de votre site : http://www.monblogwordpress.com/robots.txt

Voici ce que nous allons indiquer dans ce fichier :

Sitemap: http://www.monblogwordpress.com/sitemap.xml
User-agent: *

L’URL du sitemap indique aux robots de balayer toutes les pages de votre blog wordpress. Ensuite, on indique que cela s’adresse à tous les robots des moteurs de recherche. Et enfin, on indique que les robots ont accès à l’ensemble des fichiers de votre blog WordPress.

La deuxième étape consiste à bloquer l’accès à certains dossiers et fichiers pour des raisons expliquées plus haut. Pour se faire, on ajoute :

Disallow: /cgi-bin/
Disallow: /wp-

Avec ces 2 lignes, on bloque l’accès aux fichiers ‘délicats’. Je retiendrais l’astuce de Fran6art qui au lieu d’indiquer un disallow à /wp-admin/, /wp-include/, /wp-content/, on va juste indiquer /wp- qui empêche l’accès à tous les fichiers commençant par « wp- ».

On ajoute ces 3 autres lignes pour limiter le duplicate content en bloquant l’accès aux flux, trackback et commentaires.

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

Par exemple, voici à quoi ressemble mon fichier robots.txt :

Sitemap: http://blogityourself.net/sitemap.xml
  1.  
  2. User-agent: *
  3. Disallow: /cgi-bin/
  4. Disallow: /wp-
  5. Disallow: /trackback/
  6. Disallow: /feed/
  7. Disallow: /comments/feed/
  8. Allow: /category/
  9. Allow: /page/
  10. Allow: /tag/
  11. Disallow: /search/
  12.  
  13. # Google Image
  14. User-agent: Googlebot-Image
  15. Disallow:
  16. Allow: /*
  17.  
  18. User-agent: Googlebot
  19. Disallow: /*.php$
  20. Disallow: /*.js$
  21. Disallow: /*.inc$
  22. Disallow: /*.css$
  23.  

Vous pouvez voir que d’autres lignes ont été ajoutées et je vous expliquerai leurs fonctions dans une 3ème partie ainsi que l’utilisation du plugin WordPress All in one SEO Pack pour bloquer aussi l’accès à certaines URL afin toujours d’éviter ce satané duplicate content ;)

David LOUIS

Directeur chez Webset, Organisme de formation professionnelle pour les métiers de la culture, du spectacle vivant, Consultant web 2.0, adepte du DIY et du Coworking

More Posts - Website - Twitter - Facebook

Articles similaires