I3W
 I3W.be
Indexing the World Wide Web
  

AIDE ET CONSEILS AUX WEBMASTERS SUR LE REFERENCEMENT ET L'OPTIMISATION D'UN SITE WEB


Le plan sitemap

Le protocole Sitemap vous permet d’indiquer aux moteurs de recherche les URL à explorer sur vos sites Web. Dans sa forme la plus simple, un plan Sitemap utilisant le protocole Sitemap est un fichier XML qui répertorie les URL d’un site. Ce protocole a été écrit pour être extrêmement évolutif et s’adapter à des sites de toutes tailles. Il permet également aux administrateurs Web d’inclure des informations complémentaires sur chaque URL (date de dernière modification, fréquence de révision, importance relative par rapport aux autres URL du site), de façon à favoriser une exploration plus intelligente du site par les moteurs de recherche.

Les plans Sitemap sont particulièrement utiles lorsque les internautes ne peuvent pas atteindre toutes les zones d’un site Web à l’aide d’une interface de navigation. Cela se produit généralement lorsque les liens proposés ne permettent pas d’atteindre certaines pages ou zones d’un site. Ainsi, vous avez intérêt à créer un plan Sitemap et à l’envoyer aux moteurs de recherche si votre site contient des pages uniquement accessibles par le biais d’un formulaire de recherche.

Ce document décrit les formats de fichiers Sitemap et explique où vous devez placer ces fichiers pour que les moteurs de recherche puissent les exploiter.

Notez que le protocole Sitemap complète, mais ne remplace pas, les mécanismes fondés sur l’exploration que les moteurs de recherche utilisent déjà pour découvrir des URL. En envoyant un plan Sitemap (ou plusieurs) à un moteur de recherche, vous contribuez à optimiser le fonctionnement de ses robots d’exploration.

Le recours à ce protocole ne garantit pas la prise en compte de vos pages Web dans les index de recherche, (Notez que l’utilisation de ce protocole n’influe pas sur le mode de classement de vos pages par un moteur de recherche.)

Format de plan Sitemap XML [Contenu]

Le format du protocole Sitemap se compose de balises XML. Toutes les valeurs de données d’un plan Sitemap doivent utiliser des caractères d’échappement d’entité. Quant au fichier, il doit être enregistré avec un codage UTF-8.

Vous trouverez ci-après un exemple de plan Sitemap composé d’une seule URL et utilisant toutes les balises facultatives. Ces dernières sont en italique.


  <?xml version=”1.0″ encoding=”UTF-8″?>
  < urlset xmlns=”http://www.google.com/schemas/sitemap/0.84“>
   < url>
    < loc>http://www.example.com/</loc>
    < lastmod>2005-01-01</lastmod>
    < changefreq>monthly</changefreq>
    < priority>0.8</priority>
   </url> 
  </urlset> 

Le plan Sitemap doit :

- Commencez par une balise d’ouverture et terminez par une balise de fermeture .

- Inclure pour chaque URL une entrée en tant que balise XML parent

- Inclure une entrée enfant pour chaque balise parent .

Définitions des balises XML

Les balises XML disponibles sont décrites ci-après.

<urlset>
obligatoire Encadre le fichier et référence le standard de protocole actuel.
<url>
obligatoire Balise parent de chaque entrée d’URL. Les autres balises sont des enfants de cette balise.
<loc>
obligatoire URL de la page. Cette URL doit commencer par l’intitulé du protocole (http, par exemple) et se terminer par une barre oblique si votre serveur Web l’exige. L’URL ne doit pas comporter plus de 2 048 caractères.
<lastmod>
facultatif Date de la dernière modification du fichier. Cette date doit être au format date et heure W3C. Celui-ci vous permet d’omettre l’heure, si vous le souhaitez, et de n’utiliser que le format AAAA-MM-JJ.
<changefreq>
facultatif Fréquence probable de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et n’a pas nécessairement de rapport avec la fréquence effective d’exploration de la page. Les valeurs acceptées sont les suivantes :

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

La valeur « always » (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur « never » (jamais) doit être utilisée pour décrire les URL archivées.

Notez que la valeur de cette balise est considérée comme une indication, et non comme une commande. Même si les robots d’exploration des moteurs de recherche prennent cette information en compte, ils ne l’appliquent pas nécessairement de façon stricte. Ainsi, ils peuvent explorer des pages dont la fréquence de modification est « hourly » (horaire) moins fréquemment que cela ou, à l’inverse, explorer des pages dont la fréquence de modification est « yearly » (annuelle) plus fréquemment. Il est également vraisemblable que les robots exploreront régulièrement les pages associées à la fréquence de modification « never » (jamais), de façon à traiter les modifications non prévues apportées à ces pages.

<priority>
facultatif Priorité de cette URL par rapport aux autres URL de votre site. Les valeurs acceptées sont comprises entre 0,0 et 1,0. Cette valeur est sans effet sur la comparaison de vos pages avec celles d’autres sites. Elle permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes de façon à organiser l’exploration de votre site comme vous l’entendez.La priorité par défaut d’une page est égale à 0,5.Notez que la priorité attribuée à une page n’a aucune incidence sur la position de vos URL dans les pages de résultats du moteur de recherche. Les moteurs de recherche utilisent cette information pour hiérarchiser les URL d’un même site lors de leur sélection. Cette balise vous permet donc d’augmenter la probabilité que vos pages les plus importantes figurent dans l’index de recherche.

En outre, notez que l’attribution d’une priorité élevée à toutes les URL de votre site ne vous sera d’aucune utilité. En effet, cette priorité relative n’est utilisée que pour hiérarchiser les URL de votre site lors de leur sélection ; aucune comparaison ne sera établie entre la priorité de vos pages et celle des pages d’autres sites.

Comme un petit dessin vaut mieux qu’un long discours :-] Voici le sitemap de ce site qui pourra vous servir d’exemple. 

Si vous n’utilisez pas de CMS (Content Management System) avec générateur de sitemap.xml automatisé, je vous conseille d’utiliser des générateurs de sitemap pour vous éviter des heures de travail.

Une fois votre sitemap génére et copié dans la racine de votre site, vous devez le soumettre aux moteurs de recherche, le plus simple étant les “sitemap submitters” qui vous permettront de soumettre votre site à Google, Yahoo, ask et moreover(msn).

Présentation du fichier robots.txt

Présentation du fichier robots.txt

Le fichier robots.txt est un fichier texte contenant des commandes à destination des robots d’indexation des moteurs de recherche afin de leur préciser les pages qui peuvent ou ne peuvent pas être indexées. Ainsi tout moteur de recherche commence l’exploration d’un site web en cherchant le fichier robots.txt à la racine du site.

Format du fichier robots.txt

Le fichier robots.txt (écrit en minuscules et au pluriel) est un fichier ASCII se trouvant à la racine du site et pouvant contenir les commandes suivantes :

User-Agent: permet de préciser le robot concerné par les directives suivantes. La valeur * signifie “tous les moteurs de recherche”.

Disallow: permet d’indiquer les pages à exclure de l’indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie “toutes les pages du site”.

ATTENTION! Le fichier robots.txt ne doit contenir aucune ligne vide !

Voici des exemples de fichier robots.txt :

Exclusion de toutes les pages :

User-Agent: *
Disallow: /

Exclusion d’aucune page (équivalent à l’absence de fichier robots.txt, toutes les pages sont visitées) :

User-Agent: *
Disallow:

Autorisation d’un seul robot  :

User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /

Exclusion d’un robot :

User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:

Exclusion d’une page :

User-Agent: *
Disallow: /repertoire/chemin/page.html

Exclusion de plusieurs page :

User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html

Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Voici quelques exemples de User-Agents pour les moteurs de recherche les plus populaires :

Nom du moteur : User-Agent
Alta Vista : Scooter
Excite : ArchitextSpider
Google : Googlebot
HotBot : Slurp
InfoSeek : InfoSeek Sidewinder
Lycos : T-Rex
Voilà : Echo

Plus d’informations sur robots.txt

Conseils aux Webmasters

L’objectif de ce site n’est pas de faire de vous des professionnels du référencement mais de vous permettre d’obtenir une meilleure position dans les moteurs de recherche en appliquant des règles simples et faciles à mettre en oeuvre.

Gardez à l’esprit que les règles d’or pour un site web sont ”contenu pertinent” et “moteurs de recherche“, mais si vous avez le 1er, le second suivra ;-)

Si vous n’avez pas les compétences ou ne voulez prendre en charge l’optimisation de votre site web, consultez nos offres de référencement ou contactez-nous.

Le référencement n’est pas une science, c’est une discipline.

Ps : il est fortement conseillé d’avoir des compétences en html avant se lancer dans l’optimisation d’un site web, si ce n’est pas votre cas, lisez l’article sur l’apprentissage du language html

Conseils aux webmasters

En suivant les conseils ci-dessous, vous permettrez aux moteurs de recherche de trouver, d’indexer et de classer plus facilement votre site. Même si vous décidez de ne pas suivre tous ces conseils, je vous suggère de lire attentivement la section “à ne pas faire“. Elle aborde en effet certaines des pratiques illicites susceptibles d’entraîner l’application de sanctions ou le retrait définitif des sites concernés de l’index Google. Lorsqu’un site a été sanctionné, il est possible qu’il n’apparaisse plus dans les résultats de Google.fr ni sur les sites partenaires de Google.

Lorsque votre site est prêt, suivez les recommandations ci-après :

Générez des balises META correctes et optimisez vos liens.

Assurez vous d’avoir un contenu pertinent.

Soumettez votre site aux moteurs de recherche en utilisant notre référenceur gratuit.

Transmettez aux moteurs de recherche un plan Sitemap de votre site en utilisant ce sitemap submitter qui le soumettre à Google, Yahoo, Ask et Moreover(msn). Google utilise le plan Sitemap de votre site pour en comprendre la structure et offrir un plus large référencement de vos pages dans son index.

Vérifiez que tous les sites susceptibles d’être intéressés par le contenu de vos pages sont informés que votre site est en ligne.

Soumettez votre site aux annuaires les plus influents, tels qu’Open Directory Project et Yahoo! ainsi qu’à d’autres sites spécialisés.

Suivez les conseils de cet article pour augmenter votre pagerank.

Conseils concernant la conception et le contenu

Efforcez-vous de définir une hiérarchie claire entre les pages et de créer des liens texte pertinents. Chaque page doit être accessible à partir d’au moins un lien texte statique.

Créez un plan de site dont les liens pointent vers les sections les plus importantes de votre site. Si le plan de votre site comporte plus de 100 liens, nous vous conseillons de le diviser en plusieurs pages.

Présentez des informations utiles à l’aide de pages au contenu clair et précis.

Essayez d’imaginer les termes susceptibles d’être utilisés par les internautes pour trouver votre site et insérez ces termes dans vos pages.

Pour présenter les éléments les plus importants de votre site (noms, contenu, liens, etc.), utilisez du texte plutôt que des éléments graphiques. En effet, les robots d’exploration ne reconnaîssent pas les informations figurant dans les graphiques.

Assurez-vous que le texte associé aux balises title et aux attributs alt est précis et descriptif.

Assurez-vous que vos liens fonctionnent correctement et que le code HTML de vos pages ne présente pas d’erreurs.

Si vous utilisez des pages dynamiques (l’URL de la page contient alors le caractère “?”), n’oubliez pas que ces pages peuvent ne pas être explorées par certains robots de moteur de recherche. Il est donc conseillé de limiter le nombre et la taille des paramètres de ces URL.

Sur chaque page, limitez les liens à un nombre raisonnable (moins de 100).

Conseils techniques

Utilisez un navigateur texte tel que Lynx pour examiner votre site. La plupart des robots de moteur de recherche visualisent en effet votre site de la même manière que Lynx. Si certaines fonctionnalités (JavaScript, cookies, ID de session, cadres, balises DHTML ou contenus Flash) vous empêchent de voir la totalité de votre site dans un navigateur texte, il est possible que les robots rencontrent des difficultés similaires lors de leur exploration.

Évitez de faire appel à des ID de session ou à des arguments permettant de suivre les chemins empruntés par les robots sur votre site. Ces techniques sont utiles pour analyser le comportement des internautes, mais le mode d’exploration des robots est entièrement différent. Ces techniques peuvent donner lieu à une indexation incomplète de votre site, car les robots ne peuvent pas toujours éliminer les URL qui semblent différentes bien que pointant vers la même page.

Vérifiez que votre serveur Web prend en charge l’en-tête HTTP If-Modified-Since. Cet en-tête permet à votre serveur Web d’indiquer aux robots Google si le contenu de votre site a évolué depuis leur dernière exploration. Cette fonctionnalité permet de limiter la consommation en bande passante et l’exploitation inutile d’autres ressources informatiques.

Utilisez un fichier robots.txt sur votre serveur Web. Ce fichier indique aux robots d’exploration les répertoires de votre site qui peuvent ou non être explorés. Vérifiez que ce fichier est adapté à votre site ; sinon, vous risquez de bloquer l’accès du robot d’exploration Googlebot. Pour plus d’informations sur le contrôle des robots qui visitent votre site, consultez la page http://www.robotstxt.org/wc/faq.html. Pour tester votre fichier robots.txt et vérifier que vous l’utilisez de manière appropriée, servez-vous de l’outil d’analyse du fichier robots.txt disponible dans les outils Google pour les webmasters.

Si vous utilisez un système de gestion de contenu, vérifiez qu’il peut exporter votre contenu pour permettre l’exploration de votre site par les robots des moteurs de recherche.

Utilisez le fichier robots.txt pour éviter l’exploration des pages de résultats de recherche ou d’autres pages générées automatiquement par les moteurs de recherche et qui n’offrent pas d’intérêt particulier pour les internautes.

A ne pas faire : Peu ou pas de contenu informatif

L’une des étapes les plus importantes dans l’amélioration du classement de votre site dans les résultats de recherche Google consiste à s’assurer qu’il contient de nombreuses informations intéressantes, incluant des mots clés pertinents qui sont utilisés de manière appropriée et indiquent l’objet de votre contenu. (more…)