robots.txt / balise “robots”

Le fichier robots.txt

Le robots.txt permet est destiné aux moteurs.
Il permet d’autoriser ou non un moteur nommé (utile pour interdire les collecteurs de mails mais sachant que tous les robots ne respectent pas le robots.txt !).
Il permet également de spécifié des pages à ne pas suivre (Les pages qui n’ont aucun intérêt pour le référencement ; les dossiers de scripts, de formulaire, par exemple). Il permet ainsi une économie en ressources.

  • Attention à la syntaxe et à la casse : c’est : robots.txt
  • Les robots sont le plus souvent sensible à la casse
  • Si les robots.txt sont destinés aux moteurs, ils sont lisibles par tous : ne pas y lister les répertoires cachés (il suffit de ne pas faire de liens dessus !)
  • Le robots.txt est unique et doit être à la racine du site
  • Ne pas sauter de ligne dans le fichier robots.txt
  • En cas d’absence de robots.txt (= si on veut que le moteur suive tous les liens, indexe tout), le moteur le cherche (ce qui entraîne, dans les logs, une erreur 404). Ne le trouvant pas, il ne perd pas son temps à l’analyser. On peut toutefois le mettre quand même si on veut “faire propre”.

Exemple :

# Commentaire
User-agent: *
# A quel moteur s'applique la règle. * = tous les moteurs
Disallow: /scripts/
# Interdit la visite à tout le contenu du répertoire scripts
Disallow: /membres/inscription.php
# Interdit la visite à la page inscription.php
# un groupe User-agent par moteur

La balise meta robots

  • Elle n’est pas suivie par tous les robots ; privilégier le robots.txt
  • On doit la mettre sur toutes les pages du site !
  • Syntaxe :
    page indexée, liens suivis :

    • <metaname="robots" content="index, follow">
    • <meta name="robots" content="all">

    page indexée, liens non suivis :

    • <metaname="robots" content="index, nofollow">

    page non indexée, liens suivis :

    • <metaname="robots" content="noindex, follow">

    page non indexée, liens non suivis :

    • <metaname="robots" content="noindex, nofollow">
    • <meta name="robots" content="none">

La balise d’indexation “keywords”

  • Une importance très faible
  • Y mettre les mots absents du contenu et pourtant ayant un rapport, une pertinence avec le contenu (synonymes, anglicismes, …).
  • Mettre les mots dans l’ordre d’importance, les plus importants au début.
  • Utiliser les groupe de mots : “création de sites Internet” plutôt que “création, sites, Internet”.
  • Ne mettre les pluriels que s’ils différents de plus d’une lettre du singulier (ex. : cheval / chevaux).
  • Séparateur : espace ou virgule ou espace + virgule
  • Risque d’être considéré comme spammeur au-delà de 100 mots ou 1000 caractères (un caractère accentué vaut pour un) ;
  • Une 20aine de mots suffit.
  • L’utilisation de marques, de nom de concurrent est illégale.
  • A placer sous la meta “description”.
<meta name="keywords" content="" />

Quiz pour geeks !

Petits quiz sur mingle (devenu OnePlusYou). Je me suis bien amusée, même si je ne cache pas que je suis un peu déçue par mes scores… Bon, bien sûr, je n’étais pas tout à fait prête, j’étais fatiguée, il y avait du bruit, la pièce était sombre, la chaise n’était pas confortable… Tout ça, quoi !

Concevoir un plan de site

L’utilité du plan de site.

Le plan du site comme aide à la navigation

La toute première fonction d’un plan du site est d’aider le visiteur dans sa navigation.
Cela peut, par exemple, être un visiteur qui recherche un type d’information précis et n’arrive pas à le trouver dans le menu, ni dans les pages. Si le site n’a pas de module de recherche, ou si l’internaute ne souhaite pas y faire appel, il peut alors utiliser le plan du site.

Mais l’internaute peut tout aussi bien avoir consulter le plan du site sans avoir fait une seule recherche dans les rubriques du menu ou en navigant. Il se peut très bien que le plan soit le premier lien auquel il ait recours. Soit qu’il recherche une information pointue et estime qu’il la trouvera plus facilement en ayant accès aux sous-rubriques et autres niveaux directement. Soit, tout simplement, pour se donner une idée de la prestation d’un site et des domaines couverts.

Des mot-clés et des liens pertinents

Le plan du site, par sa fonction même, va reprendre les mots importants du site : le titre des pages.

Mais la plus grande force encore du plan du site vient du fait que c’est un véritable réseau de liens sur le site.
D’abord, en listant la totalité des pages du site (ou des pages principales), on s’assure que le robot des moteurs de recherche trouvera chacune d’entre-elles. C’est donc une page que le spider doit facilement trouver.

Comment faire ?

Emplacement

On a vu que le réseau de lien que représente le plan du site est un avantage pour le référencement. Cet avantage est réellement efficace si de nombreuses pages pointent vers le plan du site. Mais de toute façon, d’un point de vue ergonomique, la présence d’un lien vers le plan du site sur chaque page est indispensable. En effet, on ne peut savoir d’avance à quel moment un visiteur va en avoir besoin. Et comme c’est un outil d’aide à la navigation… il doit facilement être trouvable !

Par habitude, on s’attend à trouver un lien vers le plan du site au moins en bas de page.

Présentation

Un plan de site peut-avoir un aspect très différent selon que le site est composé de quelques pages ou de plusieurs centaines ! Il n’y a pas une façon de faire un plan mais il faut savoir s’adapter à la situation.

Dans le cas d’un site à beaucoup de pages, vous n’allez pas lister dans votre plan la totalité (ou en utilisant une solution faisant apparaître des sections, par exemple). Vous pouvez très bien, également, faire un plan sur plusieurs pages. Gardez d’ailleurs à l’esprit que Google déconseille d’avoir plus de 100 liens dans une page et que les règles d’accessibilité préconisent 40 liens maximum.

Au contraire, pour le plan d’un site ayant peu de pages, vous pouvez vous permettre un plus grand niveau de détails. Vous pouvez même aller jusqu’à une description succincte de la page derrière chaque lien, pour mieux aiguiller l’internaute (et glisser quelques mot-clés !)

Pour que votre plan soit vraiment utile à l’internaute, pensez à bien l’organiser. Hiérarchisez les rubriques, les pages.
Les marges, les couleurs peuvent vous aider à créer des zones. N’oubliez pas que si votre plan est agréable à consulter, cela pourrait insciter l’internaute à le regarder dans le détail et, peut-être, à voir des pages qu’il n’aurait pas pensé à chercher autrement.

Code

Un plan, ce n’est rien d’autre que la liste des pages du site. Il faut donc utiliser les balises <ul> <li> (dans certains cas <ol> <li>). Vous aurez certainement à imbriquer ces listes.

La syntaxe est la suivante :

<ul>
        <li>Rubrique 1
                <ul>
                        <li>Sous-rubrique 1</li>
                        <li>Sous-rubrique 2</li>
                </ul>
        </li>
        <li>Rubrique 2</li>
</ul>

Pour que votre référencement soit vraiment optimisé, n’oubliez pas d’utiliser l’attribut title sur vos liens.

La page 404

Votre site devrait contenir une page 404 personnalisée. Si un internaute arrive dessus, c’est soit qu’il y a une erreur dans l’URL qu’il a tapée.

Soit il identifie et corrige son erreur immédiatement, soit la page n’existe plus ou tout autre situation. Il faut alors aider votre visiteur et quoi de mieux que le plan du site ?!

Il est donc utile de prévoir, si on le peut, le plan du site dans un include qui serait appelé depuis la page plan du site et depuis la page 404.

Des exemples

Un exemple sur www.service-public.fr www.service-public.fr/aide/plan.htmlPour ce site aux nombreuses pages, en plus des rubriques déjà présentes, le plan a été découpé en trois espaces thématiques.
Un exemple sur http://pourpre.com http://pourpre.com/pied/plan.phpPour ce site très riche autour d’un thème unique, la courte description a côté des rubriques et des sous-rubrique apporte une aide en plus.

Les bases du référencement naturel

Le contenu

La première règle du référencement naturel est à la fois la plus simple et la plus efficace : privilégier le contenu ! Un site développé dans le soucis de son lecteur fera un site optimisé pour le référencement naturel. Cela implique de penser à l’accessibilité, à la rédaction, à l’ergonomie, même.

Afin de bien préparer le contenu et le référencement d’un page, il faut avoir listé les mots-clés, les expression que l’on souhaite optimiser. Viennent s’y ajouter les mots et expressions faisant parti du champs lexical traité, les synonymes, les anglicismes, etc. Cette base est à garder en tête tout au long de la conception et de la réalisation de la page.

Au coeur de ce contenu, la présence et la densité des mots-clé joue un rôle dans la pertinence de votre page. Attention tout de fois à ne jamais exagérer ! 50 occurrences d’un même mot

dans une page de 100 mots n’est pas une bonne méthode. Si vous vous posez la question de la limite à ne pas dépasser … pensez à l’utilisateur, à ce que vous feriez si le référencement naturel n’avait aucune importance pour vous !

Pour placer vos mots-clé dans le contenu de la page, vous pouvez utiliser l’attribut alt des images. Cet attribut, obligatoire pour des raisons d’accessibilité, doit avant tout donner un renseignement sur l’image ; il ne s’agit pas de détourner sa fonction. Mais il peut être également l’occasion de placer une occurrence d’un mot clé ou d’un synonyme.

Toujours en respectant la fonctionnalité du code, les libellés de liens, les attributs title des liens et des images permettent d’optimiser la page.

Si l’on a, au moment de la conception de la page, bien à l’esprit le sujet de la page, les mots importants, les sujets connexes, cette présence des mots-clés dans les différents bouts de code devrait se faire naturellement.

L’autre avantage, c’est que chaque page du site est ainsi ciblée par rapport à sa propre thématique (il ne s’agit pas de cibler la thématique générale du site). Vous obtenez ainsi un site aux pages ayant leur propre titre (la balise <title>), leur propre description, leurs propres mot-clés, etc. Là encore, vous privilégiez l’internaute qui s’y retrouve mieux dans des pages personnalisées et cohérentes et les moteurs de recherche qui découvre un site riche et sans répétitions douteuses.

Le respect du code HTML et notamment de l’utilisation des balises est encore un point bénéfique. Le robot, qui ne “voit” pas le site mais lit le code, est sensible à un code précis.

L’utilisation des balises <h1> à <h6> hiérarchise la page, les informations et renseigne le moteur de recherche, une nouvelle fois, sur les mots importants de la page. Dans une moindre mesure, les balises <strong> et <em> jouent le même rôle.

La mise à jour

Un site mis à jour régulièrement augmente aussi ses chances d’être bien référencé : parce qu’il apparaît ainsi comme un site vivant et intéressant pour les internautes et parce que les moteurs d’indexation reviennent plus souvent sur un site qui change. C’est un critère qui peut vous avantager.

Les liens

Il faut particulièrement veiller à la qualité des liens, qu’ils soient entrants ou sortants.

Les liens bénéfiques au référencement sont ceux qui pointent sur ou qui viennent de pages au sujet analogue.

Bien sûr, un lien venant d’un site de qualité, au code soigné, au référencement optimisé, a un poids plus positif pour votre propre référencement. Et, dans la logique, plus votre site est lui même soigné et pertinent, plus un site de qualité aura envie de vous citer. Là encore, la solution est donc encore de privilégier l’internaute, le contenu.

Attention, certains webmasters étant peu scrupuleux ou très joueurs avec le référencement, Google a appris à ce méfier des pages de lien et conseille maintenant de ne pas dépasser une 100aine de liens par page. Cela peut, dans certains cas, être un critère pénalisant. Pour information, les critères Accessiweb déconseillent, de toute façon, de dépasser 40 liens par page.

Les informations “extérieures”

La présence de mots-clé dans l’URL peut être un avantage. Pensez-y au moment de créer un nouveau sous-domaie, un nouveau répertoire ou un nouveau fichier. Dans chacun de ces choix, utilisez des séparateurs de mot, tel que le tiret “-” et non, par exemple, le underscore “_” afin d’éviter que Google amalgame votre nom en une seule expression. Pour l’utilisateur aussi, cela peut être un petit “plus” : s’il copie l’URL pour la conserver, pour l’envoyer à quelqu’un, etc. Une URL significative rend donc, encore une fois, service à l’internaute comme au référencement naturel.

Les deux balises meta “description” et “keywords” si elles sont de plus en plus dépréciées ne sont pas à placer sur le même plan. En effet, la description est encore utilisée parfois dans les résultats de recherche des moteurs. C’est donc un allier précieux pour inciter un internaute à venir trouver ce qu’il cherche sur notre site.

La balise <textarea>

Les attributs rows et cols sont obligatoires et leur valeur doit être renseignée pour que la page soit valide.

Si la feuille de style indique une hauteur et une largeur pour les textarea, elle prendra la main sur les valeurs indiquées par rows et cols.

Ne confondons plus “alt” et “title”

L’attribut alt

L’attribut alt est fait pour accueillir un contenu alternatif. Il sera utilisé par le navigateur, par l’agent utilisateur en général, au cas où il ne pourrait pas lire l’élément, une image par exemple.

Dans une page web, un certains nombre d’éléments peuvent ne pas être accessible au navigateur, à l’agent utilisateur. Les images, par exemple, ne sont bien évidement pas “lues” par un navigateur vocal ou si un internaute, en bas débit par exemple, a décidé de désactiver les images. Cela peut-être le cas des applets, des objets, des images ; en fait, de tous les éléments graphiques.

Pour que les internautes ne perdent pas pour autant l’information, on fournit à l’agent utilisateur une alternative textuelle. Elle a pour but d’indiquer à l’internaute le contenu de l’applet, de l’objet, de l’image.

Exemple [1] : <img src="images/logo.gif" alt="Logo de Game On Net" />

Tous les objets graphiques doivent fournir une information alternative. Dans le cas d’une image purement décorative, l’attribut alt peut être laissé vide, mais doit être présent.

Exemple : <img src="images/decor-rubrique.jpg" alt="" />

Le contenu du alt doit faire 60 caractères maximum (un caractère encodé vaut pour un).

Si l’objet, par contre, fournit de nombreuses informations, qu’il est impossible ou réducteur de le résumer dans un alt, on utilise alors en complément l’attribut longdesc qui fait appel à un fichier de description plus complet.

Exemple : <img src="images/graphique.gif" alt="Statistiques du site" longdesc="graphique.txt" />

L’attribut title

L’attribut title (non la balise title contenue dans le head et qui apparaît dans la barre de titre du navigateur) est le titre d’un élément.

Il peut être présent pour une image.

Exemple : <img src="images/ventes-2005.jpg" alt="Graphique" title="Evolution des ventes de 2005" longdesc="ventes2005.txt" />

Il est également attendu sur les liens pour fournir une information en plus de celles du libellé.

Exemple : <a href="http://www.site.com/accessibilite.html" title="Lire l'article sur l'accessibilité sur Site">L'accessibilité</a>

Si nous reprennons l’exemple du logo, nous pourrions avoir : <a href="index.html" title="Game On Net - Accueil"><img src="images/logo.gif" alt="Logo Game On Net" /></a>

L’information données par l’attribut title est destinée à tous les types de navigateurs et fournis dons un texte visible par tous. Le texte d’un title apparaît donc dans les navigateurs classiques dans une petite info-bulle, au survol de l’élément.

En cas d’absence de title mais de présence de alt, Internet Explorer affiche le contenu du alt dans l’info-bulle. Et c’est probablement de là qu’est née une partie de la confusion entre ces deux éléments et qui a fait que l’on trouve encore beaucoup de alt dans des balises a (ce qui n’a pas de sens au vu de la fonction du alt). Si les deux attributs sont présents, Internet Explorer utilise le title en priorité pour son info-bulle.

L’attribut title autorise 80 carctères maximum (un caractère encodé vaut pour un).

Référencement naturel : critères importants

  1. le contenu
    Le contenu doit être pertinant et fait pour les utilisateurs (pas pour les moteurs de recherche). Inclu :

    • la densité des mots-clé, placés dans un contexte sémantiquement cohérant
    • la non-similarité des pages
  2. la balise <title>
    Doit être adaptée au contenu de la page.
    Utilisée mais également affichée par les moteurs de recherche.
    (voir la fiche : title (balise))
  3. les liens entrants et sortants pertinents
    Plus les backlinks sont pertinants nombreux, plus ils servent le référencement. Les liens sortant en rapport avec le contenu ont également une influence bénéfique.
    (voir la fiche : a)
  4. En cas d’interdiction : robots.txt
    (voir la fiche : robotx.txt)
  5. les balises <h1> à <h6>
    Elles servent à hiérarchiser la page. Attention à ne pas les detourner de leur usage car elles sont, entre-autres, très importantes pour les lecteurs vocaux.
  6. L’URL
    Si l’URL contient les mots-clé recherchés par l’internaute, le site aura beaucoup plus de chance de ressortir.
    Dans le cas d’une marque, une URL significative doit contenir le nom de la marque.
  7. la balise meta “description
    Plus importante pour recevoir une visite d’un internaute que pour les moteurs de recherche.
    (voir la fiche : description / keywords)
  8. la mise à jour des pages : date de la dernière mise à jour et fréquence
    Les moteurs de recherche (et les internautes !) aiment les sites fréquemment actualisés. Si, entre deux visites d’un moteur, le contenu d’une page n’a pas changé, le spider espacera ses visites.
  9. la balise meta “keywords
    Importance de plus en plus infime.
    (voir la fiche : description / keywords)
  10. les balises <strong> et <em>
    Toujours en respectant la logique du contenu et l’internaute.

Les balise d’indexation “description”

  • Certains moteurs affichent le contenu de la meta description dans leurs résultats. Elle est donc utile pour séduire l’internaute.
  • En cas d’absence de la balise de description, le moteur affichera les premiers mots de la page, ou les quelques mots autour des mots de recherche.
  • 150 / 200 caractères, espaces compris (un caractère accentué vaut pour un).
  • A placer sous la balise title.
<meta name="description" content="" />