Sitemap et robots.txt : guide simplifié pour PME
A quoi servent le sitemap XML et le robots.txt. Guide simple pour comprendre ces fichiers essentiels au référencement.
Le sitemap XML et le fichier robots.txt sont deux fichiers techniques que Google lit avant même vos pages. Ils ne s’affichent pas aux visiteurs, mais ils conditionnent directement votre référencement. Voici ce qu’ils font, pourquoi ils comptent, et les erreurs à éviter.
Le sitemap.xml : la carte de votre site pour Google
Un sitemap XML est un fichier texte structuré, placé à la racine de votre site (/sitemap.xml), qui liste toutes les pages que vous voulez voir indexées par les moteurs de recherche. Concrètement, c’est une carte que vous tendez à Google pour lui dire : “voici tout ce que contient mon site, voici les pages importantes, voici quand elles ont été mises à jour.”
Sans sitemap, Google peut tout de même trouver vos pages — en suivant les liens internes. Mais ce processus est aléatoire et lent. Avec un sitemap, vous accélérez la découverte et vous vous assurez qu’aucune page importante n’est oubliée.
Un sitemap bien formé contient :
- L’URL complète de chaque page (
https://votresite.ch/services/) - La date de dernière modification (
<lastmod>) — utile pour indiquer à Google qu’une page a été mise à jour - La priorité relative (
<priority>) — une indication sur l’importance de chaque page par rapport aux autres - La fréquence de mise à jour (
<changefreq>) — quotidienne, mensuelle, etc.
Pour un site de 10 à 50 pages, un seul fichier suffit. Pour les sites plus grands, on utilise un index de sitemaps.
Le robots.txt : les instructions pour les robots d’exploration
Le fichier robots.txt, placé lui aussi à la racine (/robots.txt), sert à donner des instructions aux robots d’exploration — les programmes automatisés que Google, Bing et les autres moteurs envoient pour parcourir le web.
Ces instructions permettent de :
- Autoriser ou interdire l’exploration de certaines sections du site
- Indiquer l’emplacement du sitemap
- Bloquer les robots indésirables (scrapers, robots d’analyse concurrentielle)
Un exemple de robots.txt minimal et correct pour une PME :
User-agent: *
Allow: /
Sitemap: https://votresite.ch/sitemap.xml
La ligne User-agent: * s’applique à tous les robots. Allow: / autorise l’exploration de l’ensemble du site. La ligne Sitemap pointe vers votre sitemap — c’est une convention recommandée par Google.
Pourquoi ces deux fichiers sont essentiels pour le SEO
Google n’indexe pas automatiquement toutes les pages du web. Il priorise. Ses robots disposent d’un budget d’exploration limité pour chaque site — le “crawl budget” — et ils l’allouent en fonction des signaux qu’ils reçoivent.
Un sitemap complet et un robots.txt cohérent envoient des signaux clairs :
- Quelle est la structure de votre site — Google comprend mieux la hiérarchie de vos pages
- Quelles pages méritent d’être explorées — vous évitez de gaspiller le budget de crawl sur des URLs techniques inutiles
- Quand votre contenu a changé — une page mise à jour avec une
<lastmod>récente est recrawlée plus vite
Pour une PME avec un site vitrine de 10 à 30 pages, l’impact est direct : toutes vos pages de services, votre page contact et votre blog sont indexés rapidement et correctement.
Comment Google découvre et indexe vos pages
Le processus d’indexation suit trois étapes :
- Exploration (crawling) : Googlebot visite votre site en suivant les liens. Il lit le robots.txt en premier pour savoir où il peut aller.
- Traitement (processing) : Google analyse le contenu de chaque page — texte, images, données structurées, liens internes et externes.
- Indexation : si la page est jugée pertinente et accessible, elle est ajoutée à l’index de Google et peut apparaître dans les résultats.
Le sitemap intervient à la première étape : il permet à Google de trouver des pages qu’il n’aurait peut-être pas découvertes via les liens internes, notamment les pages récemment créées ou peu liées depuis le reste du site.
Erreurs fréquentes et comment les éviter
Bloquer des pages importantes dans le robots.txt
C’est l’erreur la plus grave. Une ligne Disallow: /services/ dans votre robots.txt empêche Google d’explorer vos pages de services — elles n’apparaissent plus dans les résultats. Cela arrive souvent après une migration de site ou une modification maladroite du fichier.
A vérifier systématiquement : votre robots.txt n’interdit pas l’accès à vos pages importantes.
Ne pas avoir de sitemap
Un site sans sitemap est un site que Google doit explorer en aveugle. Sur un site récent avec peu de backlinks, certaines pages peuvent rester non indexées pendant des semaines.
Un sitemap avec des URLs incorrectes
Si votre sitemap liste des URLs en http:// alors que votre site utilise https://, ou des URLs avec des redirections, Google perd du temps et peut ignorer les pages concernées. Toutes les URLs du sitemap doivent correspondre exactement aux URLs canoniques de vos pages.
Omettre le sitemap dans le robots.txt
Techniquement facultatif, indiquer l’emplacement du sitemap dans le robots.txt est une bonne pratique recommandée par Google. C’est une ligne qui ne coûte rien et qui accélère la découverte.
Un sitemap non mis à jour
Si vous ajoutez une nouvelle page à votre site mais oubliez de régénérer le sitemap, Google ne la découvrira pas immédiatement. Sur un site géré manuellement, c’est une source d’oubli fréquente.
Soumettre votre sitemap à Google Search Console
Google peut trouver votre sitemap via le robots.txt, mais la méthode la plus fiable reste la soumission manuelle dans Google Search Console.
Voici les étapes :
- Connectez-vous à Google Search Console
- Sélectionnez votre propriété (votre site)
- Dans le menu de gauche, cliquez sur Sitemaps
- Entrez l’URL de votre sitemap (
sitemap.xml) et cliquez sur Envoyer
Google affiche ensuite le nombre de pages soumises et le nombre de pages indexées. Si l’écart est important, c’est un signal qu’il y a un problème — pages bloquées, erreurs 404, contenu dupliqué ou pénalité.
La soumission doit être refaite après une refonte majeure du site. Pour les mises à jour courantes, Google re-crawle automatiquement les sitemaps soumis à intervalle régulier.
Le llms.txt : le robots.txt pour les intelligences artificielles
Un nouveau standard émerge : le fichier llms.txt, placé à la racine du site (/llms.txt). Il joue un rôle analogue au robots.txt, mais pour les agents IA — ChatGPT, Perplexity, Claude, Gemini — qui parcourent le web pour enrichir leurs réponses. Ce sujet s’inscrit dans la tendance plus large du référencement pour les LLM.
Ce fichier texte simple liste les pages prioritaires de votre site avec une courte description, en Markdown. Il indique aux modèles de langage quelles pages lire en priorité pour comprendre votre activité et citer votre entreprise dans leurs réponses.
# tacelo
> Agence web à Vétroz, Valais. Création de sites pour PME en Suisse romande.
## Pages principales
- [Accueil](https://tacelo.ch/): Présentation de l'agence et des services
- [Services](https://tacelo.ch/services/): Sites vitrines, e-commerce, SEO
- [Réalisations](https://tacelo.ch/realisations/): Projets clients
- [Contact](https://tacelo.ch/contact/): Formulaire de contact et WhatsApp
Avec la progression des recherches faites directement dans les outils d’IA, disposer d’un llms.txt bien structuré devient un avantage concurrentiel réel — en particulier pour les entreprises qui ciblent une clientèle active sur ces plateformes.
Ce que Tacelo fait pour vos fichiers d’indexation
Tous les sites réalisés par Tacelo intègrent ces trois fichiers dès le lancement :
- Sitemap XML auto-généré : Astro génère automatiquement un sitemap complet et à jour à chaque déploiement. Toutes les pages sont listées avec leurs URLs canoniques correctes.
- robots.txt configuré : le fichier autorise l’exploration de l’ensemble du site, pointe vers le sitemap et exclut uniquement les ressources techniques qui n’ont pas vocation à être indexées.
- llms.txt : chaque site dispose d’un fichier
/llms.txtlistant les pages clés avec leur description, pour maximiser la visibilité auprès des agents IA qui parcourent le web.
Ces fichiers sont vérifiés et soumis à Google Search Console lors du lancement du site.
Questions fréquentes
Dois-je créer mon sitemap manuellement ?
Non. Si votre site est construit avec un CMS moderne (WordPress, Webflow, Shopify) ou un framework comme Astro, le sitemap est généré automatiquement. Il vous suffit de vérifier qu’il est bien accessible à l’adresse /sitemap.xml et de le soumettre une fois à Google Search Console.
Le robots.txt peut-il nuire à mon référencement ?
Oui, s’il est mal configuré. Un Disallow appliqué par erreur à l’ensemble du site (Disallow: /) empêche Google d’indexer quoi que ce soit. C’est une erreur qui peut rester inaperçue pendant des semaines et faire chuter tout le trafic organique. A vérifier impérativement après chaque modification.
Le llms.txt est-il obligatoire ?
Non, il n’est pas obligatoire. C’est une convention émergente, pas un standard officiellement imposé. Mais les outils d’IA qui le reconnaissent — dont plusieurs versions de Perplexity et de Claude — l’utilisent activement pour orienter leur lecture de votre site. L’effort de création est minimal et le bénéfice potentiel est réel.