PrestaShop Robots.txt : Que bloquer, que permettre
Qu'est-ce que le robots.txt et pourquoi il est important pour PrestaShop
Le fichier robots.txt se trouve à la racine de votre installation PrestaShop et constitue le premier point de communication entre votre boutique et les robots d'exploration des moteurs de recherche. Il indique aux bots comme Googlebot, Bingbot et d'autres quelles parties de votre site ils peuvent explorer et lesquelles ils doivent ignorer. Bien qu'il ne soit pas un mécanisme de sécurité (il n'empêche pas l'accès, il ne fait que conseiller les robots), c'est l'un des outils les plus importants pour gérer votre budget de crawl — le nombre de pages qu'un moteur de recherche explorera sur votre site dans un laps de temps donné.
Pour les boutiques PrestaShop, cela est extrêmement important. Une installation PrestaShop typique peut générer des milliers de variations d'URL à travers les filtres, les options de tri, la pagination, le changement de devise et les requêtes de recherche. Si rien n'est fait, les robots des moteurs de recherche gaspilleront leur budget de crawl sur ces pages à faible valeur au lieu de découvrir et d'indexer vos véritables pages de produits et de catégories.
Comment PrestaShop génère son robots.txt
PrestaShop inclut un générateur de robots.txt intégré, accessible depuis le Back Office. Naviguez vers Paramètres de la boutique > Trafic & SEO et faites défiler vers le bas où vous trouverez la section "Génération du fichier robots". Cliquer sur le bouton de génération crée un fichier robots.txt dans le répertoire racine de votre boutique.
Le fichier généré par défaut inclut généralement des règles comme celles-ci -
User-agent: *
Disallow: /classes/
Disallow: /config/
Disallow: /download/
Disallow: /mails/
Disallow: /modules/
Disallow: /translations/
Disallow: /tools/
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?tag=
Disallow: /*?id_currency=
Disallow: /*?search_query=
Disallow: /*?back=
Disallow: /*?n=
Sitemap: https://votreboutique.com/sitemap.xmlBien que ce soit un point de départ raisonnable, c'est loin d'être complet. De nombreux modèles d'URL critiques qui gaspillent le budget de crawl ne sont pas inclus.
Ce que vous devez bloquer dans PrestaShop
1. Pages panier, commande et compte
Ces pages sont spécifiques à l'utilisateur et n'apportent aucune valeur SEO. Elles doivent toujours être bloquées -
Disallow: /*?controller=cart
Disallow: /*?controller=order
Disallow: /*?controller=authentication
Disallow: /*?controller=my-account
Disallow: /*?controller=identity
Disallow: /*?controller=addresses
Disallow: /*?controller=address
Disallow: /*?controller=history
Disallow: /*?controller=order-detail
Disallow: /*?controller=password
Disallow: /*?controller=discount
Disallow: /*?controller=order-return
Disallow: /*?controller=order-follow
Disallow: /*?controller=guest-tracking
Disallow: /cart
Disallow: /order
Disallow: /login
Disallow: /my-account
Disallow: /password-recovery2. Navigation à facettes et filtres par couches
La navigation à facettes est le plus grand tueur de budget de crawl pour les boutiques e-commerce. Lorsqu'un client utilise des filtres comme la couleur, la taille ou la fourchette de prix, PrestaShop génère des URL uniques pour chaque combinaison. Une catégorie avec 5 couleurs, 4 tailles et 3 fourchettes de prix peut produire des centaines de combinaisons d'URL — dont aucune ne devrait se trouver dans l'index de Google.
# Bloquer les paramètres de filtres de navigation par couches
Disallow: /*?q=
Disallow: /*&q=
Disallow: /*?selected_filters=
Disallow: /*&selected_filters=
Disallow: /module/ambjolisearch/jolisearch
# Bloquer les combinaisons de filtres de prix
Disallow: /*?price=
Disallow: /*&price=
# Bloquer les filtres d'attributs et de caractéristiques
Disallow: /*?id_attribute_group=
Disallow: /*&id_attribute_group=
Disallow: /*?id_feature=
Disallow: /*&id_feature=3. Résultats de recherche internes
Les pages de résultats de recherche internes sont du contenu mince et ne devraient jamais être indexées. Elles créent fréquemment des pages quasi-dupliquées et sont une source connue de problèmes de qualité -
Disallow: /*?controller=search
Disallow: /*?s=
Disallow: /*&s=
Disallow: /search
Disallow: /*?search_query=
Disallow: /*&search_query=4. Paramètres de pagination
Bien que les pages de catégories elles-mêmes doivent être explorables, les paramètres de pagination qui génèrent des variantes de tri/page doivent être contrôlés -
Disallow: /*?page=
Disallow: /*&page=
Disallow: /*?p=
Disallow: /*&p=Note importante - Soyez prudent avec la pagination. Si vous bloquez /*?page= entièrement, vous pouvez empêcher les robots d'atteindre les produits qui n'apparaissent que sur les pages plus profondes. Une meilleure approche consiste à implémenter des balises rel="canonical" pointant les pages paginées vers la première page, ou à utiliser les signaux de pagination rel="next" et rel="prev".
5. Pages de comparaison et listes de souhaits
Disallow: /*?controller=comparison
Disallow: /comparison
Disallow: /*?controller=wishlist
Disallow: /module/blockwishlist/6. Répertoires admin et système
Disallow: /admin*/
Disallow: /app/
Disallow: /bin/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /docs/
Disallow: /download/
Disallow: /img/tmp/
Disallow: /localization/
Disallow: /mails/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/7. Paramètres de suivi d'URL
Les paramètres de campagnes marketing créent du contenu dupliqué lorsque les bots explorent les URL taguées -
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?utm_campaign=
Disallow: /*&utm_source=
Disallow: /*&utm_medium=
Disallow: /*&utm_campaign=
Disallow: /*?fbclid=
Disallow: /*?gclid=
Disallow: /*?ref=Ce que vous devez autoriser dans PrestaShop
1. Pages produits et catégories
Ce sont le cœur de votre boutique et doivent toujours rester explorables. Ne bloquez pas vos répertoires de contenu principal.
2. Fichiers CSS, JavaScript et images
Google a besoin de rendre vos pages pour évaluer la qualité du contenu. Bloquer les fichiers CSS ou JS empêche le rendu et peut nuire à vos classements -
Allow: /themes/*/assets/
Allow: /themes/*/css/
Allow: /themes/*/js/
Allow: /js/
Allow: /img/
Allow: /modules/*/views/css/
Allow: /modules/*/views/js/3. Pages CMS
Vos pages légales, pages à propos et pages de marketing de contenu doivent être entièrement explorables. Assurez-vous qu'elles ne sont pas accidentellement capturées par des règles Disallow trop larges.
4. Pages fabricants et fournisseurs (si utilisées)
Si vous maintenez des pages fabricants ou fournisseurs riches avec du contenu unique, gardez-les explorables. S'il s'agit de pages minces auto-générées, envisagez de les bloquer.
Gestion des robots d'IA
L'essor des services d'IA a introduit une nouvelle catégorie de robots qui extraient du contenu à des fins d'entraînement. Si vous souhaitez empêcher que vos descriptions de produits, images et autres contenus soient utilisés par des modèles d'IA, vous pouvez ajouter des règles spécifiques -
# Bloquer les robots d'entraînement IA
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Bytespider
Disallow: /Notez que le blocage de Google-Extended empêche Google d'utiliser votre contenu pour l'entraînement de l'IA (Gemini) tout en permettant toujours au Googlebot normal d'explorer et d'indexer vos pages normalement.
Fichier robots.txt complet recommandé pour PrestaShop
Voici un fichier robots.txt complet que vous pouvez adapter pour votre boutique PrestaShop -
# Robots principaux des moteurs de recherche
User-agent: *
# Autoriser les ressources statiques
Allow: /themes/*/assets/
Allow: /themes/*/css/
Allow: /themes/*/js/
Allow: /js/
Allow: /img/
Allow: /modules/*/views/css/
Allow: /modules/*/views/js/
# Bloquer les répertoires système
Disallow: /app/
Disallow: /bin/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /docs/
Disallow: /download/
Disallow: /img/tmp/
Disallow: /localization/
Disallow: /mails/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/
# Bloquer panier, commande, compte
Disallow: /cart
Disallow: /order
Disallow: /login
Disallow: /my-account
Disallow: /password-recovery
Disallow: /*?controller=cart
Disallow: /*?controller=order
Disallow: /*?controller=authentication
Disallow: /*?controller=my-account
# Bloquer filtres et tri
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?n=
Disallow: /*?q=
Disallow: /*?selected_filters=
Disallow: /*?id_currency=
Disallow: /*?tag=
Disallow: /*?back=
# Bloquer recherche
Disallow: /*?controller=search
Disallow: /*?search_query=
Disallow: /*?s=
Disallow: /search
# Bloquer paramètres de suivi
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?utm_campaign=
Disallow: /*?fbclid=
Disallow: /*?gclid=
# Bloquer comparaison et liste de souhaits
Disallow: /*?controller=comparison
Disallow: /comparison
# Sitemap
Sitemap: https://votreboutique.com/1_index_sitemap.xml
# Bloquer robots d'entraînement IA
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /Erreurs courantes à éviter
Bloquer entièrement le répertoire modules
Le robots.txt par défaut de PrestaShop bloque /modules/. Bien que vous ne vouliez pas que les fichiers PHP des modules soient explorés, de nombreux modules servent des CSS et JavaScript critiques depuis ce répertoire. Le blocage général peut empêcher Google de rendre correctement vos pages. Au lieu de cela, bloquez /modules/ mais autorisez explicitement les sous-répertoires CSS et JS comme montré ci-dessus.
Utiliser robots.txt au lieu de noindex
Un malentendu critique - robots.txt indique aux bots de ne pas explorer une URL, mais il n'empêche pas l'indexation. Si un autre site lie vers une page que vous avez bloquée dans robots.txt, Google peut quand même l'indexer (affichant "Aucune description n'est disponible pour ce résultat en raison du fichier robots.txt de ce site"). Pour les pages que vous souhaitez complètement retirer des résultats de recherche, utilisez plutôt la balise meta noindex ou l'en-tête HTTP X-Robots-Tag.
Oublier la référence au sitemap
Incluez toujours l'URL de votre sitemap en bas du robots.txt. Cela aide les robots à trouver votre sitemap immédiatement. Si vous utilisez un module qui génère plusieurs sitemaps, référencez le fichier index du sitemap.
Utiliser des règles trop larges
Une règle comme Disallow: /*? bloquerait chaque URL avec un paramètre de requête quelconque, ce qui serait catastrophique. Soyez précis avec vos règles et testez-les avec l'outil de test robots.txt de Google Search Console avant de les déployer.
Tester votre configuration robots.txt
- Google Search Console - Utilisez l'outil de test robots.txt (trouvé sous les outils hérités) pour vérifier des URL spécifiques par rapport à vos règles
- Test manuel - Visitez votreboutique.com/robots.txt directement dans votre navigateur pour vérifier que le fichier est accessible et correctement formaté
- Rapport de couverture - Après le déploiement des modifications, surveillez le rapport de couverture dans Google Search Console pour détecter toute augmentation inattendue des pages "Exclues"
- Analyse des fichiers de log - Vérifiez vos journaux serveur pour confirmer que les bots respectent bien vos règles et ne gaspillent pas le budget de crawl sur les URL bloquées
Considérations multiboutique
Si vous gérez une configuration multiboutique PrestaShop, chaque boutique (domaine) a besoin de son propre fichier robots.txt à sa racine. Le générateur PrestaShop crée des règles pour toutes les boutiques dans un seul fichier, mais si vos boutiques sont sur différents domaines, vous devez les séparer en conséquence. Le robots.txt de chaque boutique doit référencer son propre sitemap et avoir des règles appropriées à sa structure d'URL.
Quand régénérer votre robots.txt
Vous devriez régénérer ou mettre à jour votre robots.txt chaque fois que vous -
- Ajoutez de nouveaux modules qui créent des URL publiques (modules de recherche, modules de filtres)
- Changez votre structure d'URL ou activez/désactivez les URL conviviales
- Changez de thème (différents thèmes peuvent servir des ressources depuis différents chemins)
- Ajoutez ou supprimez des langues (ce qui modifie les préfixes d'URL)
- Activez ou désactivez la fonctionnalité multiboutique
- Remarquez des modèles de crawl inhabituels dans vos journaux serveur ou Google Search Console
Rappel - faites toujours une sauvegarde de votre robots.txt fonctionnel avant de le régénérer. Le générateur PrestaShop écrase complètement le fichier, et toutes les règles personnalisées que vous avez ajoutées manuellement seront perdues à moins de les rajouter après la génération.
Cette réponse vous a-t-elle été utile ?
Vous avez encore des questions ?
Can't find what you're looking for? Send us your question and we'll get back to you quickly.