PrestaShop Robots.txt: Qué bloquear, qué permitir

405 vistas

Qué es el robots.txt y por qué importa para PrestaShop

El archivo robots.txt se encuentra en la raíz de tu instalación PrestaShop y actúa como el primer punto de comunicación entre tu tienda y los rastreadores de motores de búsqueda. Indica a los bots como Googlebot, Bingbot y otros qué partes de tu sitio pueden rastrear y cuáles deben omitir. Aunque no es un mecanismo de seguridad (no impide el acceso, solo aconseja a los rastreadores), es una de las herramientas más importantes para gestionar tu presupuesto de rastreo — el número de páginas que un motor de búsqueda rastreará en tu sitio dentro de un período de tiempo determinado.

Para las tiendas PrestaShop, esto es enormemente importante. Una instalación típica de PrestaShop puede generar miles de variaciones de URL a través de filtros, opciones de ordenamiento, paginación, cambio de moneda y consultas de búsqueda. Si se deja sin control, los bots de los motores de búsqueda desperdiciarán su presupuesto de rastreo en estas páginas de bajo valor en lugar de descubrir e indexar tus páginas reales de productos y categorías.

Cómo PrestaShop genera su robots.txt

PrestaShop incluye un generador de robots.txt incorporado accesible desde el Back Office. Navega a Parámetros de la tienda > Tráfico y SEO y desplázate hacia abajo donde encontrarás la sección "Generación del archivo robots". Al hacer clic en el botón de generación se crea un archivo robots.txt en el directorio raíz de tu tienda.

El archivo generado por defecto típicamente incluye reglas como estas -

User-agent: *
Disallow: /classes/
Disallow: /config/
Disallow: /download/
Disallow: /mails/
Disallow: /modules/
Disallow: /translations/
Disallow: /tools/
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?tag=
Disallow: /*?id_currency=
Disallow: /*?search_query=
Disallow: /*?back=
Disallow: /*?n=
Sitemap: https://tutienda.com/sitemap.xml

Aunque este es un punto de partida razonable, está lejos de ser completo. Muchos patrones críticos de URL que desperdician presupuesto de rastreo no están incluidos.

Lo que debes bloquear en PrestaShop

1. Páginas de carrito, pago y cuenta

Estas páginas son específicas del usuario y no proporcionan ningún valor SEO. Siempre deben ser bloqueadas -

Disallow: /*?controller=cart
Disallow: /*?controller=order
Disallow: /*?controller=authentication
Disallow: /*?controller=my-account
Disallow: /*?controller=identity
Disallow: /*?controller=addresses
Disallow: /*?controller=address
Disallow: /*?controller=history
Disallow: /*?controller=order-detail
Disallow: /*?controller=password
Disallow: /*?controller=discount
Disallow: /*?controller=order-return
Disallow: /*?controller=order-follow
Disallow: /*?controller=guest-tracking
Disallow: /cart
Disallow: /order
Disallow: /login
Disallow: /my-account
Disallow: /password-recovery

2. Navegación facetada y filtros por capas

La navegación facetada es el mayor asesino de presupuesto de rastreo para tiendas de comercio electrónico. Cuando un cliente usa filtros como color, talla o rango de precio, PrestaShop genera URLs únicas para cada combinación. Una categoría con 5 colores, 4 tallas y 3 rangos de precio puede producir cientos de combinaciones de URL — ninguna de las cuales debería estar en el índice de Google.

# Bloquear parámetros de filtros de navegación por capas
Disallow: /*?q=
Disallow: /*&q=
Disallow: /*?selected_filters=
Disallow: /*&selected_filters=
Disallow: /module/ambjolisearch/jolisearch

# Bloquear combinaciones de filtros de precio
Disallow: /*?price=
Disallow: /*&price=

# Bloquear filtros de atributos y características
Disallow: /*?id_attribute_group=
Disallow: /*&id_attribute_group=
Disallow: /*?id_feature=
Disallow: /*&id_feature=

3. Resultados de búsqueda internos

Las páginas de resultados de búsqueda internos son contenido delgado y nunca deben ser indexadas. Frecuentemente crean páginas casi duplicadas y son una fuente conocida de problemas de calidad -

Disallow: /*?controller=search
Disallow: /*?s=
Disallow: /*&s=
Disallow: /search
Disallow: /*?search_query=
Disallow: /*&search_query=

4. Parámetros de paginación

Mientras que las páginas de categorías por sí mismas deben ser rastreables, los parámetros de paginación que generan variantes de ordenamiento/página deben ser controlados -

Disallow: /*?page=
Disallow: /*&page=
Disallow: /*?p=
Disallow: /*&p=

Nota importante - Ten cuidado con la paginación. Si bloqueas /*?page= completamente, puedes impedir que los rastreadores alcancen productos que solo aparecen en páginas más profundas. Un mejor enfoque es implementar etiquetas rel="canonical" que apunten las páginas paginadas a la primera página, o usar las señales de paginación rel="next" y rel="prev".

5. Páginas de comparación y listas de deseos

Disallow: /*?controller=comparison
Disallow: /comparison
Disallow: /*?controller=wishlist
Disallow: /module/blockwishlist/

6. Directorios de administración y sistema

Disallow: /admin*/
Disallow: /app/
Disallow: /bin/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /docs/
Disallow: /download/
Disallow: /img/tmp/
Disallow: /localization/
Disallow: /mails/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/

7. Parámetros de seguimiento de URL

Los parámetros de campañas de marketing crean contenido duplicado cuando los bots rastrean URLs etiquetadas -

Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?utm_campaign=
Disallow: /*&utm_source=
Disallow: /*&utm_medium=
Disallow: /*&utm_campaign=
Disallow: /*?fbclid=
Disallow: /*?gclid=
Disallow: /*?ref=

Lo que debes permitir en PrestaShop

1. Páginas de productos y categorías

Estas son el núcleo de tu tienda y deben permanecer siempre rastreables. No bloquees tus directorios de contenido principal.

2. Archivos CSS, JavaScript e imágenes

Google necesita renderizar tus páginas para evaluar la calidad del contenido. Bloquear archivos CSS o JS impide el renderizado y puede perjudicar tus rankings -

Allow: /themes/*/assets/
Allow: /themes/*/css/
Allow: /themes/*/js/
Allow: /js/
Allow: /img/
Allow: /modules/*/views/css/
Allow: /modules/*/views/js/

3. Páginas CMS

Tus páginas legales, páginas sobre nosotros y páginas de marketing de contenido deben ser completamente rastreables. Asegúrate de que no sean capturadas accidentalmente por reglas Disallow demasiado amplias.

4. Páginas de fabricantes y proveedores (si se usan)

Si mantienes páginas ricas de fabricantes o proveedores con contenido único, mantenlas rastreables. Si son páginas delgadas generadas automáticamente, considera bloquearlas.

Manejo de rastreadores de IA

El auge de los servicios de IA ha introducido una nueva categoría de rastreadores que extraen contenido con fines de entrenamiento. Si deseas evitar que tus descripciones de productos, imágenes y otros contenidos sean utilizados por modelos de IA, puedes agregar reglas específicas -

# Bloquear rastreadores de entrenamiento de IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Bytespider
Disallow: /

Ten en cuenta que bloquear Google-Extended impide que Google use tu contenido para el entrenamiento de IA (Gemini) mientras sigue permitiendo que el Googlebot normal rastree e indexe tus páginas normalmente.

Archivo robots.txt completo recomendado para PrestaShop

Aquí tienes un archivo robots.txt completo que puedes adaptar para tu tienda PrestaShop -

# Rastreadores principales de motores de búsqueda
User-agent: *

# Permitir recursos estáticos
Allow: /themes/*/assets/
Allow: /themes/*/css/
Allow: /themes/*/js/
Allow: /js/
Allow: /img/
Allow: /modules/*/views/css/
Allow: /modules/*/views/js/

# Bloquear directorios del sistema
Disallow: /app/
Disallow: /bin/
Disallow: /cache/
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /docs/
Disallow: /download/
Disallow: /img/tmp/
Disallow: /localization/
Disallow: /mails/
Disallow: /override/
Disallow: /pdf/
Disallow: /src/
Disallow: /tools/
Disallow: /translations/
Disallow: /upload/
Disallow: /var/
Disallow: /vendor/
Disallow: /webservice/

# Bloquear carrito, pedido, cuenta
Disallow: /cart
Disallow: /order
Disallow: /login
Disallow: /my-account
Disallow: /password-recovery
Disallow: /*?controller=cart
Disallow: /*?controller=order
Disallow: /*?controller=authentication
Disallow: /*?controller=my-account

# Bloquear filtros y ordenamiento
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?n=
Disallow: /*?q=
Disallow: /*?selected_filters=
Disallow: /*?id_currency=
Disallow: /*?tag=
Disallow: /*?back=

# Bloquear búsqueda
Disallow: /*?controller=search
Disallow: /*?search_query=
Disallow: /*?s=
Disallow: /search

# Bloquear parámetros de seguimiento
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?utm_campaign=
Disallow: /*?fbclid=
Disallow: /*?gclid=

# Bloquear comparación y lista de deseos
Disallow: /*?controller=comparison
Disallow: /comparison

# Sitemap
Sitemap: https://tutienda.com/1_index_sitemap.xml

# Bloquear rastreadores de entrenamiento IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Errores comunes que debes evitar

Bloquear completamente el directorio modules

El robots.txt predeterminado de PrestaShop bloquea /modules/. Aunque no quieres que los archivos PHP de los módulos sean rastreados, muchos módulos sirven CSS y JavaScript críticos desde este directorio. El bloqueo general puede impedir que Google renderice correctamente tus páginas. En su lugar, bloquea /modules/ pero permite explícitamente los subdirectorios CSS y JS como se muestra arriba.

Usar robots.txt en lugar de noindex

Un malentendido crítico - robots.txt indica a los bots que no rastreen una URL, pero no impide la indexación. Si otro sitio enlaza a una página que has bloqueado en robots.txt, Google puede indexarla de todos modos (mostrando "No hay información disponible sobre esta página porque el archivo robots.txt del sitio lo impide"). Para páginas que quieres eliminar completamente de los resultados de búsqueda, usa en su lugar la meta etiqueta noindex o el encabezado HTTP X-Robots-Tag.

Olvidar la referencia al sitemap

Siempre incluye la URL de tu sitemap al final del robots.txt. Esto ayuda a los rastreadores a encontrar tu sitemap inmediatamente. Si usas un módulo que genera múltiples sitemaps, haz referencia al archivo índice del sitemap.

Usar reglas demasiado amplias

Una regla como Disallow: /*? bloquearía cada URL con cualquier parámetro de consulta, lo cual sería catastrófico. Sé específico con tus reglas y pruébalas usando el probador de robots.txt de Google Search Console antes de implementarlas.

Probar tu configuración de robots.txt

  1. Google Search Console - Usa la herramienta de prueba de robots.txt (encontrada en las herramientas heredadas) para verificar URLs específicas contra tus reglas
  2. Prueba manual - Visita tutienda.com/robots.txt directamente en tu navegador para verificar que el archivo sea accesible y esté correctamente formateado
  3. Informe de cobertura - Después de implementar los cambios, monitorea el informe de cobertura en Google Search Console para detectar aumentos inesperados en páginas "Excluidas"
  4. Análisis de archivos de log - Revisa los registros de tu servidor para verificar que los bots realmente estén respetando tus reglas y no estén desperdiciando presupuesto de rastreo en URLs bloqueadas

Consideraciones para multitienda

Si gestionas una configuración multitienda de PrestaShop, cada tienda (dominio) necesita su propio archivo robots.txt en su directorio raíz. El generador de PrestaShop crea reglas para todas las tiendas en un solo archivo, pero si tus tiendas están en dominios diferentes, necesitas separarlas correspondientemente. El robots.txt de cada tienda debe hacer referencia a su propio sitemap y tener reglas apropiadas para su estructura de URL.

Cuándo regenerar tu robots.txt

Debes regenerar o actualizar tu robots.txt cada vez que -

  • Agregues nuevos módulos que crean URLs públicas (módulos de búsqueda, módulos de filtros)
  • Cambies tu estructura de URL o actives/desactives las URLs amigables
  • Cambies de tema (diferentes temas pueden servir recursos desde diferentes rutas)
  • Agregues o elimines idiomas (lo que cambia los prefijos de URL)
  • Actives o desactives la funcionalidad multitienda
  • Notes patrones de rastreo inusuales en los registros de tu servidor o Google Search Console

Recuerda - siempre haz una copia de seguridad de tu robots.txt funcional antes de regenerarlo. El generador de PrestaShop sobrescribe completamente el archivo, y cualquier regla personalizada que hayas agregado manualmente se perderá a menos que las vuelvas a agregar después de la generación.

¿Le resultó útil esta respuesta?

¿Aún tiene preguntas?

Can't find what you're looking for? Send us your question and we'll get back to you quickly.

Cargando...
Volver arriba