Skip to content
Polemicus

robots.txt y sitemap.xml: guía técnica completa 2026

15/05/2026

robots.txt y sitemap.xml son los dos archivos que más controlan cómo los buscadores entienden tu sitio. Uno restringe (qué no rastrear), el otro propone (qué sí queremos indexado). En 2026 siguen siendo críticos y siguen siendo donde más errores se cometen. Esta guía cubre cómo configurar ambos correctamente y los anti-patrones más comunes.

Tabla de contenidos

robots.txt: para qué sirve realmente

Le dice a los crawlers qué rutas no rastrear. NO impide que esas URLs aparezcan en SERP si tienen enlaces externos (puede aparecer la URL sin descripción). Tampoco previene indexación: para eso está la meta noindex.

Vive en https://tudominio.com/robots.txt. Texto plano, una directiva por línea, bloques por User-agent.

Estructura mínima recomendada

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /search/
Disallow: /*?s=
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/

Sitemap: https://tudominio.com/sitemap_index.xml

Las primeras líneas excluyen rutas de admin, búsqueda interna y comercio que no aportan a SEO. La última línea declara dónde está el sitemap (Google y Bing lo leen y siguen).

Anti-patrones frecuentes en robots.txt

  • Disallow: / sin condición. Bloquea todo el sitio. Error catastrófico (visto en sitios reales después de migrar desde staging).
  • Disallow: /wp-content/. Bloquea imágenes, CSS y JS necesarios para que Google renderice. NO bloquees /wp-content/.
  • Confiar en robots.txt para ocultar URLs sensibles. Si la URL es secreta, requiere autenticación, no robots.txt.
  • Usar robots.txt para “ocultar” contenido duplicado. Mejor: canonical o noindex.
  • Bloquear bots de IA importantes (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) sin entender impacto.

Sintaxis útil que casi nadie usa

  • Allow: sobrescribe un Disallow anterior. Útil para excepciones puntuales.
  • * comodín dentro de path: Disallow: /*.pdf$ bloquea todos los PDFs.
  • $ ancla al final: Disallow: /privado$ bloquea exactamente /privado pero no /privado-publico.
  • Múltiples bloques User-agent: uno general (*) y bloques específicos (Bingbot, GPTBot) con reglas distintas.

Validar robots.txt

  • Inspect URL en Search Console: te dice si Google está bloqueado en una URL específica.
  • Curl directo: curl https://tudominio.com/robots.txt para ver el contenido real.
  • Robots Testing Tool (legacy GSC) o herramientas como Merkle Robots Tester.

sitemap.xml: para qué sirve

Lista las URLs que quieres que los buscadores indexen, con metadata opcional (lastmod, changefreq, priority). NO garantiza indexación, pero acelera descubrimiento y ayuda a Google a entender la estructura.

Reglas para un sitemap útil

  • Solo URLs canónicas (200, indexables, sin parámetros raros).
  • Nunca incluyas URLs con noindex, ni con canonical apuntando a otra URL.
  • Mantén lastmod actualizado: ayuda a priorizar crawl.
  • Si tienes >50.000 URLs o el archivo pesa >50 MB, divide en sitemap-index.
  • Comprimir con gzip está bien soportado.

Tipos de sitemap

  • sitemap.xml general: URLs HTML del sitio.
  • sitemap-images.xml: imágenes (opcional).
  • sitemap-videos.xml: videos.
  • sitemap-news.xml: para Google News (medios).
  • hreflang sitemap: para sitios multi-idioma.

WordPress: cómo configurar

Rank Math y Yoast generan sitemap automático. Recomendado:

  • Activa solo los tipos de contenido relevantes (posts, pages, categorías si aportan; etiquetas usualmente NO).
  • Excluye taxonomías vacías o auto-generadas.
  • Excluye URLs con noindex.
  • El URL típico: /sitemap_index.xml (Rank Math) o /sitemap.xml (Yoast).

Enviar sitemap a buscadores

  • Google Search Console > Sitemaps > añade URL del sitemap_index.
  • Bing Webmaster Tools > Sitemaps.
  • Declara también en robots.txt (línea Sitemap:).

Verificar que funciona

  • GSC > Sitemaps debe mostrar status “Correcto” y un número de URLs descubiertas similar al que esperas.
  • “URLs detectadas” vs “URLs indexadas” en Cobertura: idealmente el ratio >70%.
  • Bing Webmaster Tools muestra columna “Procesado” + número de URLs. Si dice “Failed” o “UrlCount 0” hay error de headers o noindex en el sitemap.

Trampas típicas

  • Sitemap con URLs http en sitio https.
  • Sitemap con noindex en X-Robots-Tag del header. Bing lo rechaza.
  • Sitemap apuntando a URLs muertas (404).
  • Múltiples plugins generando sitemaps en paralelo.
  • Cambiar URL del sitemap sin actualizar GSC y robots.txt.

Documentación oficial

Lectura relacionada

Ver también: auditoría SEO paso a paso, errores de Search Console. Para diagnóstico personalizado, diagnóstico SEO gratis.

¿Mi sitio necesita robots.txt si no quiero bloquear nada?

Sí. Mínimo para declarar el sitemap. Sin robots.txt los buscadores asumen permitido todo, lo cual está bien, pero pierdes la oportunidad de declarar sitemap y de añadir reglas finas más adelante.

¿Bloquear bots de IA me da más privacidad?

Bloquear los principales (GPTBot, ClaudeBot, Google-Extended) impide usar tu contenido para entrenamiento. Pero también te invisibiliza en respuestas LLM. Decisión de negocio.

¿Cuánto pesa lastmod en el sitemap?

Google lo usa como pista. Si pones lastmod actualizado en URLs reales modificadas, ayuda. Si lo falsificas en URLs no cambiadas, Google deja de creerte y baja confianza en tus lastmods.

¿changefreq y priority sirven?

Google los ignora desde hace años. Bing los considera con poco peso. Es opcional incluirlos.

¿Cuántos sitemaps puedo tener?

Sin límite efectivo, vía sitemap-index. Pero más de 50 sitemaps individuales suele ser síntoma de mala arquitectura.

¿Cómo afecta a SEO no tener sitemap?

Para sitios pequeños (<200 URLs) bien enlazados internamente: poco impacto. Para sitios grandes o nuevos: sí afecta, porque Google descubre más lento.

Por Polemicus — agencia SEO en Colombia. Actualizado mayo 2026.

Francisco Severiche
Sobre el autor
Especialista en Marketing Digital · SEO · SEM · Paid Media
Estratega con más de 5 años liderando campañas de SEO y performance marketing para negocios en Colombia y Chile. Fundador de Polemicus en Momil, Córdoba.