¿Qué es un sitemap.xml? ¿Es necesario? ¿Cómo puedo crear uno?

Uno de los archivos imprescindibles que tienen que tener todas las páginas web que quieran aparecer en los resultados de búsqueda correctamente es el sitemap. Un archivo que indica las URLs que forman tu página web y el contenido que se puede encontrar en ella.

Qué es un sitemap

Un sitemap es un archivo que hay dentro de los archivos de una página web y que informa a las arañas de los buscadores cuáles son todas las urls que forman tu página web para que puedan entenderla e indexarla. Se acede a él añadiendo a la url principal /sitemap.xml (Ejemplo: www.midominio.es/sitemap.xml)

El objetivo de este archivo es facilitar a los motores de indexación de los buscadores que se puedan mover rápidamente por una página web, ya que el tiempo que dedican a leer el contenido de una web es limitado. Es decir, qué contenido de una página web debería ser indexado y posteriormente publicado en sus resultados de búsqueda y cuáles no.

Además, el sitemap ayuda a que los motores de búsqueda conozcan si el contenido ha sido actualizado. Por ejemplo, nuevas entradas en un blog, nuevos artículos en una tienda online o cambios en una página, ya que el sitemap tiene el valor de la fecha de la última actualización del contenido.

Si una página no aparece en tu sitemap, no aparecerá en los buscadores por norma general. No hay que confundir el sitemap con el robot.txt, otro archivo que directamente bloquea el acceso de los buscadores a determinadas zonas de una web. A la administración, por ejemplo.

¿Es necesario tener un sitemap para aparecer en Google?

Teóricamente no. Los propios técnicos de Google han indicado que si una web está compuesta de menos de 100 urls, bastaría con pedir la indexación en el Search Console de la propia compañía. Pero en este caso hay que tener en cuenta que todas las url se tienen que poder descubrir desde la página principal.

Si cuentas con páginas que te gustaría que fueran rastreadas pero a las que no se puede acceder desde la home de la web, Google no las leerá porque no podrá acceder a ellas. O si se te ha pasado una url y los rastreadores no pueden acceder a ella.

Por eso, tengas las urls que tengas (y puesto que Google no es el único buscador que existe), la recomendación general es que tengas siempre haya un sitemap en cada web. Simplemente por el hecho de que puedes configurarlo en cinco minutos.

Eso sí, un sitemap no puede acumular más de 50.000 urls, aunque si una web cuenta con tantas urls lo mejor es diversificarlas en subdominios tipo about.midominio.es, shop.midominio.es, etc.

Cómo crear un sitemap e instalarlo en una web

Crear un sitemap de una web es un proceso bastante sencillo. Existen dos opciones, crearlo manualmente -introduciendo todas las urls que queramos que se indexen a mano- o bien de forma automática con los plugins y complementos que existen para los CMS -Sistemas de Gestión de Contenidos- más utilizados.

Si eliges de hacerlo de forma manual, hay varias cosas que debes conocer previamente:

  • Incluye las URLs completas y que sigan siempre la misma estructura. Por ejemplo, si tu sitio web incluye www, es necesario que lo incluyas en todas las URLs que quieras enviar.
  • El archivo sitemap.xml debe estar en el directorio raíz de la web. Por ejemplo, en una instalación de WordPress por defecto el directorio raíz es la carpeta en la que podemos encontrar wp-admin, wp-content y wp-includes.
  • Si la página web cuenta con versiones en diferentes idiomas, cada URL debe estar identificada con la etiqueta hreflang para que los buscadores puedan mostrarlo adecuadamente.
  • El archivo que contiene el sitemap debe estar codificado en UTF-8.
  • Un mismo sitemap no puede contener más de 50.000 URLs o bien pesar más de 50MB, por lo que si se sobrepasan estos límites se deben dividir en varios sitemaps y crear un índice de sitemaps.
  • Sólo hay que incluir las URLs canónicas. Por ejemplo, si una página tiene dos o más urls, se debe incluir la URL principal con la etiqueta rel=canonical para que Google la lea como tal y no haya problemas con el contenido duplicado.

Estas son los principales aspectos a tener en cuenta, aunque si quieres conocer como funciona un sitemap al completo, te invito a visitar la web oficial, https://www.sitemaps.org/index.html.

He aquí un ejemplo de una etiqueta url completa:

<url>
  <loc>https://www.midominio.es/la-url-de-la-pagina</loc>
  <lastmod>AAAA-MM-DDTHH:MM:SS+00:00</lastmod>
  <priority>0.80</priority>
</url>

Crear un sitemap.xml para WordPress

WordPress es el CMS (Content Management System) más utilizado actualmente. Cerca del 30 por ciento de las web que se construyen a nivel mundial lo utilizan, incluidas instituciones como la Casa Blanca o sitios de noticias como USA Today.

WordPress genera una URL única para cada post, página, categoría o etiqueta, como mínimo. Si, además cuentas con un plugin que lo convierte en un eccomerce como WooCommerce, las URLs se multiplican, ya que no sólo tomará las URLs de los productos, sino también las completará con los atributos o con determinados filtros.

Por ello, la mejor opción para crear un sitemap en WordPress es contar con la ayuda de un plugin que categorice todas las URLs para que los motores puedan leerlas rápidamente.

Algunos de los plugins más utilizados en WordPress son Yoast SEO o Rank Math SEO, que crean sus propios sitemaps y los organizan con un índice en el caso de que quieras indexar paginas, entradas, categorías, etiquetas o una combinación de estas.

Si no quieres instalar estos plugins en los que crear un sitemap es como el 5 por ciento de sus funciones, tienes otras opciones. En el propio repositorio de plugins de WordPress, puedes encontrar algunos que sólo tienen esta función. Entre otros encontrarás:

  • Google XML Sitemap: Es uno de los más utilizados, tanto por su sencillez como por su manejo.
  • XML Sitemap & Google News: Igual que el anterior. En este caso indica un estructurado de datos acorde con Google News, aunque en España no nos servirá de mucho porque Google News fue cancelado tras pedir los medios que Google pagara por los contenidos que utilizaba. (La explicación oficial puedes leerla aquí).