¿Qué es un sitemap.xml? ¿Es necesario? ¿Cómo puedo crear uno?

Un sitemap es un archivo que mejorará el SEO de tu web y potenciará tu posicionamiento en los buscadores

Uno de los archivos imprescindibles que tienen que tener todas las páginas web que quieran aparecer en los resultados de búsqueda correctamente es el sitemap. Un archivo que indica las URLs que forman tu página web y el contenido que se puede encontrar en ella.

Qué es un sitemap

El sitemap es un archivo web utilizado por los webmaster para informar a los diversos motores de búsqueda de las páginas y contenido que forman una web. De esta forma, los buscadores pueden rastrear el contenido y mostrarlo en la página de resultados cuando un usuario haga una búsqueda.

Generalmente, el sitemap es un archivo con formato XML en el que se listan todas las urls de la web para que puedan ser rastreadas e indexadas. Opcionalmente, también puede ser complementado con otros datos adicionales, como la fecha de actualización del contenido de la página, la frecuencia con la que se modifica el contenido o la importancia que ocupa esa página en relación con el resto de contenido de la web.

Cómo acceder a un sitemap

En la mayoría de páginas web, se puede acceder al sitemap añadiendo sitemap.xml a la url principal: www.dominio.es/sitemap.xml. En otras ocasiones, cuando hay diferentes sitemaps listando contenido diferenciado, la ruta es sitemap_index.xml.

Por ejemplo, aquí puedes ver el sitemap de Amazon Business o el de la Casa Blanca.

¿Cuál es el objetivo de un sitemap?

El objetivo de un sitemap es facilitar a los rastreadores la lectura rápida del contenido de una web ya que la mayoría tiene un tiempo limitado para realizar esta función. A pesar de contar con enlaces internos dentro de las propias páginas, con un sitemap especificaremos mejor el contenido y su jerarquía.

Un sitemap bien estructurado es fundamental en páginas web en donde exista una gran cantidad de páginas que cambian rápidamente, por ejemplo, en tiendas online en donde las páginas de producto tienen que ser rápidamente rastreadas, indexadas y mostradas al público para que los usuarios puedan adquirirlo.

No hay que confundir el sitemap con el robot.txt, otro archivo estandarizado que especifica qué páginas han de ser rastreadas e indexadas y cuáles no. En algunas ocasiones, pueden ser rastreadas a pesar de marcarlas como no-index, pero aparecerán en el Search Console como que no es posible mostrarlas. Esto se suele hacer, por ejemplo, con páginas de administración de sistemas o bien con determinados recursos online de pago (libros, guías, etc). Por supuesto, una página marcada como no-index, no debería aparecer en el sitemap.

¿Es necesario un sitemap.xml para aparecer en las búsquedas?

¿Es necesario tener un sitemap para aparecer en Google?

Los propios ténicos de Google indican que si una página web tiene menos de cien urls (no sólo páginas), bastaría con pedir el rastreo de la web a través de su aplicación Google Search Console. Pero Google, aunque tiene la mayor cuota de mercado de los buscadores, no es el único que existe. Buscadores como Bing, Yahoo, DuckDuckGo o Ecosia también son utilizados. En el caso de DuckDuckGo tiene cada vez más usuarios debido a la importancia que le da a la privacidad del usuario.

Algunas cuestiones a tener en cuenta

A la hora de crear un sitemap, hay que tener en cuenta que nos encontramos ante un archivo estandarizado, es decir, se deben respetar las diversas directrices para garantizar que puede ser leído e interpretado por cualquier motor de búsqueda.

Cada url enviada a través del sitemap debe ser así:

<url>
  <loc>https://www.midominio.es/la-url-de-la-pagina</loc>
  <lastmod>AAAA-MM-DDTHH:MM:SS+00:00</lastmod>
  <priority>0.80</priority>
</url>

Aquí se resumen las principales características:

  • Las urls incluidas han de ser completas y deben seguir siempre la misma estructura, ed decir, si las urls comienzan por www o con un subdominio (por ejemplo: about.dominio.es), todas las urls incluidas han de ser iguales.
  • El archivo sitemap.xml debe estar en el directorio raíz de la web. Por ejemplo, en una instalación de WordPress por defecto el directorio raíz es la carpeta en la que podemos encontrar los directorios wp-admin, wp-content y wp-includes.
  • Si la página web cuenta con versiones en diferentes idiomas, cada URL debe estar identificada con la etiqueta hreflang para que los buscadores puedan mostrarlo adecuadamente.
  • El archivo que contiene el sitemap debe estar codificado en UTF-8.
  • Un mismo sitemap no puede contener más de 50.000 URLs o bien pesar más de 50MB. Si se sobrepasan estos límites se deben dividir en varios sitemap paralelos y crear un índice con todos los sitemap divididos por categorías (páginas, entradas, imágenes, contenidos, etc.).
  • Sólo hay que incluir las URLs canónicas. Por ejemplo, si una página tiene dos o más urls, se debe incluir la URL principal con la etiqueta rel=canonical para que Google la lea como tal y no haya problemas con el contenido duplicado.

Newsletter Updates

Introduce tu dirección de correo electrónico para suscribirte a nuestro boletín

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *