llms.txt: qué es, cómo funciona y cómo crearlo para tu web

llms.txt: qué es, cómo funciona y cómo crearlo para tu web

Si tienes un sitio web y quieres que los grandes modelos de lenguaje (ChatGPT, Claude, Perplexity) lo entiendan mejor, el archivo llms.txt es el equivalente moderno del robots.txt: un fichero de texto que guía a los agentes de IA hacia el contenido que realmente importa de tu sitio.

En esta guía aprenderás exactamente qué es, cómo funciona la especificación oficial, y cómo crearlo paso a paso para cualquier tipo de web.

Qué es llms.txt y por qué existe

Cuando un modelo de lenguaje necesita información sobre un sitio web, normalmente descarga páginas HTML, elimina el código y extrae el texto. El problema es que el HTML está lleno de ruido: menús de navegación, pies de página, widgets de cookies, scripts y estilos que no aportan información útil al modelo.

El archivo llms.txt soluciona esto de raíz: es un documento en formato Markdown, colocado en la raíz del sitio, que le dice al modelo exactamente qué páginas tiene el sitio y qué contiene cada una, con una descripción concisa. El resultado es una «tabla de contenidos» eficiente que los modelos pueden procesar sin gastar tokens en ruido.

La especificación fue propuesta por Jeremy Howard y publicada en llmstxt.org. Es un estándar abierto, no un producto de ninguna empresa.

La especificación llmstxt.org explicada

El formato de llms.txt es deliberadamente simple. Un archivo válido tiene tres partes:

Estructura obligatoria

El archivo debe comenzar con el nombre del sitio como titular H1 y, opcionamente, una descripción en formato blockquote de Markdown:

# Nombre de tu sitio web

> Descripción breve de qué hace el sitio, en una o dos frases.

Secciones opcionales y formato de enlaces

Después del encabezado, el archivo se organiza en secciones con títulos H2. Cada sección agrupa páginas relacionadas, y cada página se lista como un enlace Markdown con una descripción:

## Documentación

- [Guía de inicio rápido](https://ejemplo.com/docs/inicio): Cómo instalar y configurar el producto en cinco minutos.
- [Referencia de la API](https://ejemplo.com/api): Endpoints disponibles, parámetros y ejemplos de respuesta.

## Blog

- [Cómo preparar tu web para la IA](https://ejemplo.com/blog/ia): Guía práctica sobre AI-readiness.

Las secciones más comunes son: «Documentación», «Blog», «Acerca de», «Productos» y «Soporte». Puedes usar los nombres que mejor describan tu contenido.

llms-full.txt: la versión extendida

La especificación también define un archivo opcional llamado llms-full.txt. A diferencia de llms.txt, que solo contiene un índice de URLs con descripciones, llms-full.txt incluye el contenido completo de las páginas más importantes, concatenado en un solo documento Markdown.

Este archivo es útil cuando quieres que los modelos puedan leer tu sitio completo en un solo paso, sin necesidad de hacer múltiples peticiones HTTP. Es especialmente valioso para documentación técnica y sitios con contenido denso.

Cómo crear tu llms.txt paso a paso

Qué páginas incluir y cuáles omitir

La regla general es incluir las páginas que tienen valor informativo real:

  • Páginas de producto o servicio con descripciones detalladas
  • Documentación técnica
  • Artículos de blog relevantes (los más completos, no todos)
  • Página «Acerca de» con información sobre la empresa o el proyecto
  • Páginas de preguntas frecuentes (FAQ)

Omite páginas que no aportan información útil a un modelo:

  • Páginas de inicio de sesión o registro
  • Páginas de error (404, 500)
  • Páginas de confirmación de formularios
  • Listados de productos sin descripción

Cómo redactar descripciones útiles para los modelos

La descripción de cada enlace es clave. No es un titular SEO ni un resumen de 160 caracteres: es una frase que le dice al modelo qué información encontrará en esa página.

Evita descripciones vagas como «Más información sobre nosotros». En su lugar, escribe algo concreto:

  • Mal: «Nuestra página de contacto»
  • Bien: «Formulario de contacto, dirección postal y horario de atención al cliente»

Una buena descripción responde a la pregunta: «¿Qué aprendería alguien que lea esta página?»

Dónde colocar el archivo y cómo verificarlo

El archivo llms.txt debe estar accesible en la raíz de tu dominio:

https://tudominio.com/llms.txt

Si tu sitio está en un subdirectorio (por ejemplo, https://ejemplo.com/docs/), el archivo debe estar en https://ejemplo.com/docs/llms.txt.

Para verificar que el archivo es válido y está bien formateado, puedes usar el validador de llms.txt de AgentReady. El validador comprueba la estructura del archivo, la validez de los enlaces y te sugiere mejoras concretas.

Ejemplos reales de llms.txt bien construidos

Para que veas el formato en la práctica, este es un ejemplo completo para un sitio de software:

# Herramienta de Gestión de Proyectos XYZ

> Software en la nube para gestión de proyectos ágiles. Funcionalidades de sprints, tableros Kanban, informes de velocidad y colaboración en tiempo real.

## Producto

- [Características principales](https://xyz.ejemplo.com/features): Descripción de todas las funciones: tableros, sprints, reportes, integraciones y más.
- [Planes y precios](https://xyz.ejemplo.com/pricing): Comparativa de planes Free, Pro y Enterprise con límites y precios actualizados.
- [Integraciones](https://xyz.ejemplo.com/integraciones): Lista de integraciones disponibles: GitHub, Slack, Jira, Zapier, Google Workspace.

## Documentación

- [Guía de inicio](https://xyz.ejemplo.com/docs/inicio): Cómo crear un proyecto, añadir miembros y hacer el primer sprint en menos de 10 minutos.
- [API REST](https://xyz.ejemplo.com/docs/api): Referencia completa de la API con ejemplos en Python, JavaScript y cURL.

## Empresa

- [Acerca de](https://xyz.ejemplo.com/about): Historia de la empresa, equipo fundador y misión.

Errores comunes al crear llms.txt

Error 1: Incluir demasiadas páginas. El objetivo es proporcionar un índice útil, no un sitemap completo. Si incluyes 500 URLs, el modelo pierde el contexto de lo que es importante. Prioriza calidad sobre cantidad.

Error 2: Descripciones de una sola palabra o vacías. Una descripción como «Blog» no aporta nada. El modelo no sabe si ese enlace lleva a artículos técnicos, recetas o noticias. Sé específico.

Error 3: No mantener el archivo actualizado. Si publicas contenido nuevo relevante, añádelo al llms.txt. Un índice desactualizado es peor que ninguno porque genera respuestas incorrectas.

Error 4: Usar HTML en lugar de Markdown. El archivo debe ser texto plano con sintaxis Markdown. Algunos generadores de sitios web intentan «renderizar» el archivo como si fuera una página HTML. Asegúrate de que se sirve con el tipo MIME correcto (text/plain o text/markdown) y que el contenido es Markdown puro.

Error 5: Colocarlo en una ruta no estándar. El archivo debe estar exactamente en /llms.txt. Algunas implementaciones intentan ponerlo en /static/llms.txt o similares. Los agentes buscan exclusivamente en la raíz.


Ahora que conoces la especificación, el siguiente paso es validar el archivo de tu sitio o crear uno desde cero. Puedes usar las herramientas gratuitas de AgentReady para ambas tareas: el validador de llms.txt te dirá qué mejorar si ya tienes uno, y el generador de llms.txt te guía paso a paso para crear uno desde cero.

Pruébalo ahora

Analiza tu sitio web gratis y obtén un informe completo de AI-readiness con recomendaciones concretas.

Analizar mi sitio web