¿Qué es llms.txt? (Definición + TL;DR)

Si has pasado tiempo en las trincheras de la búsqueda por IA, ya habrás notado la brecha. Los motores de IA rastrean tu sitio, pero a menudo no saben qué vale realmente la pena leer en él. Gastan presupuesto en páginas de inicio de sesión, rutas de archivo y shells renderizados con JS. Se pierden la página de precios o el artículo explicativo que te gustaría que citaran. llms.txt es la propuesta para solucionar eso: un archivo de cinco minutos en la raíz de tu dominio que les dice a los LLM qué URLs son más importantes.

El formato es intencionalmente mínimo: un documento Markdown con un H1 con el nombre del sitio, un blockquote de una línea como resumen, secciones H2 que agrupan contenido relacionado (Docs, Blog, API, Ejemplos) y enlaces con viñetas y descripciones. Sin XML, sin JSON, sin esquemas que validar contra un registro. Solo Markdown que cualquier humano puede leer y cualquier LLM puede analizar sin una lucha de tokenizadores. El archivo completo suele pesar entre 2 y 10 KB.

Se sitúa junto a robots.txt y sitemap.xml como el tercer archivo en la raíz de tu sitio que interesa a los rastreadores, pero con un propósito diferente. robots.txt concede o deniega el acceso. sitemap.xml enumera exhaustivamente las URLs para indexar. llms.txt selecciona la lista corta de contenido citable para los motores de IA. El resto de esta guía cubre de dónde viene, cómo escribir uno y si vale la pena el esfuerzo dada la adopción inconsistente actual. Spoiler: sí, vale la pena publicarlo. El costo es de cinco minutos y el beneficio potencial es real en las plataformas de Perplexity y Anthropic hoy, además de la opcionalidad en todos los demás motores durante los próximos 24 meses.

La Historia — Por Qué se Propuso llms.txt

La propuesta se publicó el 3 de septiembre de 2024, en un único repositorio de GitHub y una publicación de blog adjunta de Jeremy Howard, fundador de fast.ai y Answer.AI. Howard había pasado el año anterior construyendo las herramientas de investigación de Answer.AI en torno a LLM de contexto largo y seguía encontrando el mismo obstáculo: la web abierta está estructurada para humanos y motores de búsqueda clásicos, no para los pipelines de recuperación en tiempo de inferencia que ejecutan los productos de IA. Los sitios publicaban miles de páginas y un LLM que intentara resumir la empresa consumiría rutas irrelevantes (pantallas de inicio de sesión, resultados de búsqueda facetados, archivos paginados) antes de encontrar la página del producto real.

Los dos archivos existentes en la raíz, robots.txt y sitemap.xml, no podían cerrar la brecha. robots.txt es un control de acceso binario: permitido o denegado, sin ponderación de prioridad. sitemap.xml enumera cada URL que deseas indexar en XML plano, a menudo con decenas de miles de entradas sin ninguna señal editorial sobre cuáles son más importantes. Ninguno de los dos archivos le dice a un sistema de IA "si solo tienes tiempo para leer cinco páginas, lee estas cinco". Esa brecha es lo que llms.txt llena.

La otra mitad del problema es el renderizado de JavaScript. La mayoría de los rastreadores de IA (GPTBot, ClaudeBot, PerplexityBot en sus modos predeterminados) no ejecutan JavaScript. Ven la respuesta HTML sin procesar, que en los stacks frontend modernos (Vue SPA, React sin SSR, aplicaciones Next.js solo con hidratación) suele ser un shell casi vacío con un <div id="root"> y nada más. llms.txt evita esto al servir Markdown canónico en texto plano, contenido que el rastreador puede leer independientemente del stack frontend.

El planteamiento de Howard en la propuesta original era simple. La web tiene /robots.txt para rastreadores, /humans.txt para lectores (una convención nicho de los años 2010), /security.txt para divulgación de vulnerabilidades y /.well-known/ para metadatos. /llms.txt encaja perfectamente en esa familia: un manifiesto seleccionado y legible por máquinas, diseñado específicamente para la nueva ola de agentes de IA que leen los sitios de manera diferente a como lo hacen los navegadores. A finales de 2024, Anthropic lo había adoptado en anthropic.com/llms.txt; para el primer trimestre de 2025, Cloudflare, Vercel, Astro, NuxtLabs y Linear lo habían seguido. La adopción entre las empresas de herramientas de desarrollo ha sido constante desde entonces.

llms.txt vs robots.txt vs sitemap.xml — Cuándo Usar Cada Uno

Los tres archivos en la raíz de tu sitio responden a una pregunta diferente. robots.txt responde "¿quién puede rastrear qué?" sitemap.xml responde "¿qué URLs existen?" llms.txt responde "¿qué URLs son más importantes para la IA?" Son complementarios: la mayoría de los sitios deberían tener los tres.

Atributorobots.txt
PropósitoControl de acceso para rastreadoresPrioridad de ingesta seleccionada para IA
FormatoDirectivas de texto plano / Esquema XMLMarkdown plano
AudienciaBots de búsqueda / Bots de búsquedaAgentes de IA (ChatGPT, Claude, Perplexity)
Rol en indexaciónPermitir/denegar rutas / Listar todas las URLsDestacar las URLs más citables
AnálisisSintaxis estricta / XML estrictoMarkdown flexible, legible por humanos
Tres archivos raíz, tres trabajos: ninguno sustituye a los otros dos.

El modelo mental práctico: si solo tuvieras tres archivos en la raíz de tu sitio y presupuesto ilimitado para uno nuevo, el orden de impacto hoy es robots.txt primero (sin él, los rastreadores pueden no llegar a ti o rastrear de forma demasiado agresiva), sitemap.xml segundo (lleva tu conjunto completo de URLs al índice de Google) y llms.txt tercero (señala prioridad a los motores de IA además de los otros dos).

Un error común es tratar llms.txt como un reemplazo de uno de los otros. No lo es. Eliminar tu sitemap.xml y agregar llms.txt hundiría tu indexación en Google mientras solo ayuda marginalmente a la citación por IA. Eliminar robots.txt y reemplazarlo con llms.txt no hace nada útil: diferentes bots leen diferentes archivos. Publica los tres, mantenlos sincronizados y trata llms.txt como la capa editorial sobre las estructurales.

También está la cuestión de quién lee cada archivo en la práctica. robots.txt es leído por prácticamente todos los rastreadores de buen comportamiento. sitemap.xml es leído principalmente por Google, Bing y un puñado de herramientas SEO. llms.txt hoy es leído de forma consistente por Perplexity, las herramientas de Anthropic y una larga cola de proyectos LLM de código abierto (pipelines de ingesta de LangChain, cargadores de LlamaIndex, etc.). La lista crece trimestralmente: la beta de AI Audit de Cloudflare agregó conciencia de llms.txt a principios de 2026, y varios productos de búsqueda por IA más pequeños integran el análisis de llms.txt en sus pipelines de rastreo.

La Especificación de llms.txt — Formato Explicado

El formato es un documento Markdown con cinco secciones requeridas y una opcional. Es lo suficientemente flexible como para que puedas escribirlo a mano en un editor de texto en cinco minutos, y lo suficientemente estricto como para que los sistemas de IA y los validadores puedan analizarlo de manera determinista.

Las cinco partes requeridas:

  1. H1: Nombre del sitio. Exactamente un H1 al principio, con el nombre de tu sitio o empresa. Este es el ancla de la entidad.
  2. Blockquote: Resumen de una línea. Un blockquote de Markdown (>) inmediatamente después del H1 con una sola oración que describa el sitio. Trátalo como tu discurso de ascensor: lo que un LLM citará cuando se le pregunte "¿qué hace este sitio?"
  3. Secciones H2. Agrupaciones lógicas de enlaces: ## Docs, ## Ejemplos, ## API, ## Blog, ## Precios. Usa de 2 a 6 secciones para la mayoría de los sitios.
  4. Enlaces con viñetas y descripciones. Cada entrada bajo un H2 sigue este patrón: - [Texto del enlace](https://url-completa): Descripción de una oración. El patrón de dos puntos y descripción es lo que diferencia a llms.txt de una lista genérica de enlaces Markdown.
  5. Sección H2 opcional. Una sección ## Opcional al final para URLs de baja prioridad que la IA puede despriorizar cuando el presupuesto es ajustado.

Un ejemplo práctico, en el formato que publicarías hoy:

# SiteTest.ai

> Herramienta de auditoría de sitios web impulsada por IA: 168 comprobaciones de SEO y búsqueda por IA para visibilidad en ChatGPT, Perplexity y AI Overviews.

## Docs

- [Cómo funciona](https://sitetest.ai/how-it-works): Metodología detrás de las 168 comprobaciones en rastreabilidad, esquema y citabilidad por IA.
- [Precios](https://sitetest.ai/pricing): Planes desde un nivel gratuito hasta $24.99 por auditoría, más opciones para equipos y agencias.

## Blog

- [Guía de GEO](https://sitetest.ai/blog/generative-engine-optimization-guide): Las 14 tácticas y la lista de verificación de 15 pasos para la Optimización para Motores Generativos.
- [Visibilidad en IA](https://sitetest.ai/blog/ai-visibility-checker-guide): Ocho métricas y ocho herramientas para rastrear citaciones de IA.

## Opcional

- [Registro de cambios](https://sitetest.ai/changelog): Notas de lanzamiento del producto: útiles para agentes de IA pero no de alta prioridad.

Eso es todo. Sin esquema JSON, sin campos requeridos más allá de la estructura anterior. El archivo completo cabe en un hilo de tweets de longitud, y los validadores verifican el H1, el blockquote, al menos una sección H2 y enlaces Markdown bien formados.

La variante llms-full.txt es un archivo hermano en /llms-full.txt que adopta el mismo enfoque pero va más allá: concatena el contenido de texto completo de tus páginas más importantes en un solo documento, no solo enlaces. Los sitios de documentación lo utilizan para exponer todo su corpus de documentación como un solo bloque de texto que los LLM pueden ingerir sin conexión. El costo es mucho mayor: los archivos llms-full.txt típicos pesan entre 200 KB y varios megabytes, y necesitan regenerarse cada vez que el contenido cambia. La mayoría de los sitios deberían publicar solo llms.txt y omitir llms-full.txt a menos que tengan contenido canónico estable (especificaciones técnicas, API públicas, documentación formal) donde un volcado único realmente ayude a los consumidores de LLM posteriores.

Paso a Paso: Cómo Crear tu llms.txt

Después de ejecutar más de 100 auditorías, he visto el mismo patrón una y otra vez: los equipos o crean un llms.txt de 30 segundos que acierta lo básico, o un archivo extenso y defectuoso que falla por completo. El flujo de trabajo de ocho pasos a continuación es el que usamos internamente en sitetest.ai cuando añadimos llms.txt a un sitio de un cliente.

Paso 1: Inventaria tus URLs más citables. Enumera de 5 a 30 URLs que mejor representen tu sitio. Página de inicio, precios, las 5-10 publicaciones de blog principales, índice de documentación, páginas de funciones clave. Omite páginas con poco contenido, pantallas de inicio de sesión, resultados de búsqueda por facetas y experiencias solo JS. El objetivo es un mapa curado, no un sitemap exhaustivo. Si tienes más de 30 URLs candidatas, prioriza sin piedad: el excedente va en llms-full.txt o se queda fuera por completo.

Paso 2: Crea el archivo con el nombre del sitio en H1. Abre un editor de texto (VS Code, Sublime, el Bloc de Notas simple, cualquier cosa que guarde como texto plano UTF-8) y comienza con un solo H1 de Markdown con el nombre de tu sitio o empresa: # SiteTest.ai. Este es el único H1 en el archivo. Los sistemas de IA lo usan como el ancla de entidad para todo lo que sigue.

Paso 3: Añade un resumen de una línea en blockquote. Inmediatamente debajo del H1, añade un blockquote de Markdown con una oración que describa lo que hace el sitio: > Herramienta de auditoría web impulsada por IA — 168 comprobaciones de SEO y búsqueda AI para visibilidad en ChatGPT y Perplexity. Escríbelo como responderías "¿a qué se dedica tu empresa?" en una cena informal: informativo, sin exageraciones de marketing.

Paso 4: Agrupa las URLs bajo secciones H2. Crea secciones H2 lógicas: ## Docs, ## Blog, ## API, ## Ejemplos, ## Precios. La sección opcional ## Optional al final es una convención especial: enumera URLs de baja prioridad que los sistemas de IA pueden despriorizar cuando el presupuesto es ajustado. Usa de 2 a 6 secciones para la mayoría de los sitios.

Paso 5: Escribe cada enlace con una descripción. Cada entrada sigue el patrón exacto: - [Texto del enlace](https://url-completa): Descripción de una oración sobre lo que hay en esa URL. La parte de los dos puntos y la descripción es lo que diferencia a llms.txt de una lista de enlaces genérica. Las descripciones deben tener entre 60 y 120 caracteres, ser informativas y no un texto de marketing. Usa la URL completa (incluyendo https://) — las rutas relativas son ambiguas para los consumidores de IA.

Paso 6: Mantén el archivo ligero (menos de 50 KB). La mayoría de los archivos llms.txt deben tener entre 2 y 10 KB en total. Cualquier cosa que supere los 50 KB es demasiado grande: algunos consumidores de IA truncan u omiten archivos de gran tamaño. Si tu lista de URLs candidatas excede lo que cabe de forma limpia, mueve el excedente a llms-full.txt u omítelo. Menos es más: un archivo ajustado de 20 enlaces supera a uno extenso de 200 enlaces.

Paso 7: Publícalo en /llms.txt con el tipo de contenido text/plain. Sube el archivo para que sea accesible en https://tudominio.com/llms.txt. Configura tu servidor para que lo sirva con Content-Type: text/plain, no text/html. En Nginx, eso es un bloque location = /llms.txt { default_type text/plain; }. En Vercel, configura los encabezados en vercel.json. En Cloudflare Pages, añade un archivo _headers. Verifica con curl -I https://tudominio.com/llms.txt.

Paso 8: Valida y enlaza desde robots.txt. Ejecuta curl https://tudominio.com/llms.txt y lee la salida completa. Pásalo por el validador de llmstxt.org. Opcionalmente, añade una línea de sugerencia en robots.txt: # llms.txt: https://tudominio.com/llms.txt — esto es puramente informativo (no es una directiva analizada) pero indica a cualquiera que lea robots.txt que también mantienes un llms.txt.

Más de 50 Ejemplos Reales de llms.txt

La forma más rápida de entender llms.txt en la práctica es leer lo que las empresas de herramientas de desarrollo e IA realmente envían. A continuación, diez ejemplos en cinco categorías: cada enlace apunta a un /llms.txt en vivo que puedes hacer curl ahora mismo y estudiar. Hemos mantenido la lista curada en lugar de exhaustiva: el formato es tan simple que 50 ejemplos revelan los mismos patrones que diez.

Herramientas de Desarrollo

  • Anthropic: llms.txt centrado en documentación que cubre referencias de API, fichas de modelos y guías de ingeniería de prompts. Destaca por su ajustada sección Optional.
  • Cloudflare: Superficie de producto masiva (Workers, R2, D1, Pages, Stream) dividida en secciones H2 claras: un ejemplo de libro de texto sobre cómo organizar una empresa multiproducto.

Plataformas SaaS

  • Linear: Mínimo y centrado en marketing de producto: página de inicio, precios, clientes, registro de cambios. Cabe en menos de 2 KB.
  • Vercel: Documentación más páginas de producto, con un resumen en blockquote contundente que se lee como un discurso de ascensor de una línea.

Sitios de Documentación

  • Cursor: Documentación de IDE con contenido técnico profundo: usa las secciones ## Reference, ## Guides y ## API.
  • SvelteKit: Documentación de framework de código abierto dividida en secciones de Tutorial, Referencia y Migración: estructura editorial limpia.

Productos de IA

  • Perplexity: Documentación de API para la empresa de búsqueda por IA: es apropiado que el motor que más respeta llms.txt también publique uno limpio.
  • Anthropic Claude: Ya cubierto anteriormente: vale la pena releerlo específicamente por cómo maneja el versionado de modelos a través de muchas URLs de documentación.

Frameworks de Código Abierto

  • Astro: Documentación de framework de sitios estáticos: con muchas integraciones, recetas y tutoriales, con descripciones sólidas en cada enlace.
  • NuxtLabs: Framework basado en Vue con superficie multiproducto (Nuxt, NuxtHub, Nuxt UI): buen modelo para organizar productos relacionados bajo un mismo llms.txt.

Un patrón que vale la pena señalar: las empresas de SEO y herramientas de búsqueda están notablemente ausentes de esta lista. Ahrefs, Semrush, Moz, BrightEdge: ninguna publica llms.txt a mayo de 2026. El campo que debería estar más en sintonía con la búsqueda por IA es el más lento en adoptar el archivo de búsqueda por IA, en parte porque sus rastreadores compiten con los rastreadores de IA y en parte porque sus equipos internos de SEO son escépticos de los estándares no oficiales. Las empresas de herramientas de desarrollo y las de infraestructura de IA se han movido primero; las herramientas de marketing seguirán cuando la adopción se convierta en un requisito básico.

1,200+
sitios web que se estima publican llms.txt a mayo de 2026, basado en escaneos públicos de Common Crawl y el registro comunitario de llmstxt.org. La adopción se inclina fuertemente hacia herramientas de desarrollo, infraestructura de IA y sitios de documentación de código abierto.
Source: Estimado a partir de Common Crawl + listas comunitarias de llmstxt.org

Para un registro público actualizado continuamente de ejemplos de llms.txt, consulta nuestro directorio de ejemplos de llms.txt (placeholder — publicaremos un registro comunitario en github.com/seoport/llms-txt-examples en el tercer trimestre de 2026). Mientras tanto, los diez ejemplos anteriores más un rápido curl contra el dominio de cualquier empresa de herramientas de desarrollo te mostrarán el 80% de los patrones que necesitas para publicar el tuyo propio.

Errores Comunes de llms.txt

Seis errores aparecen en aproximadamente el 70% de los archivos llms.txt defectuosos que auditamos. Cada uno se soluciona en 5 minutos, y cada uno por sí solo puede ser la diferencia entre un archivo que los sistemas de IA usan y uno que ignoran silenciosamente.

Error 1: Ubicación incorrecta del archivo. El archivo debe estar exactamente en /llms.txt en la raíz de tu dominio, no en /docs/llms.txt, no en /.well-known/llms.txt, no en /llms.html. Los consumidores de IA obtienen la ruta canónica; cualquier otra cosa es invisible. Si tu CMS o generador de sitios estáticos enruta el archivo a una ruta que no es la raíz por defecto, anúlelo explícitamente.

Error 2: Tipo de contenido incorrecto servido. La respuesta HTTP debe incluir Content-Type: text/plain. Muchos servidores usan text/html por defecto para cualquier archivo con extensión .txt si el tipo MIME no está configurado explícitamente. Peor aún, algunos CMS interceptan la ruta y sirven una página HTML 404 con un estado 200. Siempre verifica con curl -I https://tudominio.com/llms.txt y confirma tanto el código de estado como el encabezado de tipo de contenido.

Error 3: Descripción vacía o faltante (blockquote después del H1). Un número sorprendente de archivos omiten el resumen de una línea en blockquote justo después del H1. Sin él, los sistemas de IA no tienen contexto de entidad de alto nivel: se ven obligados a inferir el propósito de tu sitio a partir de la lista de enlaces, lo cual es ruidoso. Incluye siempre el blockquote, hazlo siempre una oración completa, hazlo siempre informativo, no promocional.

Error 4: Enlazar a páginas renderizadas con JS que la IA no puede analizar. llms.txt apunta a URLs que se supone que la IA debe leer. Si esas URLs sirven un shell de aplicación de una sola página solo JS (Vue, React sin SSR, Next.js solo con hidratación), la IA obtiene la URL, recibe un <div> vacío y concluye que no hay nada allí. O bien corrige el SSR en las páginas enlazadas, o enlaza solo a páginas que renderizan contenido en HTML sin procesar.

Error 5: Incluir URLs con muro de pago o protegidas por autenticación. Un enlace a un artículo con muro de pago o a un panel de control con inicio de sesión desperdicia el presupuesto de rastreo de la IA y señala negligencia. Los sistemas de IA recuerdan que la URL enlazada era inaccesible y pueden descontar tu llms.txt en su conjunto. Selecciona con dureza: solo enumera URLs que una solicitud anónima pueda leer completamente.

Error 6: Olvidar actualizar después de cambios de contenido. llms.txt es editorial, lo que significa que se vuelve obsoleto. Un archivo que enumera una página de precios de 2023 que hoy da un 404, o una página de producto obsoleta que redirige a otro lado, indica que el archivo no se mantiene. Programa una revisión trimestral alineada con tu cadencia de actualización de contenido: la misma revisión que actualiza dateModified y renueva las páginas centrales debe actualizar también llms.txt.

Validando tu llms.txt

La validación tiene tres capas: manual, en línea y automatizada, y cubren superficies ligeramente diferentes. Ejecuta las tres antes de considerar que tu llms.txt está listo.

Verificación manual. La prueba de humo de 30 segundos: curl -I https://tudominio.com/llms.txt y confirma que ves un estado 200 y Content-Type: text/plain en los encabezados. Luego curl https://tudominio.com/llms.txt y lee la salida completa. Tus ojos deberían detectar inmediatamente H1 faltantes, Markdown roto o envoltura HTML accidental. Alrededor del 80% de los archivos defectuosos se revelan en esta etapa.

Validadores en línea. El validador de referencia en llmstxt.org/validator (placeholder — la URL oficial del validador puede cambiar; consulta el repositorio de la especificación para el enlace canónico actual) verifica el cumplimiento estructural: presencia de H1, blockquote, secciones H2 válidas, buena formación de enlaces Markdown y salud de los enlaces (solicitudes HEAD contra cada URL). Descubre problemas que una lectura con curl no detectará, como un error tipográfico en una URL que devuelve un 404 o una cadena de descripción con saltos de línea incrustados.

La otra herramienta que vale la pena ejecutar es sitetest.ai — nuestra propia auditoría incluye la validación de llms.txt en su conjunto de 168 comprobaciones, además de la evaluación más amplia de citabilidad por IA que te dice si las URLs que enumeras son realmente citables en primer lugar (buen esquema, carga rápida, pasajes citables, etc.). Un llms.txt válido que enlaza a páginas lentas renderizadas con JS es una oportunidad desperdiciada; sitetest.ai detecta ambas capas.

Errores comunes que los validadores detectan. Archivo vacío (el archivo existe pero tiene cero bytes — ocurre con malas subidas de CMS). Codificación incorrecta (UTF-16 o Windows-1252 en lugar de UTF-8 — los editores de texto en Windows todavía se equivocan en esto). Blockquote faltante (se omitió el resumen de una línea). Enlaces rotos (la URL listada en llms.txt devuelve 404 o 5xx). Tipo de contenido incorrecto (el servidor lo sirve como text/html). Envoltura HTML (el CMS envolvió automáticamente el archivo en una plantilla HTML). Cada uno de estos se soluciona en 1 minuto una vez señalado, pero cada uno neutraliza silenciosamente tu archivo si lo publicas sin verificar.

¿Se convertirá llms.txt en un estándar?

La respuesta honesta en mayo de 2026: se inclina hacia el sí, pero aún no ha llegado. Las señales en ambos lados son reales.

Señales de adopción que favorecen la estandarización. Anthropic, Cloudflare, Vercel, Linear, Astro, NuxtLabs, Cursor, SvelteKit y Perplexity publican y respetan llms.txt. Los clústeres de herramientas de desarrollo e infraestructura de IA se han movido primero de manera efectiva: estas son las mismas empresas que impulsaron la adopción temprana de robots.txt y los datos estructurados en sus respectivas épocas. La inclusión de la conciencia de llms.txt en la versión beta de AI Audit de Cloudflare a principios de 2026 fue un movimiento significativo a nivel de plataforma; la huella de Cloudflare significa que cualquier formato de archivo que admitan obtiene distribución a nivel de infraestructura.

Estado de estandarización. Ninguno formalmente — no hay un borrador del W3C, IETF o WHATWG a mayo de 2026. La especificación vive como un README de GitHub mantenido por Jeremy Howard y colaboradores en llmstxt.org. Eso no es inusual: robots.txt en sí mismo fue un estándar de facto durante 25 años antes de convertirse en RFC 9309 en 2022. Las convenciones útiles generalmente preceden a las especificaciones formales. La falta de un camino en el W3C hoy no es evidencia de que el estándar vaya a fallar.

El soporte de los motores de IA es desigual. Perplexity respeta llms.txt en sus modos de navegación e investigación — es el respaldo más limpio entre los principales motores de búsqueda de IA. Las herramientas de Claude de Anthropic lo analizan y lo utilizan para sus propias superficies de producto. El comportamiento de ChatGPT es inconsistente: GPTBot sondea /llms.txt ocasionalmente en nuestro análisis de registros de rastreo, pero OpenAI no se ha comprometido a usarlo como una señal formal. Google lo ignora en Search y AI Overviews — Google tiene su propio ecosistema de datos estructurados (JSON-LD, el Knowledge Graph, sameAs) y no muestra interés público en adoptar otro formato de archivo. Bing Copilot está en el medio — Microsoft no lo ha descartado pero tampoco lo ha respaldado.

Predicción a 12–24 meses. Dos escenarios. El camino optimista: ChatGPT o Gemini se comprometen públicamente a respetar llms.txt en 12–18 meses (probablemente bajo la presión competitiva de Perplexity), momento en el que se convierte en un estándar de facto para la búsqueda por IA de la misma manera que robots.txt lo es para la búsqueda clásica. El camino pesimista: los motores principales nunca se comprometen, llms.txt sigue siendo una convención de desarrolladores adoptada por Perplexity y la larga cola de proyectos de LLM de código abierto pero nunca por los gigantes, y se desvanece en un segundo plano como lo hizo /humans.txt. Incluso en el caso pesimista, el costo de implementarlo hoy (5 minutos) es tan bajo que el valor esperado de la apuesta es positivo: los primeros en adoptarlo pierden casi nada y ganan opcionalidad real.

Más allá de llms.txt: Otras Señales de Citabilidad para IA

llms.txt es una señal entre muchas. Incluso con un archivo perfecto, los motores de IA aún clasifican las citas según los factores de citabilidad más amplios. Tres familias de señales importan más.

Marcado de esquema (Schema markup). FAQPage, HowTo, Article (con autor y editor), Organization (con sameAs) y BreadcrumbList JSON-LD son los tipos de marcado de mayor apalancamiento para la citación por IA. SpeakableSpecification (cssSelector apuntando a bloques #tldr y #definition) le dice a la IA de voz y audio qué bloques están diseñados para ser leídos en voz alta. Los motores de IA analizan JSON-LD como una señal de alta confianza porque es legible por máquina e inequívoco: los sitios con un esquema adecuado se citan 2–3 veces más a menudo que los sitios sin él.

Señales EEAT. Experiencia, Expertise, Autoridad y Confiabilidad — el marco de cuatro letras que Google formalizó a finales de 2022 — se traduce directamente en la clasificación de IA. Los motores de IA citan preferentemente fuentes con autores nombrados, credenciales visibles, citas en línea a fuentes primarias, datos originales y reconocimiento de marca en dominios de confianza para IA (Wikipedia, Reddit, GitHub, Hacker News, publicaciones comerciales importantes). El contenido anónimo sin biografía de autor y sin citas en línea se filtra de los grupos de candidatos a citas.

Encabezados estructurados y densidad factual. Una jerarquía clara de H1 → H2 → H3 permite que los pipelines de recuperación fragmenten tu página con precisión. Las páginas con un H1 gigante y muros de texto sin subtítulos se fragmentan mal y se citan raramente. Dentro de cada fragmento, la densidad factual importa: de 4 a 6 entidades nombradas (personas, fechas, productos, números, lugares) por cada 100 palabras obtienen una puntuación más alta que la prosa vaga. Los LLM utilizan el recuento de entidades nombradas como un proxy rápido para "este pasaje es informativo".

Para el manual completo de GEO con las 14 tácticas — listas blancas de robots.txt, llms.txt, esquema, velocidad de página, pasajes citables, autoridad de marca — consulta nuestra guía de GEO. Para los 18 factores de clasificación que los motores de búsqueda de IA ponderan al ensamblar respuestas, consulta Optimización para Motores de Búsqueda de IA. Para el marco inicial más antiguo — qué se considera una auditoría SEO de IA y en qué se diferencia de las auditorías clásicas — consulta Qué es una Auditoría SEO de IA. llms.txt es el archivo de entrada; esas guías cubren el resto de la superficie.

Frequently Asked Questions

¿Qué es llms.txt?
llms.txt es un archivo de texto plano en formato Markdown ubicado en la raíz de un sitio web (ej. example.com/llms.txt) que enumera las URL y secciones de contenido más útiles para sistemas de IA como ChatGPT, Claude y Perplexity. Utiliza una estructura Markdown simple — H1 con el nombre del sitio, resumen en blockquote, secciones H2 y enlaces con viñetas con una descripción de una oración — para que los LLM puedan entender rápidamente la forma de un sitio sin tener que analizar páginas con mucho JavaScript. Fue propuesto por Jeremy Howard de Answer.AI en septiembre de 2024 y ahora es utilizado por Anthropic, Cloudflare, Vercel, Astro y una lista creciente de empresas de herramientas de desarrollo.
¿Dónde coloco llms.txt en mi sitio web?
Debe vivir en la raíz de tu dominio — exactamente /llms.txt, no /docs/llms.txt o /llms.html. La URL completa debe ser https://tudominio.com/llms.txt y devolver un estado 200 con content-type text/plain. Cualquier otra ruta o tipo de contenido hará que los sistemas de IA y los validadores ignoren el archivo. Si también publicas llms-full.txt, este vive en /llms-full.txt en el mismo nivel. Verifica con curl -I https://tudominio.com/llms.txt — confirma tanto el estado 200 como el encabezado content-type text/plain.
¿Google usa llms.txt?
No a mayo de 2026. Google no ha anunciado soporte para llms.txt en Search, Gemini o AI Overviews. Las superficies de IA de Google aún se basan en Googlebot, Google-Extended y el rastreo web estándar más los datos estructurados ya incrustados en la página (JSON-LD, microdatos). Publicar llms.txt no perjudica los rankings de Google, pero tampoco ayuda directamente. Para las citas de AI Overviews de Google, concéntrate en el marcado de esquema, la velocidad de página y las señales EEAT — consulta nuestra guía GEO en /blog/generative-engine-optimization-guide para el manual completo.
¿ChatGPT respeta llms.txt?
De manera inconsistente. OpenAI no se ha comprometido a admitir llms.txt como una señal formal — GPTBot y OAI-SearchBot todavía se basan principalmente en robots.txt, sitemap.xml y la página en sí. Dicho esto, en nuestro análisis de registros de rastreo en sitetest.ai vemos que ChatGPT-User obtiene /llms.txt en una pequeña fracción de las sesiones, lo que sugiere que el archivo al menos se está probando. Trátalo como una señal gratuita que cuesta cinco minutos implementar, no como un factor de clasificación duro. Las plataformas que lo usan explícitamente hoy son Perplexity (en modo de navegación) y las herramientas de Anthropic.
¿Es llms.txt lo mismo que robots.txt?
No. robots.txt les dice a los rastreadores a qué rutas pueden acceder — controla el comportamiento. llms.txt les dice a los sistemas de IA qué contenido es más útil para ellos — selecciona la prioridad. robots.txt es un estándar adyacente al IETF de 30 años compatible con prácticamente todos los rastreadores. llms.txt es una propuesta de 2024 compatible con una lista pequeña pero creciente de empresas de herramientas de IA. Sirven para diferentes propósitos y ambos deberían existir en la mayoría de los sitios: robots.txt para reglas de acceso, llms.txt para la curación de contenido.
¿Cómo creo llms.txt?
Ocho pasos. (1) Crea un archivo de texto plano en la raíz de tu sitio. (2) Comienza con H1 y el nombre de tu sitio. (3) Agrega un resumen de blockquote de una línea. (4) Agrupa las URL clave bajo secciones H2 como Docs, Examples, API. (5) Cada enlace debe ser un enlace Markdown más dos puntos más una descripción de una oración. (6) Mantén la longitud total por debajo de 50 KB. (7) Sírvelo como text/plain con HTTP 200. (8) Valida con curl más una lectura manual. Revisamos cada paso con ejemplos en la sección 5 de esta guía.
¿Qué es llms-full.txt?
llms-full.txt es un archivo hermano en /llms-full.txt que contiene el texto completo de tus páginas más importantes concatenado en un solo documento — no solo enlaces. La idea es proporcionar a los LLM fuera de línea y a los pipelines de ingesta un corpus completo en el que puedan entrenar o ajustar sin rastrear el sitio en vivo. Es más grande (a menudo de 200 KB a varios MB), más caro de mantener y solo es útil para sitios con contenido canónico estable como documentación, API públicas o especificaciones técnicas. La mayoría de los sitios de marketing deberían publicar solo llms.txt — llms-full.txt es excesivo.
¿Deberían los sitios pequeños tener llms.txt?
Sí. El archivo es una inversión de 5 minutos que no cuesta nada en rendimiento, alojamiento o diseño. Incluso un sitio de 10 páginas se beneficia de un llms.txt seleccionado porque les dice a los motores de IA qué 5–7 URL son las más representativas: tu página de inicio, página de precios, publicaciones principales del blog y página de contacto. Si tienes contenido que vale la pena citar, tienes contenido que vale la pena listar en llms.txt. La excepción son los sitios puramente transaccionales (flujos de pago de comercio electrónico puro) donde no hay contenido informativo que citar.
¿Puedo bloquear rastreadores de IA con llms.txt?
No — para eso está robots.txt. llms.txt es puramente aditivo: enumera lo que quieres que los sistemas de IA lean. Para bloquear rastreadores de IA, usa robots.txt con reglas Disallow explícitas para GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot y Google-Extended. Confundir los dos es uno de los seis errores comunes cubiertos en la sección 7. Recomendamos que casi nadie bloquee los rastreadores de IA — consulta nuestra guía GEO en /blog/generative-engine-optimization-guide para los argumentos en contra del bloqueo.
¿Ayuda llms.txt al SEO?
No para los rankings clásicos de Google. llms.txt no afecta el SEO de enlaces azules — Google no lo analiza como una señal de clasificación. Puede ayudar indirectamente a la visibilidad en la búsqueda por IA en plataformas que lo respetan (Perplexity, herramientas de Anthropic, algunos proyectos de LLM de código abierto). El marco realista: publicar llms.txt es un seguro barato para los próximos 12–24 meses mientras el estándar gana tracción o se desvanece. Para ganancias de ranking hoy, prioriza el esquema, la velocidad de página y los pasajes citables — cubierto en nuestra guía de Optimización para Motores de Búsqueda de IA en /blog/ai-search-engine-optimization.
¿Cuál es la diferencia entre llms.txt y sitemap.xml?
sitemap.xml enumera cada URL que deseas indexar, en XML legible por máquina, para los rastreadores de búsqueda clásicos. llms.txt enumera solo tus URL más útiles, en Markdown legible por humanos y por IA, para los LLM. El sitemap es exhaustivo y estructural; llms.txt es seleccionado y editorial. El sitemap puede tener 100,000 URL; llms.txt rara vez debe exceder las 100. Ambos archivos son complementarios — mantén tu sitemap para Google, implementa llms.txt para los motores de IA. Comparamos ambos con robots.txt en la sección 3.
¿Con qué frecuencia debo actualizar llms.txt?
Siempre que la estructura de tu sitio o el contenido canónico cambien de manera significativa. Para la mayoría de los sitios de marketing, eso es una vez por trimestre, alineado con tu cadencia de actualización de contenido. Para sitios de documentación con lanzamientos frecuentes, actualiza llms.txt en cada versión importante (enlaza las nuevas secciones de documentación, retira las obsoletas). El archivo siempre debe reflejar lo que actualmente es más citable en tu sitio — un llms.txt desactualizado con enlaces rotos indica negligencia a los motores de IA y reduce la confianza.
¿Existen validadores de llms.txt?
Sí, varios. El validador de referencia en llmstxt.org (propuesto por los autores de la especificación) verifica la sintaxis, el estado de los enlaces y la estructura recomendada. Sitetest.ai incluye la validación de llms.txt en su auditoría de 168 comprobaciones y señala archivos faltantes, tipo de contenido incorrecto, enlaces rotos y descripciones vacías. La reciente versión beta de AI Audit de Cloudflare también valida la presencia de llms.txt como parte de su panel de gestión de bots. Para comprobaciones manuales rápidas: curl -I https://tudominio.com/llms.txt y verifica 200 más text/plain.
¿Cuál es el futuro de llms.txt?
Dos escenarios. El camino optimista: para finales de 2026 o principios de 2027, ChatGPT, Gemini y Bing Copilot agregan soporte explícito, y llms.txt se convierte en un estándar de facto como robots.txt. El camino pesimista: los principales motores de IA nunca se comprometen, el archivo sigue siendo útil solo en Perplexity y un puñado de plataformas de herramientas, y se desvanece en una convención de desarrolladores en lugar de un estándar. De cualquier manera, el costo de publicar hoy es tan bajo (5 minutos) que el valor esperado es positivo incluso si la adopción se estanca. Los primeros en adoptarlo no pierden nada y ganan opcionalidad.

Conclusión + CTA

llms.txt es el experimento más barato en visibilidad en búsqueda de IA que ejecutarás este año. Cinco minutos de edición, una lista curada de 10 a 30 URLs, un encabezado Content-Type: text/plain, y ya está listo. La desventaja es cero — el archivo no daña el SEO, no ralentiza tu sitio, no rompe nada. La ventaja es real hoy en las plataformas de Perplexity y Anthropic, y cada vez más probable en ChatGPT y Gemini durante los próximos 12 a 18 meses a medida que crece la presión de adopción.

El punto más profundo: llms.txt es uno de tres o cuatro archivos de búsqueda de IA que no existían en 2023 y que serán requisitos básicos para 2027. Los sitios que los implementan temprano — junto con el trabajo de esquema, velocidad de página y pasajes citables cubierto en nuestra guía de GEO — acumulan su ventaja de visibilidad en IA un trimestre a la vez. Los sitios que esperan a que el estándar se formalice estarán de seis a doce meses atrás cuando sus competidores ya sean citados consistentemente en los principales motores de IA. Trata llms.txt como una opción gratuita sobre el futuro de la búsqueda de IA. Compra la opción, mantenla y revisa el resto de tu pila de visibilidad en IA.

Para auditar tu llms.txt actual — o generar uno desde tu sitio si aún no lo tienes — ejecuta un escaneo gratuito en sitetest.ai. La auditoría verifica la presencia de llms.txt, el formato, la salud de los enlaces y el tipo de contenido, además de los 168 factores más amplios de citabilidad en IA que determinan si las URLs que listas realmente serán citadas. Sesenta segundos, sin registro, salida amigable para desarrolladores.

Metodología

Esta guía se basa en la propuesta original de llms.txt publicada por Jeremy Howard en Answer.AI en septiembre de 2024, la especificación mantenida en llmstxt.org, escaneos públicos de Common Crawl de archivos /llms.txt en la web abierta y datos de auditoría interna de sitetest.ai a través del conjunto de 168 comprobaciones ejecutadas en miles de sitios mensualmente. Las estimaciones de adopción son aproximadas — no existe un registro central de sitios que publican llms.txt, por lo que la cifra de más de 1,200 se deriva de Common Crawl más listas mantenidas por la comunidad y debe tratarse como un indicador direccional, no como un recuento preciso. Los niveles de respeto de los motores de IA (Perplexity sí, Anthropic sí, ChatGPT inconsistente, Google no) reflejan declaraciones públicas y nuestro propio análisis de registros de rastreo hasta mayo de 2026 y pueden cambiar a medida que el estándar madure. Actualizamos esta guía trimestralmente — la próxima actualización programada es agosto de 2026, y el dateModified refleja la última revisión.

Related reading