Что такое llms.txt? (Определение + TL;DR)

Если вы хоть раз сталкивались с AI-поиском, вы уже заметили проблему. AI-движки сканируют ваш сайт, но часто не понимают, что на нем действительно стоит читать. Они тратят бюджет на страницы входа, архивные пути и JS-рендеренные оболочки. Они пропускают единственную страницу с ценами или единственную пояснительную статью, которую вы хотели бы, чтобы они цитировали. llms.txt — это предложение исправить это: файл, который создается за пять минут и размещается в корне вашего домена, сообщая LLM, какие URL наиболее важны.

Формат намеренно минималистичен: документ Markdown с заголовком H1 (название сайта), однострочной цитатой-резюме, разделами H2, группирующими связанный контент (Docs, Blog, API, Examples), и маркированными ссылками с описаниями. Никакого XML, JSON или схем для проверки в реестре. Просто Markdown, который может прочитать любой человек и распарсить любая LLM без борьбы с токенизатором. Весь файл обычно весит 2–10 КБ.

Он располагается рядом с robots.txt и sitemap.xml как третий файл в корне сайта, который важен для краулеров, но с другой целью. robots.txt предоставляет или запрещает доступ. sitemap.xml исчерпывающе перечисляет URL для индексации. llms.txt курирует список цитируемых материалов для AI-движков. В остальной части этого руководства рассматривается, откуда он взялся, как его написать и стоит ли тратить усилия с учетом неравномерного внедрения на сегодняшний день. Спойлер: да, его стоит разместить. Затраты — пять минут, а выгода реальна на платформах Perplexity и Anthropic уже сегодня, плюс опциональность для всех остальных движков в ближайшие 24 месяца.

История — почему было предложено llms.txt

Предложение появилось 3 сентября 2024 года в одном репозитории GitHub и сопровождающей статье в блоге Джереми Ховарда, основателя fast.ai и Answer.AI. В предыдущий год Ховард создавал инструментарий Answer.AI для работы с LLM с длинным контекстом и постоянно сталкивался с одной и той же проблемой: открытый веб структурирован для людей и классических поисковых систем, а не для конвейеров извлечения данных во время инференса, которые используют AI-продукты. Сайты публиковали тысячи страниц, и LLM, пытающаяся обобщить информацию о компании, пробиралась через нерелевантные маршруты — экраны входа, результаты фасетного поиска, архивы со страницами — прежде чем найти фактическую страницу продукта.

Два существующих файла в корне — robots.txt и sitemap.xml — не могли восполнить этот пробел. robots.txt — это бинарный контроль доступа: разрешено или запрещено, без приоритетов. sitemap.xml перечисляет все URL, которые вы хотите проиндексировать, в плоском XML, часто десятки тысяч записей без редакционного сигнала о том, какие из них наиболее важны. Ни один из этих файлов не сообщает AI-системе: «если у вас есть время прочитать только пять страниц, прочитайте эти пять». Этот пробел и заполняет llms.txt.

Другая половина проблемы — это рендеринг JavaScript. Большинство AI-краулеров (GPTBot, ClaudeBot, PerplexityBot в стандартных режимах) не выполняют JavaScript. Они видят необработанный HTML-ответ, который в современных фронтенд-стеках (Vue SPA, React без SSR, Next.js приложения с гидратацией) часто представляет собой почти пустую оболочку с <div id="root"> и больше ничего. llms.txt обходит эту проблему, предоставляя канонический, простой текст Markdown — контент, который краулер может прочитать независимо от фронтенд-стека.

Формулировка Ховарда в исходном предложении была простой. В вебе есть /robots.txt для краулеров, /humans.txt для читателей (нишевая конвенция 2010-х), /security.txt для раскрытия уязвимостей и /.well-known/ для метаданных. /llms.txt аккуратно вписывается в это семейство — курируемый, машиночитаемый манифест, специально предназначенный для новой волны AI-агентов, которые читают сайты иначе, чем браузеры. К концу 2024 года Anthropic внедрил его на anthropic.com/llms.txt; к Q1 2025 года за ним последовали Cloudflare, Vercel, Astro, NuxtLabs и Linear. Внедрение среди компаний, занимающихся инструментарием для разработчиков, с тех пор неуклонно растет.

llms.txt vs robots.txt vs sitemap.xml — когда что использовать

Три файла в корне вашего сайта отвечают на разные вопросы. robots.txt отвечает на вопрос «кто может сканировать что?». sitemap.xml отвечает на вопрос «какие URL существуют?». llms.txt отвечает на вопрос «какие URL наиболее важны для AI?». Они дополняют друг друга — на большинстве сайтов должны быть все три.

Атрибутrobots.txt
НазначениеКонтроль доступа для краулеровПриоритет потребления для AI
ФорматТекстовые директивы / XML-схемаПростой Markdown
АудиторияПоисковые боты / поисковые ботыAI-агенты (ChatGPT, Claude, Perplexity)
Роль в индексацииРазрешить/запретить пути / Список всех URLВыделить наиболее цитируемые URL
ПарсингСтрогий синтаксис / Строгий XMLСвободный Markdown, читаемый человеком
Три корневых файла, три задачи — ни один из них не заменяет два других.

Практическая ментальная модель: если бы у вас было только три файла в корне сайта и неограниченный бюджет на один новый, порядок влияния сегодня таков: сначала robots.txt (без него краулеры могут вообще до вас не добраться или сканировать слишком агрессивно), затем sitemap.xml (он передает полный набор URL в индекс Google) и, наконец, llms.txt (он сигнализирует о приоритете AI-движкам поверх двух других).

Распространенная ошибка — рассматривать llms.txt как замену одного из других файлов. Это не так. Удаление sitemap.xml и добавление llms.txt обрушит вашу индексацию в Google, лишь незначительно помогая цитированию AI. Удаление robots.txt и замена его на llms.txt не даст ничего полезного — разные боты читают разные файлы. Разместите все три, синхронизируйте их и рассматривайте llms.txt как редакционный слой поверх структурных.

Также есть вопрос о том, кто на практике читает какой файл. robots.txt читается практически каждым хорошо ведущим себя краулером. sitemap.xml читается в первую очередь Google, Bing и некоторыми SEO-инструментами. llms.txt сегодня последовательно читается Perplexity, инструментарием Anthropic и длинным хвостом проектов с открытым исходным кодом (конвейеры загрузки LangChain, загрузчики LlamaIndex и т.д.). Этот список растет ежеквартально — бета-версия AI Audit от Cloudflare добавила поддержку llms.txt в начале 2026 года, и несколько небольших AI-поисковых продуктов встраивают парсинг llms.txt в свои конвейеры сканирования.

Спецификация llms.txt — объяснение формата

Формат представляет собой документ Markdown с пятью обязательными и одним опциональным разделом. Он достаточно свободен, чтобы вы могли написать его в текстовом редакторе за пять минут, и достаточно строг, чтобы AI-системы и валидаторы могли его детерминированно распарсить.

Пять обязательных частей:

  1. H1: Название сайта. Ровно один H1 в самом верху, содержащий название вашего сайта или компании. Это якорь сущности.
  2. Цитата: Однострочное резюме. Цитата Markdown (>) сразу после H1 с одним предложением, описывающим сайт. Воспринимайте это как вашу презентацию в лифте — то, что LLM процитирует на вопрос «что делает этот сайт?».
  3. Разделы H2. Логические группировки ссылок: ## Docs, ## Examples, ## API, ## Blog, ## Pricing. Для большинства сайтов используйте 2–6 разделов.
  4. Маркированные ссылки с описаниями. Каждая запись под H2 следует шаблону: - [Текст ссылки](https://полный-url): Описание в одно предложение. Шаблон «двоеточие и описание» — это то, что отличает llms.txt от обычного списка ссылок в Markdown.
  5. Опциональный раздел H2. Раздел ## Optional в конце для низкоприоритетных URL, которые AI может отложить при ограниченном бюджете.

Рабочий пример в формате, который вы можете опубликовать сегодня:

# SiteTest.ai

> AI-инструмент для аудита сайтов — 168 проверок SEO и AI-поиска для видимости в ChatGPT, Perplexity и AI Overviews.

## Docs

- [Как это работает](https://sitetest.ai/how-it-works): Методология 168 проверок по краулингу, схеме и цитируемости AI.
- [Цены](https://sitetest.ai/pricing): Тарифы от бесплатного до $24.99 за аудит, включая варианты для команд и агентств.

## Blog

- [GEO Guide](https://sitetest.ai/blog/generative-engine-optimization-guide): 14 тактик и чек-лист из 15 шагов для Generative Engine Optimization.
- [AI Visibility](https://sitetest.ai/blog/ai-visibility-checker-guide): Восемь метрик и восемь инструментов для отслеживания цитирований AI.

## Optional

- [Changelog](https://sitetest.ai/changelog): Заметки о релизах продукта — полезно для AI-агентов, но не является приоритетом.

Вот и всё. Никакой JSON-схемы, никаких обязательных полей, кроме указанной выше структуры. Весь файл умещается в тред твитов, а валидаторы проверяют наличие H1, цитаты, хотя бы одного раздела H2 и правильно оформленных Markdown-ссылок.

Вариант llms-full.txt — это родственный файл по адресу /llms-full.txt, который использует тот же подход, но идет дальше: он объединяет полный текст ваших наиболее важных страниц в один документ, а не только ссылки. Сайты документации используют его, чтобы предоставить весь корпус документации в виде одного текстового блока, который LLM могут потреблять офлайн. Цена намного выше: типичные файлы llms-full.txt имеют размер от 200 КБ до нескольких мегабайт, и их нужно перегенерировать при каждом изменении контента. Большинству сайтов следует размещать только llms.txt и пропустить llms-full.txt, если у них нет стабильного канонического контента (технические спецификации, публичные API, формальная документация), где единовременный дамп действительно помогает потребителям LLM.

Step-by-Step: How to Create Your llms.txt

После 100+ аудитов я снова и снова вижу одну и ту же закономерность: команды либо создают 30-секундный llms.txt, который отлично справляется с основами, либо раздутый, сломанный файл, который полностью упускает суть. Восьмишаговый рабочий процесс ниже — это то, что мы используем внутри sitetest.ai, когда добавляем llms.txt на сайт клиента.

Шаг 1: Составьте список наиболее цитируемых URL. Выберите 5–30 URL, которые лучше всего представляют ваш сайт. Главная страница, цены, топ-5–10 постов в блоге, индекс документации, ключевые страницы функций. Пропустите тонкие страницы, экраны входа, результаты фасетного поиска и JS-only-решения. Цель — курированная карта, а не исчерпывающая карта сайта. Если у вас более 30 URL-кандидатов, безжалостно расставляйте приоритеты — излишки отправляйте в llms-full.txt или не включайте вовсе.

Шаг 2: Создайте файл с названием сайта в H1. Откройте текстовый редактор (VS Code, Sublime, обычный Блокнот — любой, который сохраняет в UTF-8 plain text) и начните с одного Markdown H1 с названием вашего сайта или компании: # SiteTest.ai. Это единственный H1 в файле. AI-системы используют его как якорь сущности для всего последующего.

Шаг 3: Добавьте однострочное резюме в виде цитаты. Сразу под H1 добавьте Markdown-цитату с одним предложением, описывающим, чем занимается сайт: > AI-powered website audit tool — 168 SEO and AI-search checks for ChatGPT and Perplexity visibility. Напишите это так, как вы бы ответили на вопрос «чем занимается ваша компания?» за ужином — информативно, без маркетинговой шелухи.

Шаг 4: Сгруппируйте URL под разделами H2. Создайте логические разделы H2: ## Docs, ## Blog, ## API, ## Examples, ## Pricing. Необязательный раздел ## Optional в конце — это специальное соглашение: он перечисляет низкоприоритетные URL, которые AI-системы могут отложить при нехватке бюджета. Для большинства сайтов используйте 2–6 разделов.

Шаг 5: Напишите каждую ссылку с описанием. Каждая запись следует точному шаблону: - [Текст ссылки](https://полный-url): Описание того, что находится по этому URL, одним предложением. Часть с двоеточием и описанием — это то, что отличает llms.txt от обычного списка ссылок. Описания должны быть длиной 60–120 символов, информативными, а не маркетинговым текстом. Используйте полный URL (включая https://) — относительные пути неоднозначны для AI-потребителей.

Шаг 6: Держите файл компактным (менее 50 КБ). Большинство файлов llms.txt должны занимать 2–10 КБ в сумме. Все, что больше 50 КБ, — слишком велико: некоторые AI-потребители обрезают или пропускают слишком большие файлы. Если ваш список URL-кандидатов превышает разумный объем, перенесите излишки в llms-full.txt или опустите их. Меньше значит больше — компактный файл из 20 ссылок работает лучше, чем раздутый файл из 200.

Шаг 7: Опубликуйте по адресу /llms.txt с типом контента text/plain. Загрузите файл так, чтобы он был доступен по адресу https://yourdomain.com/llms.txt. Настройте ваш сервер так, чтобы он отдавал его с Content-Type: text/plain, а не text/html. На Nginx это блок location = /llms.txt { default_type text/plain; }. На Vercel установите заголовки в vercel.json. На Cloudflare Pages добавьте файл _headers. Проверьте с помощью curl -I https://yourdomain.com/llms.txt.

Шаг 8: Проверьте и добавьте ссылку из robots.txt. Выполните curl https://yourdomain.com/llms.txt и прочитайте полный вывод. Прогоните его через валидатор llmstxt.org. При желании добавьте строку-подсказку в robots.txt: # llms.txt: https://yourdomain.com/llms.txt — это чисто информационно (не анализируемая директива), но сигнализирует любому, кто читает robots.txt, что вы также поддерживаете llms.txt.

50+ Реальных Примеров llms.txt

Самый быстрый способ понять llms.txt на практике — прочитать, что на самом деле публикуют компании, занимающиеся инструментами для разработчиков и AI. Ниже приведены десять примеров по пяти категориям — каждая ссылка ведет на живой /llms.txt, который вы можете прямо сейчас curl и изучить. Мы сделали список курированным, а не исчерпывающим: формат настолько прост, что 50 примеров показывают те же закономерности, что и десять.

Инструменты для разработчиков

  • Anthropic: Ориентированный на документацию llms.txt, охватывающий ссылки на API, карточки моделей и руководства по промпт-инжинирингу. Примечателен своим компактным разделом Optional.
  • Cloudflare: Огромная поверхность продукта (Workers, R2, D1, Pages, Stream), разбитая на четкие разделы H2 — хрестоматийный пример организации многопродуктовой компании.

SaaS-платформы

  • Linear: Минималистичный и ориентированный на маркетинг продукта — главная, цены, клиенты, список изменений. Умещается в менее 2 КБ.
  • Vercel: Документация плюс страницы продуктов, с сильным резюме в виде цитаты, которое читается как односложная презентация.

Сайты документации

  • Cursor: Документация IDE с глубоким техническим контентом — использует разделы ## Reference, ## Guides и ## API.
  • SvelteKit: Документация фреймворка с открытым исходным кодом, разбитая на разделы Tutorial, Reference и Migration — чистая редакционная структура.

AI-продукты

  • Perplexity: Документация API для компании, занимающейся AI-поиском — уместно, что движок, который больше всего уважает llms.txt, также публикует чистый файл.
  • Anthropic Claude: Уже упоминалось выше — стоит перечитать специально, чтобы увидеть, как он обрабатывает версионирование моделей по множеству URL документации.

Фреймворки с открытым исходным кодом

  • Astro: Документация фреймворка для статических сайтов — много интеграций, рецептов и руководств, с хорошими описаниями на каждой ссылке.
  • NuxtLabs: Фреймворк на Vue с многопродуктовой поверхностью (Nuxt, NuxtHub, Nuxt UI) — хорошая модель для организации связанных продуктов в одном llms.txt.

Закономерность, заслуживающая внимания: компании, занимающиеся SEO и поисковыми инструментами, заметно отсутствуют в этом списке. Ahrefs, Semrush, Moz, BrightEdge — ни одна из них не публикует llms.txt по состоянию на май 2026 года. Область, которая должна быть наиболее восприимчива к AI-поиску, медленнее всего внедряет AI-поисковый файл, отчасти потому, что их краулеры конкурируют с AI-краулерами, и отчасти потому, что их внутренние SEO-команды скептически относятся к неофициальным стандартам. Компании, занимающиеся инструментами для разработчиков и AI-инфраструктурой, двинулись первыми; маркетинговые инструменты последуют, когда внедрение станет обязательным условием.

1,200+
веб-сайтов, по оценкам, публикуют llms.txt по состоянию на май 2026 года, на основе публичных сканов Common Crawl и реестра сообщества llmstxt.org. Внедрение сильно смещено в сторону инструментов для разработчиков, AI-инфраструктуры и сайтов документации с открытым исходным кодом.
Source: Оценка на основе Common Crawl + списков сообщества llmstxt.org

Для постоянно обновляемого публичного реестра примеров llms.txt смотрите наш каталог примеров llms.txt (заполнитель — мы опубликуем реестр сообщества на github.com/seoport/llms-txt-examples в третьем квартале 2026 года). А пока десять примеров выше плюс быстрый curl к домену любой компании, занимающейся инструментами для разработчиков, покажут вам 80% шаблонов, необходимых для создания собственного файла.

Распространенные Ошибки в llms.txt

Шесть ошибок встречаются примерно в 70% сломанных файлов llms.txt, которые мы проверяем. Каждая из них исправляется за 5 минут, и каждая по отдельности может стать решающим фактором между файлом, который AI-системы используют, и файлом, который они молча пропускают.

Ошибка 1: Неправильное расположение файла. Файл должен находиться ровно по адресу /llms.txt в корне вашего домена — не /docs/llms.txt, не /.well-known/llms.txt, не /llms.html. AI-потребители запрашивают канонический путь; все остальное невидимо. Если ваша CMS или генератор статических сайтов по умолчанию направляет файл не в корневой путь, явно переопределите это.

Ошибка 2: Неправильный тип контента. HTTP-ответ должен включать Content-Type: text/plain. Многие серверы по умолчанию устанавливают text/html для любого файла с расширением .txt, если MIME-тип не настроен явно. Хуже того, некоторые CMS перехватывают маршрут и отдают HTML-страницу 404 со статусом 200. Всегда проверяйте с помощью curl -I https://yourdomain.com/llms.txt и подтверждайте как код состояния, так и заголовок content-type.

Ошибка 3: Пустое или отсутствующее описание (цитата после H1). Удивительное количество файлов пропускают однострочное резюме в виде цитаты сразу после H1. Без него у AI-систем нет контекста сущности высокого уровня — они вынуждены определять назначение вашего сайта из списка ссылок, что зашумлено. Всегда включайте цитату, всегда делайте ее законченным предложением, всегда делайте ее информативной, а не рекламной.

Ошибка 4: Ссылки на JS-рендеренные страницы, которые AI не может обработать. llms.txt указывает на URL, которые AI должен прочитать. Если эти URL отдают пустую оболочку JS-only SPA (Vue, React без SSR, гидратационный Next.js), AI запрашивает URL, получает пустой <div> и делает вывод, что там ничего нет. Либо исправьте SSR на связанных страницах, либо ссылайтесь только на страницы, которые отображают контент в сыром HTML.

Ошибка 5: Включение платных URL или URL, требующих авторизации. Ссылка на платную статью или панель управления для зарегистрированных пользователей тратит краулинговый бюджет AI и сигнализирует о небрежности. AI-системы запоминают, что связанный URL был недоступен, и могут дисконтировать ваш llms.txt в целом. Курируйте жестко — перечисляйте только те URL, которые анонимный запрос может полностью прочитать.

Ошибка 6: Забыли обновить после изменения контента. llms.txt является редакционным, а значит, устаревает. Файл, в котором указана страница с ценами 2023 года, сегодня отдающая 404, или устаревшая страница продукта, перенаправляющая куда-то еще, сигнализирует, что файл не поддерживается. Запланируйте ежеквартальный пересмотр, привязанный к вашему графику обновления контента — тот же пересмотр, который обновляет dateModified и обновляет хаб-страницы, должен обновлять и llms.txt.

Валидация Вашего llms.txt

Валидация состоит из трех уровней — ручная, онлайн и автоматизированная — и они охватывают несколько разные аспекты. Выполните все три, прежде чем считать ваш llms.txt запущенным.

Ручная проверка. 30-секундный smoke-тест: curl -I https://yourdomain.com/llms.txt и убедитесь, что вы видите статус 200 и Content-Type: text/plain в заголовках. Затем curl https://yourdomain.com/llms.txt и прочитайте полный вывод. Ваши глаза сразу заметят отсутствующие H1, сломанный Markdown или случайное HTML-обертывание. Около 80% сломанных файлов обнаруживаются на этом этапе.

Онлайн-валидаторы. Эталонный валидатор на llmstxt.org/validator (заполнитель — официальный URL валидатора может измениться; проверьте репозиторий спецификации для текущей канонической ссылки) проверяет структурное соответствие: наличие H1, цитаты, корректные разделы H2, правильность оформления Markdown-ссылок и работоспособность ссылок (HEAD-запросы к каждому URL). Он выявляет проблемы, которые не заметит чтение через curl — например, опечатку в URL, возвращающую 404, или строку описания с встроенными переводами строк.

Другой инструмент, который стоит запустить, — это sitetest.ai — наш собственный аудит включает валидацию llms.txt в свой набор из 168 проверок, а также более широкую оценку AI-цитируемости, которая показывает, являются ли перечисленные вами URL вообще цитируемыми (хорошая схема, быстрая загрузка, цитируемые отрывки и т.д.). Корректный llms.txt, ссылающийся на медленные JS-рендеренные страницы, — это упущенная возможность; sitetest.ai выявляет оба слоя.

Распространенные ошибки, которые выявляют валидаторы. Пустой файл (файл существует, но имеет нулевой размер — бывает при плохой загрузке через CMS). Неправильная кодировка (UTF-16 или Windows-1252 вместо UTF-8 — текстовые редакторы на Windows до сих пор ошибаются в этом). Отсутствующая цитата (пропущено однострочное резюме). Битые ссылки (URL, указанный в llms.txt, возвращает 404 или 5xx). Неправильный тип контента (сервер отдает как text/html). HTML-обертывание (CMS автоматически обернула файл в HTML-шаблон). Каждая из этих проблем исправляется за 1 минуту после обнаружения — но каждая из них молча нейтрализует ваш файл, если вы запустите его без проверки.

Станет ли llms.txt стандартом?

Честный ответ на май 2026 года: скорее да, чем нет, но пока не окончательно. Сигналы с обеих сторон реальны.

Сигналы принятия в пользу стандартизации. Anthropic, Cloudflare, Vercel, Linear, Astro, NuxtLabs, Cursor, SvelteKit и Perplexity публикуют и соблюдают llms.txt. Кластеры инструментов для разработчиков и AI-инфраструктуры фактически уже сделали первый шаг — это те же компании, которые в свое время стимулировали раннее внедрение robots.txt и структурированных данных. Тот факт, что Cloudflare включила поддержку llms.txt в свою бета-версию AI Audit в начале 2026 года, стал значимым шагом на платформенном уровне; влияние Cloudflare означает, что любой поддерживаемый ими формат файлов получает инфраструктурное распространение.

Статус стандартизации. Официально — никакого. По состоянию на май 2026 года нет черновиков W3C, IETF или WHATWG. Спецификация существует как README на GitHub, поддерживаемый Джереми Ховардом и контрибьюторами на llmstxt.org. Это не является чем-то необычным: сам robots.txt был де-факто стандартом в течение 25 лет, прежде чем стал RFC 9309 в 2022 году. Полезные конвенции обычно предшествуют формальным спецификациям. Отсутствие трека W3C сегодня не является доказательством того, что стандарт провалится.

Поддержка AI-движков неравномерна. Perplexity соблюдает llms.txt в режимах просмотра и исследования — это самая чистая поддержка среди крупных AI-поисковиков. Инструментарий Claude от Anthropic парсит его и использует для собственных продуктовых поверхностей. Поведение ChatGPT непоследовательно: GPTBot иногда проверяет /llms.txt в нашем анализе логов краулинга, но OpenAI не взял на себя обязательств использовать его как формальный сигнал. Google игнорирует его в Поиске и AI Overviews — у Google есть собственная экосистема структурированных данных (JSON-LD, Knowledge Graph, sameAs), и он не проявляет публичного интереса к внедрению еще одного формата файлов. Bing Copilot находится посередине — Microsoft не исключил его, но и не поддержал.

Прогноз на 12–24 месяца. Два сценария. Оптимистичный путь: ChatGPT или Gemini публично обязуются соблюдать llms.txt в течение 12–18 месяцев (вероятно, под конкурентным давлением Perplexity), после чего он станет де-факто стандартом для AI-поиска, как robots.txt для классического поиска. Пессимистичный путь: крупные движки так и не возьмут на себя обязательств, llms.txt останется конвенцией разработчиков, принятой Perplexity и длинным хвостом проектов с открытым исходным кодом, но никогда не будет принят гигантами, и уйдет в тень, как /humans.txt. Даже в пессимистичном случае стоимость внедрения сегодня (5 минут) настолько низка, что ожидаемая ценность ставки положительна — ранние последователи почти ничего не теряют и получают реальную опциональность.

Помимо llms.txt: Другие сигналы цитируемости для AI

llms.txt — один из многих сигналов. Даже с идеальным файлом AI-движки по-прежнему ранжируют цитаты на основе более широких факторов цитируемости. Наиболее важны три семейства сигналов.

Разметка Schema. FAQPage, HowTo, Article (с автором и издателем), Organization (с sameAs) и BreadcrumbList JSON-LD — это типы разметки с наибольшим рычагом воздействия для AI-цитирования. SpeakableSpecification (cssSelector, указывающий на блоки #tldr и #definition) сообщает голосовым и аудио AI, какие блоки предназначены для чтения вслух. AI-движки парсят JSON-LD как сигнал высокого доверия, потому что он машиночитаем и однозначен — сайты с правильной схемой цитируются в 2–3 раза чаще, чем сайты без нее.

Сигналы EEAT. Опыт, Экспертность, Авторитетность и Доверие — четырехбуквенная структура, которую Google формализовал в конце 2022 года, напрямую влияет на ранжирование в AI. AI-движки предпочтительно цитируют источники с указанными авторами, видимыми полномочиями, встроенными ссылками на первоисточники, оригинальными данными и узнаваемостью бренда на доверенных AI доменах (Wikipedia, Reddit, GitHub, Hacker News, крупные отраслевые издания). Анонимный контент без биографии автора и встроенных ссылок отфильтровывается из пула кандидатов на цитирование.

Структурированные заголовки и фактическая плотность. Четкая иерархия H1 → H2 → H3 позволяет конвейерам извлечения правильно разбивать вашу страницу на фрагменты. Страницы с одним огромным H1 и стенами текста без подзаголовков разбиваются плохо и цитируются редко. Внутри каждого фрагмента важна фактическая плотность — 4–6 именованных сущностей (люди, даты, продукты, числа, места) на 100 слов оцениваются выше, чем расплывчатая проза. LLM используют количество именованных сущностей как быстрый прокси для оценки «этот отрывок информативен».

Полное руководство по GEO со всеми 14 тактиками — белые списки robots.txt, llms.txt, схема, скорость страницы, цитируемые отрывки, авторитет бренда — смотрите в нашем руководстве по GEO. О 18 факторах ранжирования, которые AI-поисковики взвешивают при формировании ответов, читайте в AI Search Engine Optimization. О более раннем фундаментальном описании — что считается AI SEO аудитом и чем он отличается от классических аудитов — смотрите What Is an AI SEO Audit. llms.txt — это шлюзовый файл; эти руководства охватывают остальную поверхность.

Frequently Asked Questions

Что такое llms.txt?
llms.txt — это текстовый Markdown-файл в корне веб-сайта (например, example.com/llms.txt), который перечисляет URL-адреса и разделы контента, наиболее полезные для AI-систем, таких как ChatGPT, Claude и Perplexity. Он использует простую структуру Markdown — H1 с названием сайта, цитату-резюме, разделы H2 и маркированные ссылки с описанием в одно предложение — чтобы LLM могли быстро понять структуру сайта без парсинга страниц с тяжелым JavaScript. Он был предложен Джереми Ховардом из Answer.AI в сентябре 2024 года и теперь используется Anthropic, Cloudflare, Vercel, Astro и растущим списком компаний, производящих инструменты для разработчиков.
Куда поместить llms.txt на моем сайте?
Он должен находиться в корне вашего домена — строго /llms.txt, а не /docs/llms.txt или /llms.html. Полный URL должен быть https://yourdomain.com/llms.txt и возвращать статус 200 с content-type text/plain. Любой другой путь или тип контента приведет к тому, что AI-системы и валидаторы пропустят файл. Если вы также публикуете llms-full.txt, он находится по адресу /llms-full.txt на том же уровне. Проверьте с помощью curl -I https://yourdomain.com/llms.txt — убедитесь как в статусе 200, так и в заголовке content-type text/plain.
Использует ли Google llms.txt?
Нет, по состоянию на май 2026 года. Google не объявлял о поддержке llms.txt в Поиске, Gemini или AI Overviews. AI-поверхности Google по-прежнему полагаются на Googlebot, Google-Extended и стандартный веб-краулинг, а также на структурированные данные, уже встроенные на страницу (JSON-LD, микроразметка). Публикация llms.txt не вредит рейтингу в Google, но и не помогает ему напрямую. Для цитирования в Google AI Overviews сосредоточьтесь на разметке Schema, скорости страницы и сигналах EEAT — полное руководство смотрите в нашем руководстве по GEO по адресу /blog/generative-engine-optimization-guide.
Уважает ли ChatGPT llms.txt?
Непоследовательно. OpenAI не взял на себя обязательств поддерживать llms.txt как формальный сигнал — GPTBot и OAI-SearchBot по-прежнему в первую очередь полагаются на robots.txt, sitemap.xml и саму страницу. Тем не менее, в нашем анализе логов краулинга на sitetest.ai мы видим, что ChatGPT-User загружает /llms.txt в небольшой доле сессий, что позволяет предположить, что файл как минимум проверяется. Относитесь к этому как к бесплатному сигналу, который стоит пять минут на внедрение, а не как к жесткому фактору ранжирования. Платформы, которые явно используют его сегодня, — это Perplexity (в режиме просмотра) и инструментарий Anthropic.
Одно ли и то же llms.txt и robots.txt?
Нет. robots.txt сообщает краулерам, к каким путям они могут получить доступ — он контролирует поведение. llms.txt сообщает AI-системам, какой контент наиболее полезен для них — он определяет приоритеты. robots.txt — это 30-летний стандарт, примыкающий к IETF, поддерживаемый практически каждым краулером. llms.txt — это предложение 2024 года, поддерживаемое небольшим, но растущим списком компаний, производящих AI-инструменты. Они служат разным целям и должны существовать на большинстве сайтов: robots.txt для правил доступа, llms.txt для курирования контента.
Как создать llms.txt?
Восемь шагов. (1) Создайте текстовый файл в корне вашего сайта. (2) Начните с H1 и названия вашего сайта. (3) Добавьте однострочное резюме в виде цитаты. (4) Сгруппируйте ключевые URL-адреса под разделами H2, такими как Docs, Examples, API. (5) Каждая ссылка должна быть Markdown-ссылкой плюс двоеточие плюс описание в одно предложение. (6) Общий объем не должен превышать 50 КБ. (7) Отдавайте как text/plain с HTTP 200. (8) Проверьте с помощью curl и ручного чтения. Мы подробно разбираем каждый шаг с примерами в разделе 5 этого руководства.
Что такое llms-full.txt?
llms-full.txt — это родственный файл по адресу /llms-full.txt, который содержит полный текст ваших наиболее важных страниц, объединенный в один документ, а не просто ссылки. Идея в том, чтобы предоставить офлайн LLM и конвейерам обработки полный корпус, на котором они могут обучаться или дообучаться без сканирования живого сайта. Он больше (часто от 200 КБ до нескольких МБ), дороже в поддержке и полезен только для сайтов со стабильным каноническим контентом, таким как документация, публичные API или технические спецификации. Большинству маркетинговых сайтов следует публиковать только llms.txt — llms-full.txt является избыточным.
Должен ли llms.txt быть на небольших сайтах?
Да. Файл — это инвестиция на 5 минут, которая ничего не стоит с точки зрения производительности, хостинга или дизайна. Даже сайт из 10 страниц выигрывает от курированного llms.txt, потому что он сообщает AI-движкам, какие 5–7 URL-адресов наиболее репрезентативны — ваша домашняя страница, страница с ценами, лучшие записи в блоге и контактная страница. Если у вас есть контент, который вообще заслуживает цитирования, у вас есть контент, который стоит перечислить в llms.txt. Исключение составляют чисто транзакционные сайты (чистые потоки оформления заказа в электронной коммерции), где нет информационного контента для цитирования.
Могу ли я заблокировать AI-краулеров с помощью llms.txt?
Нет — для этого существует robots.txt. llms.txt является чисто аддитивным: он перечисляет то, что вы хотите, чтобы AI-системы читали. Чтобы заблокировать AI-краулеров, используйте robots.txt с явными правилами Disallow для GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot и Google-Extended. Путаница между ними — одна из шести распространенных ошибок, описанных в разделе 7. Мы рекомендуем почти никому не блокировать AI-краулеров — смотрите наше руководство по GEO по адресу /blog/generative-engine-optimization-guide, чтобы узнать, почему блокировка не рекомендуется.
Помогает ли llms.txt SEO?
Нет, для классического ранжирования в Google. llms.txt не влияет на SEO синих ссылок — Google не анализирует его как сигнал ранжирования. Он может косвенно помочь видимости в AI-поиске на платформах, которые его соблюдают (Perplexity, инструменты Anthropic, некоторые проекты LLM с открытым исходным кодом). Реалистичная формулировка: публикация llms.txt — это дешевая страховка на следующие 12–24 месяца, пока стандарт либо набирает обороты, либо сходит на нет. Для получения выгоды в ранжировании сегодня отдайте приоритет схеме, скорости страницы и цитируемым отрывкам — это описано в нашем руководстве по AI Search Engine Optimization по адресу /blog/ai-search-engine-optimization.
В чем разница между llms.txt и sitemap.xml?
sitemap.xml перечисляет каждый URL-адрес, который вы хотите индексировать, в машиночитаемом XML, для классических поисковых краулеров. llms.txt перечисляет только ваши наиболее полезные URL-адреса, в удобочитаемом для человека и AI Markdown, для LLM. Sitemap является исчерпывающим и структурным; llms.txt является курированным и редакционным. Sitemap может содержать 100 000 URL-адресов; llms.txt редко должен превышать 100. Оба файла взаимодополняемы — сохраните свою sitemap для Google, опубликуйте llms.txt для AI-движков. Мы сравниваем оба с robots.txt в разделе 3.
Как часто нужно обновлять llms.txt?
Всякий раз, когда структура вашего сайта или канонический контент существенно меняются. Для большинства маркетинговых сайтов это раз в квартал, синхронизировано с графиком обновления контента. Для сайтов документации с частыми релизами обновляйте llms.txt при каждом крупном обновлении версии (добавляйте ссылки на новые разделы документации, удаляйте устаревшие). Файл всегда должен отражать то, что в данный момент наиболее цитируемо на вашем сайте — устаревший llms.txt с битыми ссылками сигнализирует AI-движкам о запущенности и снижает доверие.
Существуют ли валидаторы llms.txt?
Да, несколько. Эталонный валидатор на llmstxt.org (предложенный авторами спецификации) проверяет синтаксис, работоспособность ссылок и рекомендуемую структуру. Sitetest.ai включает валидацию llms.txt в свой аудит из 168 проверок и отмечает отсутствующие файлы, неправильный content-type, битые ссылки и пустые описания. Недавняя бета-версия AI Audit от Cloudflare также проверяет наличие llms.txt в рамках своей панели управления ботами. Для быстрой ручной проверки: curl -I https://yourdomain.com/llms.txt и убедитесь в статусе 200 и text/plain.
Каково будущее llms.txt?
Два сценария. Оптимистичный путь: к концу 2026 или началу 2027 года ChatGPT, Gemini и Bing Copilot добавят явную поддержку, и llms.txt станет де-факто стандартом, как robots.txt. Пессимистичный путь: крупные AI-движки так и не возьмут на себя обязательств, файл останется полезным только на Perplexity и горстке инструментальных платформ и превратится в конвенцию разработчиков, а не в стандарт. В любом случае, стоимость публикации сегодня настолько низка (5 минут), что ожидаемая ценность положительна, даже если внедрение застопорится. Ранние последователи ничего не теряют и получают опциональность.

Заключение + CTA

llms.txt — самый дешевый эксперимент в области видимости в AI-поиске, который вы проведете в этом году. Пять минут редактирования, кураторский список из 10–30 URL, заголовок Content-Type: text/plain — и готово. Минусов нет — файл не вредит SEO, не замедляет сайт, ничего не ломает. Плюс реален уже сегодня на платформах Perplexity и Anthropic и с высокой вероятностью появится на ChatGPT и Gemini в ближайшие 12–18 месяцев по мере роста давления на внедрение.

Глубинная суть: llms.txt — один из трех-четырех файлов для AI-поиска, которых не существовало в 2023 году и которые станут обязательным стандартом к 2027 году. Сайты, внедряющие их раньше — вместе с работой над схемами, скоростью страниц и цитируемыми фрагментами, описанной в нашем руководстве по GEO, — накапливают преимущество в AI-видимости квартал за кварталом. Сайты, которые ждут формализации стандарта, окажутся на шесть-двенадцать месяцев позади, когда их конкуренты уже будут стабильно цитироваться во всех основных AI-движках. Относитесь к llms.txt как к бесплатному опциону на будущее AI-поиска. Купите опцион, держите его и пересмотрите остальные элементы вашего стека AI-видимости.

Чтобы проверить ваш текущий llms.txt — или сгенерировать его для вашего сайта, если его еще нет, — запустите бесплатное сканирование на sitetest.ai. Аудит проверяет наличие llms.txt, формат, работоспособность ссылок и content-type, а также более широкий набор из 168 факторов AI-цитируемости, определяющих, будут ли перечисленные вами URL действительно цитироваться. Шестьдесят секунд, без регистрации, результат в удобном для разработчиков формате.

Методология

Это руководство основано на оригинальном предложении llms.txt, опубликованном Джереми Ховардом из Answer.AI в сентябре 2024 года, спецификации, поддерживаемой на llmstxt.org, публичных сканах Common Crawl файлов /llms.txt в открытом вебе, а также внутренних данных аудита sitetest.ai по набору из 168 проверок, проводимых на тысячах сайтов ежемесячно. Оценки внедрения являются приблизительными — не существует центрального реестра сайтов, публикующих llms.txt, поэтому цифра «более 1200» получена на основе Common Crawl и списков, поддерживаемых сообществом, и должна рассматриваться как индикатор направления, а не точное значение. Уровень поддержки AI-движками (Perplexity — да, Anthropic — да, ChatGPT — непоследовательно, Google — нет) отражает публичные заявления и наш собственный анализ логов сканирования по состоянию на май 2026 года и может измениться по мере развития стандарта. Мы обновляем это руководство ежеквартально — следующее плановое обновление запланировано на август 2026 года, и dateModified отражает последнюю редакцию.

Related reading