Was ist llms.txt? (Definition + Kurzfassung)

Wenn Sie sich schon länger mit KI-Suche beschäftigen, ist Ihnen die Lücke sicherlich aufgefallen. KI-Engines crawlen Ihre Website, aber sie wissen oft nicht, was darauf wirklich lesenswert ist. Sie verschwenden Budget auf Login-Seiten, Archiv-Pfade und JS-gerenderte Hüllen. Sie übersehen die eine Preisseite oder den einen erklärenden Beitrag, den Sie gerne zitiert sähen. llms.txt ist der Vorschlag, dies zu beheben – eine Datei, die in fünf Minuten erstellt ist und sich im Domain-Root befindet. Sie teilt LLMs mit, welche URLs am wichtigsten sind.

Das Format ist bewusst minimal: ein Markdown-Dokument mit einem H1-Websitenamen, einer einzeiligen Blockquote-Zusammenfassung, H2-Abschnitten, die verwandte Inhalte gruppieren (Dokumentation, Blog, API, Beispiele), und Aufzählungslinks mit Beschreibungen. Kein XML, kein JSON, keine Schemata, die gegen ein Register validiert werden müssen. Nur Markdown, das jeder Mensch lesen und jedes LLM ohne Tokenizer-Gerangel parsen kann. Die gesamte Datei wiegt normalerweise 2–10 KB.

Sie reiht sich als dritte Datei im Site-Root neben robots.txt und sitemap.xml ein, um die sich Crawler kümmern – jedoch mit einem anderen Zweck. robots.txt gewährt oder verweigert Zugriff. sitemap.xml listet erschöpfend URLs für die Indexierung auf. llms.txt kuratiert die zitierfähige Shortlist für KI-Engines. Der Rest dieses Leitfadens behandelt, woher sie kommt, wie man eine schreibt und ob sich der Aufwand bei der derzeit inkonsistenten Akzeptanz lohnt. Spoiler: Ja, es lohnt sich, sie auszuliefern. Der Aufwand beträgt fünf Minuten, und der Nutzen ist heute auf Perplexity- und Anthropic-Plattformen real, plus Optionalität für jede andere Engine in den nächsten 24 Monaten.

Die Geschichte – Warum llms.txt vorgeschlagen wurde

Der Vorschlag wurde am 3. September 2024 in einem einzelnen GitHub-Repository und einem begleitenden Blogbeitrag von Jeremy Howard, Gründer von fast.ai und Answer.AI, veröffentlicht. Howard hatte das Jahr zuvor damit verbracht, die Forschungstools von Answer.AI rund um LLMs mit langem Kontext zu entwickeln, und stieß immer wieder auf dieselbe Hürde: Das offene Web ist für Menschen und klassische Suchmaschinen strukturiert, nicht für die Inferenz-Zeit-Retrieval-Pipelines, die KI-Produkte verwenden. Websites veröffentlichen Tausende von Seiten, und ein LLM, das versucht, das Unternehmen zusammenzufassen, durchkämmt irrelevante Routen – Login-Bildschirme, facettierte Suchergebnisse, paginierte Archive – bevor es die eigentliche Produktseite findet.

Die beiden bestehenden Dateien im Root – robots.txt und sitemap.xml – konnten diese Lücke nicht schließen. robots.txt ist eine binäre Zugriffskontrolle: erlaubt oder verboten, keine Prioritätsgewichtung. sitemap.xml listet jede URL, die Sie indexieren möchten, in flachem XML auf, oft Zehntausende von Einträgen ohne redaktionelles Signal, welche am wichtigsten sind. Keine der Dateien sagt einem KI-System: "Wenn du nur Zeit hast, fünf Seiten zu lesen, lies diese fünf." Diese Lücke füllt llms.txt.

Die andere Hälfte des Problems ist das JavaScript-Rendering. Die meisten KI-Crawler (GPTBot, ClaudeBot, PerplexityBot in ihren Standardmodi) führen kein JavaScript aus. Sie sehen die rohe HTML-Antwort, die bei modernen Frontend-Stacks (Vue SPAs, React ohne SSR, Hydration-Only-Next.js-Apps) oft eine fast leere Hülle mit einem <div id="root"> und sonst nichts ist. llms.txt umgeht dies, indem es kanonisches, reines Text-Markdown ausliefert – Inhalte, die der Crawler unabhängig vom Frontend-Stack tatsächlich lesen kann.

Howards Rahmung im ursprünglichen Vorschlag war einfach. Das Web hat /robots.txt für Crawler, /humans.txt für Leser (eine Nischenkonvention aus den 2010ern), /security.txt für die Offenlegung von Schwachstellen und /.well-known/ für Metadaten. /llms.txt fügt sich sauber in diese Familie ein – ein kuratiertes, maschinenlesbares Manifest speziell für die neue Welle von KI-Agenten, die Websites anders lesen als Browser. Ende 2024 hatte Anthropic es auf anthropic.com/llms.txt übernommen; bis Q1 2025 folgten Cloudflare, Vercel, Astro, NuxtLabs und Linear. Die Übernahme unter Dev-Tooling-Unternehmen ist seitdem stetig vorangeschritten.

llms.txt vs. robots.txt vs. sitemap.xml – Wann man was verwendet

Die drei Dateien im Site-Root beantworten jeweils eine andere Frage. robots.txt beantwortet "Wer darf was crawlen?" sitemap.xml beantwortet "Welche URLs existieren?" llms.txt beantwortet "Welche URLs sind für KI am wichtigsten?" Sie ergänzen sich – die meisten Websites sollten alle drei haben.

Attributrobots.txt
ZweckZugriffskontrolle für CrawlerKuratierte KI-Aufnahmepriorität
FormatReine Textdirektiven / XML-SchemaReines Markdown
ZielgruppeSuch-Bots / Such-BotsKI-Agenten (ChatGPT, Claude, Perplexity)
IndexierungsrollePfade erlauben/verbieten / Alle URLs auflistenZitierfähigste URLs hervorheben
ParsingStrenge Syntax / Strenges XMLLockeres Markdown, menschenlesbar
Drei Root-Dateien, drei Aufgaben – keine ersetzt die anderen beiden.

Das praktische Gedankenmodell: Wenn Sie nur drei Dateien im Site-Root hätten und unbegrenztes Budget für eine neue, wäre die Reihenfolge der Wirkung heute: robots.txt zuerst (ohne sie erreichen Crawler Sie vielleicht gar nicht oder crawlen zu aggressiv), sitemap.xml als zweites (bringt Ihren vollständigen URL-Satz in Googles Index) und llms.txt als drittes (signalisiert Priorität an KI-Engines zusätzlich zu den anderen beiden).

Ein häufiger Fehler ist, llms.txt als Ersatz für eine der anderen zu behandeln. Das ist sie nicht. Das Entfernen Ihrer sitemap.xml und das Hinzufügen von llms.txt würde Ihre Google-Indexierung ruinieren, während es die KI-Zitation nur marginal verbessert. Das Entfernen von robots.txt und das Ersetzen durch llms.txt bringt nichts Nützliches – verschiedene Bots lesen verschiedene Dateien. Liefern Sie alle drei aus, halten Sie sie synchron und behandeln Sie llms.txt als die redaktionelle Ebene über den strukturellen.

Es stellt sich auch die Frage, wer welche Datei in der Praxis liest. robots.txt wird von praktisch jedem wohlerzogenen Crawler gelesen. sitemap.xml wird hauptsächlich von Google, Bing und einer Handvoll SEO-Tools gelesen. llms.txt wird heute konsistent von Perplexity, den Tools von Anthropic und einem langen Schwanz von Open-Source-LLM-Projekten (LangChain-Ingestion-Pipelines, LlamaIndex-Loader usw.) gelesen. Die Liste wächst vierteljährlich – Cloudflares AI Audit Beta hat Anfang 2026 llms.txt-Unterstützung hinzugefügt, und mehrere kleinere KI-Suchprodukte bündeln llms.txt-Parsing in ihren Crawl-Pipelines.

Die llms.txt-Spezifikation – Format erklärt

Das Format ist ein Markdown-Dokument mit fünf erforderlichen und einem optionalen Abschnitt. Es ist locker genug, dass Sie es in fünf Minuten in einem Texteditor handschreiben können, und streng genug, dass KI-Systeme und Validierer es deterministisch parsen können.

Die fünf erforderlichen Teile:

  1. H1: Websitename. Genau ein H1 ganz oben, der Ihren Site- oder Firmennamen enthält. Dies ist der Entitätsanker.
  2. Blockquote: Einzeilige Zusammenfassung. Ein Markdown-Blockquote (>) unmittelbar nach dem H1 mit einem einzigen Satz, der die Site beschreibt. Behandeln Sie es als Ihren Elevator Pitch – was ein LLM zitieren wird, wenn es gefragt wird "Was macht diese Seite?"
  3. H2-Abschnitte. Logische Gruppierungen von Links: ## Docs, ## Beispiele, ## API, ## Blog, ## Preise. Verwenden Sie für die meisten Sites 2–6 Abschnitte.
  4. Aufzählungslinks mit Beschreibungen. Jeder Eintrag unter einem H2 folgt diesem Muster: - [Linktext](https://vollstaendige-url): Ein-Satz-Beschreibung. Das Muster mit Doppelpunkt und Beschreibung unterscheidet llms.txt von einer generischen Markdown-Liste.
  5. Optionaler H2-Abschnitt. Ein ## Optional-Abschnitt am Ende für URLs mit niedriger Priorität, die die KI bei knappem Budget herabstufen kann.

Ein ausgearbeitetes Beispiel im Format, das Sie heute veröffentlichen würden:

# SiteTest.ai

> KI-gestütztes Website-Audit-Tool – 168 SEO- und KI-Suche-Checks für Sichtbarkeit bei ChatGPT, Perplexity und AI Overviews.

## Docs

- [So funktioniert es](https://sitetest.ai/how-it-works): Methodik hinter den 168 Checks zu Crawlbarkeit, Schema und KI-Zitierfähigkeit.
- [Preise](https://sitetest.ai/pricing): Pläne von einer kostenlosen Stufe bis zu 24,99 $ pro Audit, plus Team- und Agenturoptionen.

## Blog

- [GEO-Leitfaden](https://sitetest.ai/blog/generative-engine-optimization-guide): Die 14 Taktiken und die 15-Schritte-Checkliste für Generative Engine Optimization.
- [KI-Sichtbarkeit](https://sitetest.ai/blog/ai-visibility-checker-guide): Acht Metriken und acht Tools zur Verfolgung von KI-Zitaten.

## Optional

- [Changelog](https://sitetest.ai/changelog): Produktversionshinweise – nützlich für KI-Agenten, aber keine hohe Priorität.

Das war's. Kein JSON-Schema, keine erforderlichen Felder über die obige Struktur hinaus. Die gesamte Datei passt in die Länge eines Tweet-Threads, und Validierer prüfen auf das H1, das Blockquote, mindestens einen H2-Abschnitt und wohlgeformte Markdown-Links.

Die llms-full.txt-Variante ist eine Schwesterdatei unter /llms-full.txt, die denselben Ansatz verfolgt, aber weiter geht – sie verkettet den vollständigen Textinhalt Ihrer wichtigsten Seiten in einem einzigen Dokument, nicht nur Links. Dokumentationsseiten nutzen sie, um ihr gesamtes Docs-Korpus als einen einzigen Textblock bereitzustellen, den LLMs offline aufnehmen können. Der Preis ist viel höher: Typische llms-full.txt-Dateien sind 200 KB bis mehrere Megabyte groß und müssen bei jeder Inhaltsänderung neu generiert werden. Die meisten Sites sollten nur llms.txt ausliefern und llms-full.txt überspringen, es sei denn, sie haben stabile kanonische Inhalte (technische Spezifikationen, öffentliche APIs, formale Dokumentation), bei denen ein einmaliger Dump nachgelagerten LLM-Konsumenten wirklich hilft.

Schritt-für-Schritt: So erstellst du deine llms.txt

Nach über 100 Audits habe ich immer wieder dasselbe Muster gesehen: Teams liefern entweder eine 30-Sekunden-llms.txt, die die Grundlagen perfekt abdeckt, oder eine ausufernde, fehlerhafte Datei, die das Ziel völlig verfehlt. Der folgende Acht-Schritte-Workflow ist das, was wir intern bei sitetest.ai verwenden, wenn wir eine llms.txt für eine Kundenwebsite hinzufügen.

Schritt 1: Erfasse deine zitierfähigsten URLs. Liste 5–30 URLs auf, die deine Website am besten repräsentieren. Startseite, Preisseite, die 5–10 wichtigsten Blogbeiträge, das Dokumentationsverzeichnis, die wichtigsten Feature-Seiten. Überspringe dünne Seiten, Anmeldebildschirme, facettierte Suchergebnisse und reine JS-Erlebnisse. Das Ziel ist eine kuratierte Karte, keine erschöpfende Sitemap. Wenn du mehr als 30 Kandidaten-URLs hast, priorisiere gnadenlos – der Überschuss kommt in die llms-full.txt oder bleibt ganz draußen.

Schritt 2: Erstelle die Datei mit dem H1-Seitennamen. Öffne einen Texteditor (VS Code, Sublime, einfacher Notepad – alles, was als UTF-8-Klartext speichert) und beginne mit einer einzelnen Markdown-Überschrift H1 mit deinem Website- oder Firmennamen: # SiteTest.ai. Dies ist die einzige H1 in der Datei. KI-Systeme verwenden sie als Entitätsanker für alles, was folgt.

Schritt 3: Füge eine einzeilige Blockquote-Zusammenfassung hinzu. Direkt unter der H1 fügst du einen Markdown-Blockquote mit einem Satz hinzu, der beschreibt, was die Website tut: > KI-gestütztes Website-Audit-Tool – 168 SEO- und KI-Suche-Checks für ChatGPT- und Perplexity-Sichtbarkeit. Formuliere es so, wie du die Frage "Was macht dein Unternehmen?" auf einer Dinnerparty beantworten würdest – informativ, kein Marketing-Geschwafel.

Schritt 4: Gruppiere URLs unter H2-Abschnitten. Erstelle logische H2-Abschnitte: ## Docs, ## Blog, ## API, ## Beispiele, ## Preise. Der optionale Abschnitt ## Optional am Ende ist eine spezielle Konvention – er listet URLs mit niedriger Priorität auf, die KI-Systeme zurückstufen können, wenn das Budget knapp ist. Verwende für die meisten Websites 2–6 Abschnitte.

Schritt 5: Schreibe jeden Link mit einer Beschreibung. Jeder Eintrag folgt dem genauen Muster: - [Linktext](https://vollständige-url): Ein-Satz-Beschreibung dessen, was sich unter dieser URL befindet. Der Doppelpunkt und die Beschreibung sind das, was die llms.txt von einer generischen Linkliste unterscheidet. Beschreibungen sollten 60–120 Zeichen lang, informativ und kein Marketingtext sein. Verwende die vollständige URL (inklusive https://) – relative Pfade sind für KI-Konsumenten mehrdeutig.

Schritt 6: Halte die Datei schlank (unter 50 KB). Die meisten llms.txt-Dateien sollten insgesamt 2–10 KB groß sein. Alles über 50 KB ist zu groß – einige KI-Konsumenten kürzen oder überspringen überdimensionierte Dateien. Wenn deine Kandidaten-URL-Liste den Rahmen sprengt, verschiebe den Überschuss in die llms-full.txt oder lasse ihn weg. Weniger ist mehr – eine straffe 20-Link-Datei übertrifft eine ausufernde 200-Link-Datei.

Schritt 7: Veröffentliche unter /llms.txt mit dem Content-Type text/plain. Lade die Datei so hoch, dass sie unter https://yourdomain.com/llms.txt erreichbar ist. Konfiguriere deinen Server so, dass er sie mit Content-Type: text/plain ausliefert – nicht text/html. Bei Nginx ist das ein location = /llms.txt { default_type text/plain; }-Block. Bei Vercel setzt du Header in der vercel.json. Bei Cloudflare Pages fügst du eine _headers-Datei hinzu. Überprüfe mit curl -I https://yourdomain.com/llms.txt.

Schritt 8: Validiere und verlinke von der robots.txt. Führe curl https://yourdomain.com/llms.txt aus und lies die gesamte Ausgabe. Lass sie durch den Validator von llmstxt.org laufen. Füge optional eine Hinweiszeile in der robots.txt hinzu: # llms.txt: https://yourdomain.com/llms.txt – dies ist rein informativ (keine geparste Direktive), signalisiert aber jedem, der die robots.txt liest, dass du auch eine llms.txt pflegst.

50+ Beispiele aus der Praxis für llms.txt

Der schnellste Weg, llms.txt in der Praxis zu verstehen, ist, zu lesen, was Dev-Tooling- und KI-Unternehmen tatsächlich ausliefern. Nachfolgend zehn Beispiele aus fünf Kategorien – jeder Link zeigt auf eine live /llms.txt, die du jetzt mit curl abrufen und studieren kannst. Wir haben die Liste kuratiert statt erschöpfend gehalten: Das Format ist so einfach, dass 50 Beispiele dieselben Muster offenbaren wie zehn.

Dev-Tools

  • Anthropic: Dokumentationsorientierte llms.txt mit API-Referenzen, Modellkarten und Prompt-Engineering-Anleitungen. Bemerkenswert für ihren knappen Optional-Abschnitt.
  • Cloudflare: Riesige Produktoberfläche (Workers, R2, D1, Pages, Stream), aufgeteilt in klare H2-Abschnitte – ein Lehrbuchbeispiel für die Organisation eines Multi-Produkt-Unternehmens.

SaaS-Plattformen

  • Linear: Minimal und produktmarketingorientiert – Startseite, Preise, Kunden, Changelog. Passt in unter 2 KB.
  • Vercel: Dokumentation plus Produktseiten, mit einer starken Blockquote-Zusammenfassung, die sich wie ein einzeiliger Elevator Pitch liest.

Dokumentationsseiten

  • Cursor: IDE-Dokumentation mit tiefgehenden technischen Inhalten – verwendet die Abschnitte ## Reference, ## Guides und ## API.
  • SvelteKit: Open-Source-Framework-Dokumentation, aufgeteilt in Tutorial-, Referenz- und Migrationsabschnitte – saubere redaktionelle Struktur.

KI-Produkte

  • Perplexity: API-Dokumentation für das KI-Suchunternehmen – passend, dass die Engine, die llms.txt am meisten respektiert, auch eine saubere veröffentlicht.
  • Anthropic Claude: Bereits oben behandelt – es lohnt sich, es speziell daraufhin noch einmal zu lesen, wie es die Modellversionierung über viele Dokumentations-URLs hinweg handhabt.

Open-Source-Frameworks

  • Astro: Dokumentation für ein Static-Site-Framework – schwerpunktmäßig Integrationen, Rezepte und Tutorials, mit starken Beschreibungen bei jedem Link.
  • NuxtLabs: Vue-basiertes Framework mit Multi-Produkt-Oberfläche (Nuxt, NuxtHub, Nuxt UI) – gutes Modell für die Organisation verwandter Produkte unter einer llms.txt.

Ein erwähnenswertes Muster: SEO- und Such-Tool-Unternehmen fehlen in dieser Liste auffällig. Ahrefs, Semrush, Moz, BrightEdge – keines veröffentlicht Stand Mai 2026 eine llms.txt. Das Feld, das am stärksten auf KI-Suche eingestellt sein sollte, ist das langsamste bei der Einführung der KI-Suchdatei, teils weil ihre Crawler mit KI-Crawlern konkurrieren, teils weil ihre internen SEO-Teams skeptisch gegenüber inoffiziellen Standards sind. Dev-Tooling-Unternehmen und KI-Infrastrukturunternehmen haben sich zuerst bewegt; Marketing-Tools werden folgen, wenn die Einführung zum Standard wird.

1.200+
Websites, die Schätzungen zufolge bis Mai 2026 eine llms.txt veröffentlichen, basierend auf öffentlichen Common-Crawl-Scans und dem Community-Register von llmstxt.org. Die Einführung ist stark zugunsten von Dev-Tooling, KI-Infrastruktur und Open-Source-Dokumentationsseiten verzerrt.
Source: Geschätzt aus Common Crawl + llmstxt.org Community-Listen

Ein ständig aktualisiertes öffentliches Register von llms.txt-Beispielen findest du in unserem llms.txt-Beispielverzeichnis (Platzhalter – wir werden im dritten Quartal 2026 ein Community-Register unter github.com/seoport/llms-txt-examples veröffentlichen). In der Zwischenzeit zeigen dir die zehn obigen Beispiele plus ein schnelles curl gegen die Domain eines beliebigen Dev-Tooling-Unternehmens 80 % der Muster, die du brauchst, um deine eigene zu veröffentlichen.

Häufige Fehler bei llms.txt

Sechs Fehler treten in etwa 70 % der fehlerhaften llms.txt-Dateien auf, die wir auditieren. Jeder davon ist ein 5-Minuten-Fix, und jeder einzelne kann den Unterschied ausmachen zwischen einer Datei, die KI-Systeme verwenden, und einer, die sie stillschweigend überspringen.

Fehler 1: Falscher Dateispeicherort. Die Datei muss sich genau unter /llms.txt im Stammverzeichnis deiner Domain befinden – nicht unter /docs/llms.txt, nicht unter /.well-known/llms.txt, nicht unter /llms.html. KI-Konsumenten rufen den kanonischen Pfad ab; alles andere ist unsichtbar. Wenn dein CMS oder Static-Site-Generator die Datei standardmäßig auf einen Nicht-Stammpfad umleitet, überschreibe dies explizit.

Fehler 2: Falscher ausgelieferter Content-Type. Die HTTP-Antwort muss Content-Type: text/plain enthalten. Viele Server liefern standardmäßig text/html für jede Datei mit der Endung .txt aus, wenn der MIME-Typ nicht explizit konfiguriert ist. Schlimmer noch: Einige CMSes fangen die Route ab und liefern eine HTML-404-Seite mit einem 200-Status. Überprüfe immer mit curl -I https://yourdomain.com/llms.txt und bestätige sowohl den Statuscode als auch den Content-Type-Header.

Fehler 3: Leere oder fehlende Beschreibung (Blockquote nach H1). Eine überraschende Anzahl von Dateien überspringt die einzeilige Blockquote-Zusammenfassung direkt nach der H1. Ohne diese haben KI-Systeme keinen übergeordneten Entitätskontext – sie sind gezwungen, den Zweck deiner Website aus der Linkliste abzuleiten, was verrauscht ist. Füge immer den Blockquote hinzu, mache ihn immer zu einem vollständigen Satz, und gestalte ihn immer informativ, nicht werblich.

Fehler 4: Verlinkung auf JS-gerenderte Seiten, die KI nicht parsen kann. llms.txt verweist auf URLs, die die KI lesen soll. Wenn diese URLs eine reine JS-Single-Page-App-Shell ausliefern (Vue, React ohne SSR, hydrierungsbasiertes Next.js), ruft die KI die URL ab, erhält ein leeres <div> und schlussfolgert, dass dort nichts ist. Entweder behebst du SSR auf den verlinkten Seiten, oder du verlinkst nur auf Seiten, die Inhalte in rohem HTML rendern.

Fehler 5: Einfügen von Paywall- oder Auth-geschützten URLs. Ein Link zu einem Paywall-Artikel oder einem eingeloggten Dashboard verschwendet das Crawl-Budget der KI und signalisiert Vernachlässigung. KI-Systeme merken sich, dass die verlinkte URL nicht erreichbar war, und können deine gesamte llms.txt abwerten. Kuratiere streng – liste nur URLs, die eine anonyme Anfrage vollständig lesen kann.

Fehler 6: Vergessen, nach Inhaltsänderungen zu aktualisieren. llms.txt ist redaktionell, was bedeutet, dass sie veraltet. Eine Datei, die eine Preisseite von 2023 auflistet, die heute einen 404-Fehler wirft, oder eine veraltete Produktseite, die anderswohin weiterleitet, signalisiert, dass die Datei nicht gepflegt wird. Plane eine vierteljährliche Überprüfung ein, die auf deinen Inhaltsaktualisierungsrhythmus abgestimmt ist – dieselbe Überprüfung, die dateModified aktualisiert und Hub-Seiten auffrischt, sollte auch die llms.txt aktualisieren.

Validieren deiner llms.txt

Die Validierung hat drei Ebenen – manuell, online und automatisiert – und sie decken leicht unterschiedliche Oberflächen ab. Führe alle drei durch, bevor du deine llms.txt als veröffentlicht betrachtest.

Manuelle Prüfung. Der 30-Sekunden-Smoke-Test: curl -I https://yourdomain.com/llms.txt und bestätige, dass du einen 200-Status und Content-Type: text/plain in den Headern siehst. Dann curl https://yourdomain.com/llms.txt und lies die gesamte Ausgabe. Deine Augen sollten sofort fehlende H1s, defektes Markdown oder versehentliches HTML-Wrapping erkennen. Etwa 80 % der fehlerhaften Dateien zeigen sich in dieser Phase.

Online-Validatoren. Der Referenzvalidator unter llmstxt.org/validator (Platzhalter – die offizielle Validator-URL kann sich ändern; überprüfe das Spezifikations-Repository auf den aktuellen kanonischen Link) prüft die strukturelle Konformität: Vorhandensein von H1, Blockquote, gültige H2-Abschnitte, Wohlgeformtheit der Markdown-Links und Link-Gesundheit (HEAD-Anfragen gegen jede URL). Er deckt Probleme auf, die ein curl-Lesen nicht erfasst – wie einen Tippfehler in einer URL, die einen 404-Fehler zurückgibt, oder eine Beschreibungszeichenfolge mit eingebetteten Zeilenumbrüchen.

Das andere Tool, das sich lohnt, ist sitetest.ai – unser eigenes Audit bündelt die llms.txt-Validierung in seiner 168-Check-Suite, plus die breitere KI-Zitierfähigkeitsbewertung, die dir sagt, ob die von dir aufgeführten URLs überhaupt zitierfähig sind (gutes Schema, schnelles Laden, zitierfähige Passagen usw.). Eine gültige llms.txt, die auf langsame JS-gerenderte Seiten verlinkt, ist eine vertane Chance; sitetest.ai erfasst beide Ebenen.

Häufige Fehler, die Validatoren erkennen. Leere Datei (Datei existiert, ist aber null Bytes – passiert bei schlechten CMS-Uploads). Falsche Kodierung (UTF-16 oder Windows-1252 anstelle von UTF-8 – Texteditoren unter Windows machen das immer noch falsch). Fehlender Blockquote (die einzeilige Zusammenfassung übersprungen). Defekte Links (in llms.txt aufgeführte URL gibt 404 oder 5xx zurück). Falscher Content-Type (Server liefert als text/html aus). HTML-Wrapping (CMS hat die Datei automatisch in eine HTML-Vorlage eingewickelt). Jeder dieser Fehler ist ein 1-Minuten-Fix, sobald er markiert ist – aber jeder einzelne neutralisiert deine Datei stillschweigend, wenn du sie ohne Überprüfung veröffentlichst.

Wird llms.txt zum Standard?

Die ehrliche Antwort im Mai 2026: Es tendiert zu Ja, ist aber noch nicht so weit. Die Signale auf beiden Seiten sind real.

Adoptionssignale, die für eine Standardisierung sprechen. Anthropic, Cloudflare, Vercel, Linear, Astro, NuxtLabs, Cursor, SvelteKit und Perplexity veröffentlichen und respektieren alle llms.txt. Die Cluster der Entwickler-Tools und KI-Infrastruktur haben sich faktisch zuerst bewegt – es sind dieselben Unternehmen, die in ihren jeweiligen Epochen die frühe Einführung von robots.txt und strukturierten Daten vorangetrieben haben. Die Integration von llms.txt in die AI Audit Beta von Cloudflare Anfang 2026 war ein bedeutender Schritt auf Plattformebene; die Reichweite von Cloudflare bedeutet, dass jedes Dateiformat, das sie unterstützen, eine infrastrukturelle Verteilung erhält.

Standardisierungsstatus. Keine formelle Standardisierung – es gibt Stand Mai 2026 keinen W3C-, IETF- oder WHATWG-Entwurf. Die Spezifikation lebt als GitHub-README, das von Jeremy Howard und Mitwirkenden auf llmstxt.org gepflegt wird. Das ist nicht ungewöhnlich: robots.txt selbst war 25 Jahre lang ein De-facto-Standard, bevor es 2022 zum RFC 9309 wurde. Nützliche Konventionen gehen formalen Spezifikationen in der Regel voraus. Das Fehlen einer W3C-Spur heute ist kein Beleg dafür, dass der Standard scheitern wird.

Die Unterstützung durch KI-Engines ist uneinheitlich. Perplexity respektiert llms.txt im Browse- und Research-Modus – es ist die klarste Unterstützung unter den großen KI-Suchmaschinen. Die Claude-Tools von Anthropic parsen die Datei und nutzen sie für ihre eigenen Produktoberflächen. Das Verhalten von ChatGPT ist inkonsistent: GPTBot fragt in unserer Crawl-Log-Analyse gelegentlich /llms.txt ab, aber OpenAI hat sich nicht dazu verpflichtet, es als formales Signal zu nutzen. Google ignoriert es in der Suche und in AI Overviews – Google hat sein eigenes Ökosystem für strukturierte Daten (JSON-LD, den Knowledge Graph, sameAs) und zeigt kein öffentliches Interesse an der Einführung eines weiteren Dateiformats. Bing Copilot ist in der Mitte – Microsoft hat es nicht ausgeschlossen, aber auch nicht befürwortet.

12–24-Monats-Prognose. Zwei Szenarien. Der optimistische Pfad: ChatGPT oder Gemini verpflichten sich innerhalb von 12–18 Monaten öffentlich dazu, llms.txt zu respektieren (wahrscheinlich unter dem Wettbewerbsdruck von Perplexity), woraufhin es für die KI-Suche zum De-facto-Standard wird, so wie robots.txt es für die klassische Suche ist. Der pessimistische Pfad: Die großen Engines verpflichten sich nie, llms.txt bleibt eine Entwicklerkonvention, die von Perplexity und dem langen Schwarm von Open-Source-LLM-Projekten übernommen wird, aber nie von den Giganten, und es verschwindet im Hintergrund wie /humans.txt. Selbst im pessimistischen Fall sind die Kosten für die heutige Implementierung (5 Minuten) so gering, dass der Erwartungswert der Wette positiv ist – Early Adopters verlieren fast nichts und gewinnen echte Optionalität.

Jenseits von llms.txt: Andere KI-Zitiersignale

llms.txt ist ein Signal unter vielen. Selbst mit einer perfekten Datei bewerten KI-Engines Zitate immer noch anhand der breiteren Zitierfaktoren. Drei Familien von Signalen sind am wichtigsten.

Schema-Markup. FAQPage, HowTo, Article (mit Autor und Herausgeber), Organization (mit sameAs) und BreadcrumbList JSON-LD sind die wirkungsvollsten Markup-Typen für KI-Zitationen. SpeakableSpecification (cssSelector, der auf #tldr- und #definition-Blöcke zeigt) teilt Sprach- und Audio-KIs mit, welche Blöcke zum Vorlesen gedacht sind. KI-Engines parsen JSON-LD als ein Signal mit hohem Vertrauen, da es maschinenlesbar und eindeutig ist – Seiten mit korrektem Schema werden 2–3x häufiger zitiert als Seiten ohne.

EEAT-Signale. Experience, Expertise, Authoritativeness und Trustworthiness – das Vier-Buchstaben-Rahmenwerk, das Google Ende 2022 formalisiert hat – lassen sich direkt auf das KI-Ranking übertragen. KI-Engines zitieren bevorzugt Quellen mit benannten Autoren, sichtbaren Qualifikationen, Inline-Zitaten zu Primärquellen, Originaldaten und Markenbekanntheit auf KI-vertrauenswürdigen Domains (Wikipedia, Reddit, GitHub, Hacker News, große Fachpublikationen). Anonymer Inhalt ohne Autorenbiografie und ohne Inline-Zitate wird aus den Kandidatenpools für Zitate herausgefiltert.

Strukturierte Überschriften und faktische Dichte. Eine klare H1 → H2 → H3-Hierarchie ermöglicht es Retrieval-Pipelines, Ihre Seite genau zu chunkieren. Seiten mit einer riesigen H1 und Textwänden ohne Zwischenüberschriften werden schlecht gechunkt und selten zitiert. Innerhalb jedes Chunks ist die faktische Dichte wichtig – 4–6 benannte Entitäten (Personen, Daten, Produkte, Zahlen, Orte) pro 100 Wörter erzielen eine höhere Punktzahl als vage Prosa. LLMs verwenden die Anzahl benannter Entitäten als schnellen Proxy für "diese Passage ist informativ".

Für das vollständige GEO-Playbook mit allen 14 Taktiken – robots.txt-Allowlists, llms.txt, Schema, Seitengeschwindigkeit, zitierbare Passagen, Markenautorität – siehe unseren GEO-Leitfaden. Für die 18 Ranking-Faktoren, die KI-Suchmaschinen bei der Zusammenstellung von Antworten gewichten, siehe AI Search Engine Optimization. Für die ältere grundlegende Einordnung – was als KI-SEO-Audit gilt und wie es sich von klassischen Audits unterscheidet – siehe Was ist ein KI-SEO-Audit. llms.txt ist die Gateway-Datei; diese Leitfäden decken den Rest der Oberfläche ab.

Frequently Asked Questions

Was ist llms.txt?
llms.txt ist eine einfache Text-Markdown-Datei im Stammverzeichnis einer Website (z. B. example.com/llms.txt), die die URLs und Inhaltsabschnitte auflistet, die für KI-Systeme wie ChatGPT, Claude und Perplexity am nützlichsten sind. Sie verwendet eine einfache Markdown-Struktur – H1-Site-Name, Blockquote-Zusammenfassung, H2-Abschnitte und Aufzählungspunkte mit Links und ein-Satz-Beschreibungen –, damit LLMs schnell die Struktur einer Site verstehen können, ohne JavaScript-lastige Seiten parsen zu müssen. Sie wurde im September 2024 von Jeremy Howard von Answer.AI vorgeschlagen und wird heute von Anthropic, Cloudflare, Vercel, Astro und einer wachsenden Liste von Entwickler-Tooling-Unternehmen verwendet.
Wo platziere ich llms.txt auf meiner Website?
Sie muss im Stammverzeichnis Ihrer Domain liegen – genau /llms.txt, nicht /docs/llms.txt oder /llms.html. Die vollständige URL sollte https://ihredomain.com/llms.txt lauten und einen 200-Status mit dem Content-Type text/plain zurückgeben. Jeder andere Pfad oder Inhaltstyp führt dazu, dass KI-Systeme und Validatoren die Datei überspringen. Wenn Sie auch llms-full.txt veröffentlichen, liegt diese unter /llms-full.txt auf derselben Ebene. Überprüfen Sie mit curl -I https://ihredomain.com/llms.txt – bestätigen Sie sowohl den 200-Status als auch den Content-Type-Header text/plain.
Verwendet Google llms.txt?
Stand Mai 2026 nicht. Google hat keine Unterstützung für llms.txt in der Suche, Gemini oder AI Overviews angekündigt. Die KI-Oberflächen von Google verlassen sich weiterhin auf Googlebot, Google-Extended und den Standard-Webcrawl sowie die bereits auf der Seite eingebetteten strukturierten Daten (JSON-LD, Mikrodaten). Die Veröffentlichung von llms.txt schadet den Google-Rankings nicht, hilft ihnen aber auch nicht direkt. Konzentrieren Sie sich für Google AI Overviews-Zitate auf Schema-Markup, Seitengeschwindigkeit und EEAT-Signale – siehe unseren GEO-Leitfaden unter /blog/generative-engine-optimization-guide für das vollständige Playbook.
Respektiert ChatGPT llms.txt?
Inkonsistent. OpenAI hat sich nicht dazu verpflichtet, llms.txt als formales Signal zu unterstützen – GPTBot und OAI-SearchBot verlassen sich weiterhin hauptsächlich auf robots.txt, sitemap.xml und die Seite selbst. In unserer Crawl-Log-Analyse auf sitetest.ai sehen wir jedoch, dass ChatGPT-User in einem kleinen Teil der Sitzungen /llms.txt abruft, was darauf hindeutet, dass die Datei zumindest getestet wird. Behandeln Sie es als ein kostenloses Signal, das fünf Minuten für die Implementierung kostet – nicht als harten Ranking-Faktor. Die Plattformen, die es heute explizit verwenden, sind Perplexity (im Browse-Modus) und die Tooling von Anthropic.
Ist llms.txt dasselbe wie robots.txt?
Nein. robots.txt teilt Crawlern mit, auf welche Pfade sie zugreifen dürfen – es steuert das Verhalten. llms.txt teilt KI-Systemen mit, welche Inhalte für sie am nützlichsten sind – es kuratiert die Priorität. robots.txt ist ein 30 Jahre alter IETF-ähnlicher Standard, der von praktisch jedem Crawler unterstützt wird. llms.txt ist ein Vorschlag aus dem Jahr 2024, der von einer kleinen, aber wachsenden Liste von KI-Tooling-Unternehmen unterstützt wird. Sie dienen unterschiedlichen Zwecken und sollten auf den meisten Websites beide existieren: robots.txt für Zugriffsregeln, llms.txt für die Inhaltskuratierung.
Wie erstelle ich llms.txt?
Acht Schritte. (1) Erstellen Sie eine einfache Textdatei im Stammverzeichnis Ihrer Site. (2) Beginnen Sie mit H1 und Ihrem Site-Namen. (3) Fügen Sie eine einzeilige Blockquote-Zusammenfassung hinzu. (4) Gruppieren Sie wichtige URLs unter H2-Abschnitten wie Docs, Examples, API. (5) Jeder Link sollte ein Markdown-Link plus einem Doppelpunkt plus einer ein-Satz-Beschreibung sein. (6) Halten Sie die Gesamtlänge unter 50 KB. (7) Servieren Sie als text/plain mit HTTP 200. (8) Validieren Sie mit curl plus einer manuellen Überprüfung. Wir gehen jeden Schritt mit Beispielen in Abschnitt 5 dieses Leitfadens durch.
Was ist llms-full.txt?
llms-full.txt ist eine verwandte Datei unter /llms-full.txt, die den vollständigen Textinhalt Ihrer wichtigsten Seiten in einem einzigen Dokument enthält – nicht nur Links. Die Idee ist, Offline-LLMs und Aufnahmepipelines ein vollständiges Korpus zu geben, das sie trainieren oder feinabstimmen können, ohne die Live-Site zu crawlen. Sie ist größer (oft 200 KB bis mehrere MB), teurer zu pflegen und nur für Sites mit stabilem kanonischem Inhalt wie Dokumentationen, öffentlichen APIs oder technischen Spezifikationen nützlich. Die meisten Marketing-Websites sollten nur llms.txt veröffentlichen – llms-full.txt ist übertrieben.
Sollten kleine Websites llms.txt haben?
Ja. Die Datei ist eine 5-Minuten-Investition, die nichts in Bezug auf Leistung, Hosting oder Design kostet. Selbst eine 10-seitige Site profitiert von einer kuratierten llms.txt, da sie KI-Engines mitteilt, welche 5–7 URLs am repräsentativsten sind – Ihre Startseite, Preisseite, Top-Blogbeiträge und Kontaktseite. Wenn Sie Inhalte haben, die es wert sind, zitiert zu werden, haben Sie auch Inhalte, die es wert sind, in llms.txt aufgelistet zu werden. Die Ausnahme sind rein transaktionale Websites (reine E-Commerce-Checkout-Abläufe), bei denen es keine informativen Inhalte zu zitieren gibt.
Kann ich KI-Crawler mit llms.txt blockieren?
Nein – dafür ist robots.txt da. llms.txt ist rein additiv: Es listet auf, was KI-Systeme lesen sollen. Um KI-Crawler zu blockieren, verwenden Sie robots.txt mit expliziten Disallow-Regeln für GPTBot, ClaudeBot, PerplexityBot, OAI-SearchBot und Google-Extended. Die Verwechslung der beiden ist einer der sechs häufigen Fehler, die in Abschnitt 7 behandelt werden. Wir empfehlen, dass fast niemand KI-Crawler blockiert – siehe unseren GEO-Leitfaden unter /blog/generative-engine-optimization-guide für die Argumente gegen das Blockieren.
Hilft llms.txt bei SEO?
Nicht für klassische Google-Rankings. llms.txt hat keinen Einfluss auf Blue-Link-SEO – Google parst es nicht als Ranking-Signal. Es kann indirekt die Sichtbarkeit in der KI-Suche auf Plattformen verbessern, die es respektieren (Perplexity, Anthropic-Tools, einige Open-Source-LLM-Projekte). Die realistische Einordnung: Die Veröffentlichung von llms.txt ist eine günstige Versicherungspolice für die nächsten 12–24 Monate, während der Standard entweder an Bedeutung gewinnt oder verschwindet. Für Ranking-Gewinne heute priorisieren Sie Schema, Seitengeschwindigkeit und zitierbare Passagen – behandelt in unserem AI Search Engine Optimization-Leitfaden unter /blog/ai-search-engine-optimization.
Was ist der Unterschied zwischen llms.txt und sitemap.xml?
sitemap.xml listet jede URL auf, die Sie indexieren möchten, in maschinenlesbarem XML, für klassische Such-Crawler. llms.txt listet nur Ihre nützlichsten URLs auf, in menschen- und KI-lesbarem Markdown, für LLMs. Die Sitemap ist erschöpfend und strukturell; llms.txt ist kuratiert und redaktionell. Eine Sitemap kann 100.000 URLs haben; llms.txt sollte selten 100 überschreiten. Beide Dateien sind komplementär – behalten Sie Ihre Sitemap für Google, liefern Sie llms.txt für KI-Engines aus. Wir vergleichen beide mit robots.txt in Abschnitt 3.
Wie oft sollte ich llms.txt aktualisieren?
Immer dann, wenn sich Ihre Seitenstruktur oder Ihr kanonischer Inhalt wesentlich ändert. Für die meisten Marketing-Websites ist das einmal pro Quartal, abgestimmt auf Ihren Content-Refresh-Rhythmus. Für Dokumentationsseiten mit häufigen Releases aktualisieren Sie llms.txt bei jeder Hauptversion (verlinken Sie die neuen Dokumentationsabschnitte, entfernen Sie veraltete). Die Datei sollte immer das widerspiegeln, was auf Ihrer Site derzeit am zitierfähigsten ist – eine veraltete llms.txt mit defekten Links signalisiert KI-Engines Vernachlässigung und verringert das Vertrauen.
Gibt es llms.txt-Validatoren?
Ja, mehrere. Der Referenzvalidator auf llmstxt.org (vorgeschlagen von den Spezifikationsautoren) prüft Syntax, Link-Gesundheit und empfohlene Struktur. Sitetest.ai bündelt die llms.txt-Validierung in seinem 168-Checks-Audit und markiert fehlende Dateien, falschen Content-Type, defekte Links und leere Beschreibungen. Das kürzlich eingeführte AI Audit Beta von Cloudflare validiert ebenfalls das Vorhandensein von llms.txt als Teil seines Bot-Management-Dashboards. Für schnelle manuelle Überprüfungen: curl -I https://ihredomain.com/llms.txt und überprüfen Sie 200 plus text/plain.
Wie sieht die Zukunft von llms.txt aus?
Zwei Szenarien. Der optimistische Pfad: Bis Ende 2026 oder Anfang 2027 fügen ChatGPT, Gemini und Bing Copilot explizite Unterstützung hinzu, und llms.txt wird zu einem De-facto-Standard wie robots.txt. Der pessimistische Pfad: Die großen KI-Engines verpflichten sich nie, die Datei bleibt nur auf Perplexity und einer Handvoll Tooling-Plattformen nützlich und verkommt zu einer Entwicklerkonvention statt zu einem Standard. In beiden Fällen sind die Kosten für die heutige Veröffentlichung so gering (5 Minuten), dass der Erwartungswert selbst bei stagnierender Adoption positiv ist. Early Adopters verlieren nichts und gewinnen Optionalität.

Fazit + CTA

llms.txt ist das günstigste Experiment zur Sichtbarkeit in der KI-Suche, das Sie dieses Jahr durchführen werden. Fünf Minuten Bearbeitung, eine kuratierte Liste mit 10–30 URLs, ein Content-Type: text/plain-Header, und schon sind Sie startklar. Der Nachteil ist gleich null – die Datei schadet SEO nicht, verlangsamt Ihre Website nicht und zerbricht nichts. Der Vorteil ist heute real auf Perplexity- und Anthropic-Plattformen und wird in den nächsten 12–18 Monaten, da der Anpassungsdruck steigt, zunehmend auch bei ChatGPT und Gemini wahrscheinlich.

Der tiefere Punkt: llms.txt ist eine von drei oder vier KI-Suchdateien, die es 2023 nicht gab und die bis 2027 zum Standard gehören werden. Websites, die sie frühzeitig ausliefern – zusammen mit der Arbeit an Schema, Seitengeschwindigkeit und zitierfähigen Passagen, die in unserem GEO-Leitfaden behandelt wird – bauen ihren KI-Sichtbarkeitsvorteil Quartal für Quartal aus. Websites, die warten, bis sich der Standard formalisiert hat, werden sechs bis zwölf Monate hinterherhinken, wenn ihre Konkurrenten bereits konsistent in den großen KI-Engines zitiert werden. Behandeln Sie llms.txt als eine kostenlose Option auf die KI-Suchzukunft. Kaufen Sie die Option, halten Sie sie und überprüfen Sie den Rest Ihres KI-Sichtbarkeits-Stapels.

Um Ihre aktuelle llms.txt zu prüfen – oder eine von Ihrer Website zu generieren, falls Sie noch keine haben – führen Sie einen kostenlosen Scan auf sitetest.ai durch. Der Audit prüft das Vorhandensein von llms.txt, das Format, die Linkgesundheit und den Content-Type sowie die breiteren 168 KI-Zitierfaktoren, die bestimmen, ob die von Ihnen aufgeführten URLs tatsächlich zitiert werden. Sechzig Sekunden, keine Anmeldung, entwicklerfreundliche Ausgabe.

Methodik

Dieser Leitfaden stützt sich auf den ursprünglichen llms.txt-Vorschlag, der von Jeremy Howard bei Answer.AI im September 2024 veröffentlicht wurde, die Spezifikation, die auf llmstxt.org gepflegt wird, öffentliche Common-Crawl-Scans von /llms.txt-Dateien im offenen Web und interne Auditdaten von sitetest.ai aus der 168-Check-Suite, die monatlich auf Tausenden von Websites durchgeführt wird. Die Schätzungen zur Verbreitung sind ungefähr – es gibt kein zentrales Register von Websites, die llms.txt veröffentlichen, daher wird die Zahl von über 1.200 aus Common Crawl plus gemeinschaftlich gepflegten Listen abgeleitet und sollte als Richtungsindikator und nicht als genaue Zählung betrachtet werden. Die Respektniveaus der KI-Engines (Perplexity ja, Anthropic ja, ChatGPT inkonsistent, Google nein) spiegeln öffentliche Aussagen und unsere eigenen Crawl-Log-Analysen Stand Mai 2026 wider und können sich mit der Reifung des Standards verschieben. Wir aktualisieren diesen Leitfaden vierteljährlich – das nächste geplante Update ist August 2026, und dateModified spiegelt die letzte Überarbeitung wider.

Related reading