Was ist llms.txt? (Definition + Kurzfassung)
Wenn Sie sich schon länger mit KI-Suche beschäftigen, ist Ihnen die Lücke sicherlich aufgefallen. KI-Engines crawlen Ihre Website, aber sie wissen oft nicht, was darauf wirklich lesenswert ist. Sie verschwenden Budget auf Login-Seiten, Archiv-Pfade und JS-gerenderte Hüllen. Sie übersehen die eine Preisseite oder den einen erklärenden Beitrag, den Sie gerne zitiert sähen. llms.txt ist der Vorschlag, dies zu beheben – eine Datei, die in fünf Minuten erstellt ist und sich im Domain-Root befindet. Sie teilt LLMs mit, welche URLs am wichtigsten sind.
Das Format ist bewusst minimal: ein Markdown-Dokument mit einem H1-Websitenamen, einer einzeiligen Blockquote-Zusammenfassung, H2-Abschnitten, die verwandte Inhalte gruppieren (Dokumentation, Blog, API, Beispiele), und Aufzählungslinks mit Beschreibungen. Kein XML, kein JSON, keine Schemata, die gegen ein Register validiert werden müssen. Nur Markdown, das jeder Mensch lesen und jedes LLM ohne Tokenizer-Gerangel parsen kann. Die gesamte Datei wiegt normalerweise 2–10 KB.
Sie reiht sich als dritte Datei im Site-Root neben robots.txt und sitemap.xml ein, um die sich Crawler kümmern – jedoch mit einem anderen Zweck. robots.txt gewährt oder verweigert Zugriff. sitemap.xml listet erschöpfend URLs für die Indexierung auf. llms.txt kuratiert die zitierfähige Shortlist für KI-Engines. Der Rest dieses Leitfadens behandelt, woher sie kommt, wie man eine schreibt und ob sich der Aufwand bei der derzeit inkonsistenten Akzeptanz lohnt. Spoiler: Ja, es lohnt sich, sie auszuliefern. Der Aufwand beträgt fünf Minuten, und der Nutzen ist heute auf Perplexity- und Anthropic-Plattformen real, plus Optionalität für jede andere Engine in den nächsten 24 Monaten.
Die Geschichte – Warum llms.txt vorgeschlagen wurde
Der Vorschlag wurde am 3. September 2024 in einem einzelnen GitHub-Repository und einem begleitenden Blogbeitrag von Jeremy Howard, Gründer von fast.ai und Answer.AI, veröffentlicht. Howard hatte das Jahr zuvor damit verbracht, die Forschungstools von Answer.AI rund um LLMs mit langem Kontext zu entwickeln, und stieß immer wieder auf dieselbe Hürde: Das offene Web ist für Menschen und klassische Suchmaschinen strukturiert, nicht für die Inferenz-Zeit-Retrieval-Pipelines, die KI-Produkte verwenden. Websites veröffentlichen Tausende von Seiten, und ein LLM, das versucht, das Unternehmen zusammenzufassen, durchkämmt irrelevante Routen – Login-Bildschirme, facettierte Suchergebnisse, paginierte Archive – bevor es die eigentliche Produktseite findet.
Die beiden bestehenden Dateien im Root – robots.txt und sitemap.xml – konnten diese Lücke nicht schließen. robots.txt ist eine binäre Zugriffskontrolle: erlaubt oder verboten, keine Prioritätsgewichtung. sitemap.xml listet jede URL, die Sie indexieren möchten, in flachem XML auf, oft Zehntausende von Einträgen ohne redaktionelles Signal, welche am wichtigsten sind. Keine der Dateien sagt einem KI-System: "Wenn du nur Zeit hast, fünf Seiten zu lesen, lies diese fünf." Diese Lücke füllt llms.txt.
Die andere Hälfte des Problems ist das JavaScript-Rendering. Die meisten KI-Crawler (GPTBot, ClaudeBot, PerplexityBot in ihren Standardmodi) führen kein JavaScript aus. Sie sehen die rohe HTML-Antwort, die bei modernen Frontend-Stacks (Vue SPAs, React ohne SSR, Hydration-Only-Next.js-Apps) oft eine fast leere Hülle mit einem <div id="root"> und sonst nichts ist. llms.txt umgeht dies, indem es kanonisches, reines Text-Markdown ausliefert – Inhalte, die der Crawler unabhängig vom Frontend-Stack tatsächlich lesen kann.
Howards Rahmung im ursprünglichen Vorschlag war einfach. Das Web hat /robots.txt für Crawler, /humans.txt für Leser (eine Nischenkonvention aus den 2010ern), /security.txt für die Offenlegung von Schwachstellen und /.well-known/ für Metadaten. /llms.txt fügt sich sauber in diese Familie ein – ein kuratiertes, maschinenlesbares Manifest speziell für die neue Welle von KI-Agenten, die Websites anders lesen als Browser. Ende 2024 hatte Anthropic es auf anthropic.com/llms.txt übernommen; bis Q1 2025 folgten Cloudflare, Vercel, Astro, NuxtLabs und Linear. Die Übernahme unter Dev-Tooling-Unternehmen ist seitdem stetig vorangeschritten.
llms.txt vs. robots.txt vs. sitemap.xml – Wann man was verwendet
Die drei Dateien im Site-Root beantworten jeweils eine andere Frage. robots.txt beantwortet "Wer darf was crawlen?" sitemap.xml beantwortet "Welche URLs existieren?" llms.txt beantwortet "Welche URLs sind für KI am wichtigsten?" Sie ergänzen sich – die meisten Websites sollten alle drei haben.
| Attribut | robots.txt | |
|---|---|---|
| Zweck | Zugriffskontrolle für Crawler | Kuratierte KI-Aufnahmepriorität |
| Format | Reine Textdirektiven / XML-Schema | Reines Markdown |
| Zielgruppe | Such-Bots / Such-Bots | KI-Agenten (ChatGPT, Claude, Perplexity) |
| Indexierungsrolle | Pfade erlauben/verbieten / Alle URLs auflisten | Zitierfähigste URLs hervorheben |
| Parsing | Strenge Syntax / Strenges XML | Lockeres Markdown, menschenlesbar |
Das praktische Gedankenmodell: Wenn Sie nur drei Dateien im Site-Root hätten und unbegrenztes Budget für eine neue, wäre die Reihenfolge der Wirkung heute: robots.txt zuerst (ohne sie erreichen Crawler Sie vielleicht gar nicht oder crawlen zu aggressiv), sitemap.xml als zweites (bringt Ihren vollständigen URL-Satz in Googles Index) und llms.txt als drittes (signalisiert Priorität an KI-Engines zusätzlich zu den anderen beiden).
Ein häufiger Fehler ist, llms.txt als Ersatz für eine der anderen zu behandeln. Das ist sie nicht. Das Entfernen Ihrer sitemap.xml und das Hinzufügen von llms.txt würde Ihre Google-Indexierung ruinieren, während es die KI-Zitation nur marginal verbessert. Das Entfernen von robots.txt und das Ersetzen durch llms.txt bringt nichts Nützliches – verschiedene Bots lesen verschiedene Dateien. Liefern Sie alle drei aus, halten Sie sie synchron und behandeln Sie llms.txt als die redaktionelle Ebene über den strukturellen.
Es stellt sich auch die Frage, wer welche Datei in der Praxis liest. robots.txt wird von praktisch jedem wohlerzogenen Crawler gelesen. sitemap.xml wird hauptsächlich von Google, Bing und einer Handvoll SEO-Tools gelesen. llms.txt wird heute konsistent von Perplexity, den Tools von Anthropic und einem langen Schwanz von Open-Source-LLM-Projekten (LangChain-Ingestion-Pipelines, LlamaIndex-Loader usw.) gelesen. Die Liste wächst vierteljährlich – Cloudflares AI Audit Beta hat Anfang 2026 llms.txt-Unterstützung hinzugefügt, und mehrere kleinere KI-Suchprodukte bündeln llms.txt-Parsing in ihren Crawl-Pipelines.
Die llms.txt-Spezifikation – Format erklärt
Das Format ist ein Markdown-Dokument mit fünf erforderlichen und einem optionalen Abschnitt. Es ist locker genug, dass Sie es in fünf Minuten in einem Texteditor handschreiben können, und streng genug, dass KI-Systeme und Validierer es deterministisch parsen können.
Die fünf erforderlichen Teile:
- H1: Websitename. Genau ein H1 ganz oben, der Ihren Site- oder Firmennamen enthält. Dies ist der Entitätsanker.
- Blockquote: Einzeilige Zusammenfassung. Ein Markdown-Blockquote (
>) unmittelbar nach dem H1 mit einem einzigen Satz, der die Site beschreibt. Behandeln Sie es als Ihren Elevator Pitch – was ein LLM zitieren wird, wenn es gefragt wird "Was macht diese Seite?" - H2-Abschnitte. Logische Gruppierungen von Links:
## Docs,## Beispiele,## API,## Blog,## Preise. Verwenden Sie für die meisten Sites 2–6 Abschnitte. - Aufzählungslinks mit Beschreibungen. Jeder Eintrag unter einem H2 folgt diesem Muster:
- [Linktext](https://vollstaendige-url): Ein-Satz-Beschreibung.Das Muster mit Doppelpunkt und Beschreibung unterscheidet llms.txt von einer generischen Markdown-Liste. - Optionaler H2-Abschnitt. Ein
## Optional-Abschnitt am Ende für URLs mit niedriger Priorität, die die KI bei knappem Budget herabstufen kann.
Ein ausgearbeitetes Beispiel im Format, das Sie heute veröffentlichen würden:
# SiteTest.ai
> KI-gestütztes Website-Audit-Tool – 168 SEO- und KI-Suche-Checks für Sichtbarkeit bei ChatGPT, Perplexity und AI Overviews.
## Docs
- [So funktioniert es](https://sitetest.ai/how-it-works): Methodik hinter den 168 Checks zu Crawlbarkeit, Schema und KI-Zitierfähigkeit.
- [Preise](https://sitetest.ai/pricing): Pläne von einer kostenlosen Stufe bis zu 24,99 $ pro Audit, plus Team- und Agenturoptionen.
## Blog
- [GEO-Leitfaden](https://sitetest.ai/blog/generative-engine-optimization-guide): Die 14 Taktiken und die 15-Schritte-Checkliste für Generative Engine Optimization.
- [KI-Sichtbarkeit](https://sitetest.ai/blog/ai-visibility-checker-guide): Acht Metriken und acht Tools zur Verfolgung von KI-Zitaten.
## Optional
- [Changelog](https://sitetest.ai/changelog): Produktversionshinweise – nützlich für KI-Agenten, aber keine hohe Priorität.
Das war's. Kein JSON-Schema, keine erforderlichen Felder über die obige Struktur hinaus. Die gesamte Datei passt in die Länge eines Tweet-Threads, und Validierer prüfen auf das H1, das Blockquote, mindestens einen H2-Abschnitt und wohlgeformte Markdown-Links.
Die llms-full.txt-Variante ist eine Schwesterdatei unter /llms-full.txt, die denselben Ansatz verfolgt, aber weiter geht – sie verkettet den vollständigen Textinhalt Ihrer wichtigsten Seiten in einem einzigen Dokument, nicht nur Links. Dokumentationsseiten nutzen sie, um ihr gesamtes Docs-Korpus als einen einzigen Textblock bereitzustellen, den LLMs offline aufnehmen können. Der Preis ist viel höher: Typische llms-full.txt-Dateien sind 200 KB bis mehrere Megabyte groß und müssen bei jeder Inhaltsänderung neu generiert werden. Die meisten Sites sollten nur llms.txt ausliefern und llms-full.txt überspringen, es sei denn, sie haben stabile kanonische Inhalte (technische Spezifikationen, öffentliche APIs, formale Dokumentation), bei denen ein einmaliger Dump nachgelagerten LLM-Konsumenten wirklich hilft.
Schritt-für-Schritt: So erstellst du deine llms.txt
Nach über 100 Audits habe ich immer wieder dasselbe Muster gesehen: Teams liefern entweder eine 30-Sekunden-llms.txt, die die Grundlagen perfekt abdeckt, oder eine ausufernde, fehlerhafte Datei, die das Ziel völlig verfehlt. Der folgende Acht-Schritte-Workflow ist das, was wir intern bei sitetest.ai verwenden, wenn wir eine llms.txt für eine Kundenwebsite hinzufügen.
Schritt 1: Erfasse deine zitierfähigsten URLs. Liste 5–30 URLs auf, die deine Website am besten repräsentieren. Startseite, Preisseite, die 5–10 wichtigsten Blogbeiträge, das Dokumentationsverzeichnis, die wichtigsten Feature-Seiten. Überspringe dünne Seiten, Anmeldebildschirme, facettierte Suchergebnisse und reine JS-Erlebnisse. Das Ziel ist eine kuratierte Karte, keine erschöpfende Sitemap. Wenn du mehr als 30 Kandidaten-URLs hast, priorisiere gnadenlos – der Überschuss kommt in die llms-full.txt oder bleibt ganz draußen.
Schritt 2: Erstelle die Datei mit dem H1-Seitennamen. Öffne einen Texteditor (VS Code, Sublime, einfacher Notepad – alles, was als UTF-8-Klartext speichert) und beginne mit einer einzelnen Markdown-Überschrift H1 mit deinem Website- oder Firmennamen: # SiteTest.ai. Dies ist die einzige H1 in der Datei. KI-Systeme verwenden sie als Entitätsanker für alles, was folgt.
Schritt 3: Füge eine einzeilige Blockquote-Zusammenfassung hinzu. Direkt unter der H1 fügst du einen Markdown-Blockquote mit einem Satz hinzu, der beschreibt, was die Website tut: > KI-gestütztes Website-Audit-Tool – 168 SEO- und KI-Suche-Checks für ChatGPT- und Perplexity-Sichtbarkeit. Formuliere es so, wie du die Frage "Was macht dein Unternehmen?" auf einer Dinnerparty beantworten würdest – informativ, kein Marketing-Geschwafel.
Schritt 4: Gruppiere URLs unter H2-Abschnitten. Erstelle logische H2-Abschnitte: ## Docs, ## Blog, ## API, ## Beispiele, ## Preise. Der optionale Abschnitt ## Optional am Ende ist eine spezielle Konvention – er listet URLs mit niedriger Priorität auf, die KI-Systeme zurückstufen können, wenn das Budget knapp ist. Verwende für die meisten Websites 2–6 Abschnitte.
Schritt 5: Schreibe jeden Link mit einer Beschreibung. Jeder Eintrag folgt dem genauen Muster: - [Linktext](https://vollständige-url): Ein-Satz-Beschreibung dessen, was sich unter dieser URL befindet. Der Doppelpunkt und die Beschreibung sind das, was die llms.txt von einer generischen Linkliste unterscheidet. Beschreibungen sollten 60–120 Zeichen lang, informativ und kein Marketingtext sein. Verwende die vollständige URL (inklusive https://) – relative Pfade sind für KI-Konsumenten mehrdeutig.
Schritt 6: Halte die Datei schlank (unter 50 KB). Die meisten llms.txt-Dateien sollten insgesamt 2–10 KB groß sein. Alles über 50 KB ist zu groß – einige KI-Konsumenten kürzen oder überspringen überdimensionierte Dateien. Wenn deine Kandidaten-URL-Liste den Rahmen sprengt, verschiebe den Überschuss in die llms-full.txt oder lasse ihn weg. Weniger ist mehr – eine straffe 20-Link-Datei übertrifft eine ausufernde 200-Link-Datei.
Schritt 7: Veröffentliche unter /llms.txt mit dem Content-Type text/plain. Lade die Datei so hoch, dass sie unter https://yourdomain.com/llms.txt erreichbar ist. Konfiguriere deinen Server so, dass er sie mit Content-Type: text/plain ausliefert – nicht text/html. Bei Nginx ist das ein location = /llms.txt { default_type text/plain; }-Block. Bei Vercel setzt du Header in der vercel.json. Bei Cloudflare Pages fügst du eine _headers-Datei hinzu. Überprüfe mit curl -I https://yourdomain.com/llms.txt.
Schritt 8: Validiere und verlinke von der robots.txt. Führe curl https://yourdomain.com/llms.txt aus und lies die gesamte Ausgabe. Lass sie durch den Validator von llmstxt.org laufen. Füge optional eine Hinweiszeile in der robots.txt hinzu: # llms.txt: https://yourdomain.com/llms.txt – dies ist rein informativ (keine geparste Direktive), signalisiert aber jedem, der die robots.txt liest, dass du auch eine llms.txt pflegst.
50+ Beispiele aus der Praxis für llms.txt
Der schnellste Weg, llms.txt in der Praxis zu verstehen, ist, zu lesen, was Dev-Tooling- und KI-Unternehmen tatsächlich ausliefern. Nachfolgend zehn Beispiele aus fünf Kategorien – jeder Link zeigt auf eine live /llms.txt, die du jetzt mit curl abrufen und studieren kannst. Wir haben die Liste kuratiert statt erschöpfend gehalten: Das Format ist so einfach, dass 50 Beispiele dieselben Muster offenbaren wie zehn.
Dev-Tools
- Anthropic: Dokumentationsorientierte llms.txt mit API-Referenzen, Modellkarten und Prompt-Engineering-Anleitungen. Bemerkenswert für ihren knappen Optional-Abschnitt.
- Cloudflare: Riesige Produktoberfläche (Workers, R2, D1, Pages, Stream), aufgeteilt in klare H2-Abschnitte – ein Lehrbuchbeispiel für die Organisation eines Multi-Produkt-Unternehmens.
SaaS-Plattformen
- Linear: Minimal und produktmarketingorientiert – Startseite, Preise, Kunden, Changelog. Passt in unter 2 KB.
- Vercel: Dokumentation plus Produktseiten, mit einer starken Blockquote-Zusammenfassung, die sich wie ein einzeiliger Elevator Pitch liest.
Dokumentationsseiten
- Cursor: IDE-Dokumentation mit tiefgehenden technischen Inhalten – verwendet die Abschnitte
## Reference,## Guidesund## API. - SvelteKit: Open-Source-Framework-Dokumentation, aufgeteilt in Tutorial-, Referenz- und Migrationsabschnitte – saubere redaktionelle Struktur.
KI-Produkte
- Perplexity: API-Dokumentation für das KI-Suchunternehmen – passend, dass die Engine, die llms.txt am meisten respektiert, auch eine saubere veröffentlicht.
- Anthropic Claude: Bereits oben behandelt – es lohnt sich, es speziell daraufhin noch einmal zu lesen, wie es die Modellversionierung über viele Dokumentations-URLs hinweg handhabt.
Open-Source-Frameworks
- Astro: Dokumentation für ein Static-Site-Framework – schwerpunktmäßig Integrationen, Rezepte und Tutorials, mit starken Beschreibungen bei jedem Link.
- NuxtLabs: Vue-basiertes Framework mit Multi-Produkt-Oberfläche (Nuxt, NuxtHub, Nuxt UI) – gutes Modell für die Organisation verwandter Produkte unter einer llms.txt.
Ein erwähnenswertes Muster: SEO- und Such-Tool-Unternehmen fehlen in dieser Liste auffällig. Ahrefs, Semrush, Moz, BrightEdge – keines veröffentlicht Stand Mai 2026 eine llms.txt. Das Feld, das am stärksten auf KI-Suche eingestellt sein sollte, ist das langsamste bei der Einführung der KI-Suchdatei, teils weil ihre Crawler mit KI-Crawlern konkurrieren, teils weil ihre internen SEO-Teams skeptisch gegenüber inoffiziellen Standards sind. Dev-Tooling-Unternehmen und KI-Infrastrukturunternehmen haben sich zuerst bewegt; Marketing-Tools werden folgen, wenn die Einführung zum Standard wird.
Ein ständig aktualisiertes öffentliches Register von llms.txt-Beispielen findest du in unserem llms.txt-Beispielverzeichnis (Platzhalter – wir werden im dritten Quartal 2026 ein Community-Register unter github.com/seoport/llms-txt-examples veröffentlichen). In der Zwischenzeit zeigen dir die zehn obigen Beispiele plus ein schnelles curl gegen die Domain eines beliebigen Dev-Tooling-Unternehmens 80 % der Muster, die du brauchst, um deine eigene zu veröffentlichen.
Häufige Fehler bei llms.txt
Sechs Fehler treten in etwa 70 % der fehlerhaften llms.txt-Dateien auf, die wir auditieren. Jeder davon ist ein 5-Minuten-Fix, und jeder einzelne kann den Unterschied ausmachen zwischen einer Datei, die KI-Systeme verwenden, und einer, die sie stillschweigend überspringen.
Fehler 1: Falscher Dateispeicherort. Die Datei muss sich genau unter /llms.txt im Stammverzeichnis deiner Domain befinden – nicht unter /docs/llms.txt, nicht unter /.well-known/llms.txt, nicht unter /llms.html. KI-Konsumenten rufen den kanonischen Pfad ab; alles andere ist unsichtbar. Wenn dein CMS oder Static-Site-Generator die Datei standardmäßig auf einen Nicht-Stammpfad umleitet, überschreibe dies explizit.
Fehler 2: Falscher ausgelieferter Content-Type. Die HTTP-Antwort muss Content-Type: text/plain enthalten. Viele Server liefern standardmäßig text/html für jede Datei mit der Endung .txt aus, wenn der MIME-Typ nicht explizit konfiguriert ist. Schlimmer noch: Einige CMSes fangen die Route ab und liefern eine HTML-404-Seite mit einem 200-Status. Überprüfe immer mit curl -I https://yourdomain.com/llms.txt und bestätige sowohl den Statuscode als auch den Content-Type-Header.
Fehler 3: Leere oder fehlende Beschreibung (Blockquote nach H1). Eine überraschende Anzahl von Dateien überspringt die einzeilige Blockquote-Zusammenfassung direkt nach der H1. Ohne diese haben KI-Systeme keinen übergeordneten Entitätskontext – sie sind gezwungen, den Zweck deiner Website aus der Linkliste abzuleiten, was verrauscht ist. Füge immer den Blockquote hinzu, mache ihn immer zu einem vollständigen Satz, und gestalte ihn immer informativ, nicht werblich.
Fehler 4: Verlinkung auf JS-gerenderte Seiten, die KI nicht parsen kann. llms.txt verweist auf URLs, die die KI lesen soll. Wenn diese URLs eine reine JS-Single-Page-App-Shell ausliefern (Vue, React ohne SSR, hydrierungsbasiertes Next.js), ruft die KI die URL ab, erhält ein leeres <div> und schlussfolgert, dass dort nichts ist. Entweder behebst du SSR auf den verlinkten Seiten, oder du verlinkst nur auf Seiten, die Inhalte in rohem HTML rendern.
Fehler 5: Einfügen von Paywall- oder Auth-geschützten URLs. Ein Link zu einem Paywall-Artikel oder einem eingeloggten Dashboard verschwendet das Crawl-Budget der KI und signalisiert Vernachlässigung. KI-Systeme merken sich, dass die verlinkte URL nicht erreichbar war, und können deine gesamte llms.txt abwerten. Kuratiere streng – liste nur URLs, die eine anonyme Anfrage vollständig lesen kann.
Fehler 6: Vergessen, nach Inhaltsänderungen zu aktualisieren. llms.txt ist redaktionell, was bedeutet, dass sie veraltet. Eine Datei, die eine Preisseite von 2023 auflistet, die heute einen 404-Fehler wirft, oder eine veraltete Produktseite, die anderswohin weiterleitet, signalisiert, dass die Datei nicht gepflegt wird. Plane eine vierteljährliche Überprüfung ein, die auf deinen Inhaltsaktualisierungsrhythmus abgestimmt ist – dieselbe Überprüfung, die dateModified aktualisiert und Hub-Seiten auffrischt, sollte auch die llms.txt aktualisieren.
Validieren deiner llms.txt
Die Validierung hat drei Ebenen – manuell, online und automatisiert – und sie decken leicht unterschiedliche Oberflächen ab. Führe alle drei durch, bevor du deine llms.txt als veröffentlicht betrachtest.
Manuelle Prüfung. Der 30-Sekunden-Smoke-Test: curl -I https://yourdomain.com/llms.txt und bestätige, dass du einen 200-Status und Content-Type: text/plain in den Headern siehst. Dann curl https://yourdomain.com/llms.txt und lies die gesamte Ausgabe. Deine Augen sollten sofort fehlende H1s, defektes Markdown oder versehentliches HTML-Wrapping erkennen. Etwa 80 % der fehlerhaften Dateien zeigen sich in dieser Phase.
Online-Validatoren. Der Referenzvalidator unter llmstxt.org/validator (Platzhalter – die offizielle Validator-URL kann sich ändern; überprüfe das Spezifikations-Repository auf den aktuellen kanonischen Link) prüft die strukturelle Konformität: Vorhandensein von H1, Blockquote, gültige H2-Abschnitte, Wohlgeformtheit der Markdown-Links und Link-Gesundheit (HEAD-Anfragen gegen jede URL). Er deckt Probleme auf, die ein curl-Lesen nicht erfasst – wie einen Tippfehler in einer URL, die einen 404-Fehler zurückgibt, oder eine Beschreibungszeichenfolge mit eingebetteten Zeilenumbrüchen.
Das andere Tool, das sich lohnt, ist sitetest.ai – unser eigenes Audit bündelt die llms.txt-Validierung in seiner 168-Check-Suite, plus die breitere KI-Zitierfähigkeitsbewertung, die dir sagt, ob die von dir aufgeführten URLs überhaupt zitierfähig sind (gutes Schema, schnelles Laden, zitierfähige Passagen usw.). Eine gültige llms.txt, die auf langsame JS-gerenderte Seiten verlinkt, ist eine vertane Chance; sitetest.ai erfasst beide Ebenen.
Häufige Fehler, die Validatoren erkennen. Leere Datei (Datei existiert, ist aber null Bytes – passiert bei schlechten CMS-Uploads). Falsche Kodierung (UTF-16 oder Windows-1252 anstelle von UTF-8 – Texteditoren unter Windows machen das immer noch falsch). Fehlender Blockquote (die einzeilige Zusammenfassung übersprungen). Defekte Links (in llms.txt aufgeführte URL gibt 404 oder 5xx zurück). Falscher Content-Type (Server liefert als text/html aus). HTML-Wrapping (CMS hat die Datei automatisch in eine HTML-Vorlage eingewickelt). Jeder dieser Fehler ist ein 1-Minuten-Fix, sobald er markiert ist – aber jeder einzelne neutralisiert deine Datei stillschweigend, wenn du sie ohne Überprüfung veröffentlichst.
Wird llms.txt zum Standard?
Die ehrliche Antwort im Mai 2026: Es tendiert zu Ja, ist aber noch nicht so weit. Die Signale auf beiden Seiten sind real.
Adoptionssignale, die für eine Standardisierung sprechen. Anthropic, Cloudflare, Vercel, Linear, Astro, NuxtLabs, Cursor, SvelteKit und Perplexity veröffentlichen und respektieren alle llms.txt. Die Cluster der Entwickler-Tools und KI-Infrastruktur haben sich faktisch zuerst bewegt – es sind dieselben Unternehmen, die in ihren jeweiligen Epochen die frühe Einführung von robots.txt und strukturierten Daten vorangetrieben haben. Die Integration von llms.txt in die AI Audit Beta von Cloudflare Anfang 2026 war ein bedeutender Schritt auf Plattformebene; die Reichweite von Cloudflare bedeutet, dass jedes Dateiformat, das sie unterstützen, eine infrastrukturelle Verteilung erhält.
Standardisierungsstatus. Keine formelle Standardisierung – es gibt Stand Mai 2026 keinen W3C-, IETF- oder WHATWG-Entwurf. Die Spezifikation lebt als GitHub-README, das von Jeremy Howard und Mitwirkenden auf llmstxt.org gepflegt wird. Das ist nicht ungewöhnlich: robots.txt selbst war 25 Jahre lang ein De-facto-Standard, bevor es 2022 zum RFC 9309 wurde. Nützliche Konventionen gehen formalen Spezifikationen in der Regel voraus. Das Fehlen einer W3C-Spur heute ist kein Beleg dafür, dass der Standard scheitern wird.
Die Unterstützung durch KI-Engines ist uneinheitlich. Perplexity respektiert llms.txt im Browse- und Research-Modus – es ist die klarste Unterstützung unter den großen KI-Suchmaschinen. Die Claude-Tools von Anthropic parsen die Datei und nutzen sie für ihre eigenen Produktoberflächen. Das Verhalten von ChatGPT ist inkonsistent: GPTBot fragt in unserer Crawl-Log-Analyse gelegentlich /llms.txt ab, aber OpenAI hat sich nicht dazu verpflichtet, es als formales Signal zu nutzen. Google ignoriert es in der Suche und in AI Overviews – Google hat sein eigenes Ökosystem für strukturierte Daten (JSON-LD, den Knowledge Graph, sameAs) und zeigt kein öffentliches Interesse an der Einführung eines weiteren Dateiformats. Bing Copilot ist in der Mitte – Microsoft hat es nicht ausgeschlossen, aber auch nicht befürwortet.
12–24-Monats-Prognose. Zwei Szenarien. Der optimistische Pfad: ChatGPT oder Gemini verpflichten sich innerhalb von 12–18 Monaten öffentlich dazu, llms.txt zu respektieren (wahrscheinlich unter dem Wettbewerbsdruck von Perplexity), woraufhin es für die KI-Suche zum De-facto-Standard wird, so wie robots.txt es für die klassische Suche ist. Der pessimistische Pfad: Die großen Engines verpflichten sich nie, llms.txt bleibt eine Entwicklerkonvention, die von Perplexity und dem langen Schwarm von Open-Source-LLM-Projekten übernommen wird, aber nie von den Giganten, und es verschwindet im Hintergrund wie /humans.txt. Selbst im pessimistischen Fall sind die Kosten für die heutige Implementierung (5 Minuten) so gering, dass der Erwartungswert der Wette positiv ist – Early Adopters verlieren fast nichts und gewinnen echte Optionalität.
Jenseits von llms.txt: Andere KI-Zitiersignale
llms.txt ist ein Signal unter vielen. Selbst mit einer perfekten Datei bewerten KI-Engines Zitate immer noch anhand der breiteren Zitierfaktoren. Drei Familien von Signalen sind am wichtigsten.
Schema-Markup. FAQPage, HowTo, Article (mit Autor und Herausgeber), Organization (mit sameAs) und BreadcrumbList JSON-LD sind die wirkungsvollsten Markup-Typen für KI-Zitationen. SpeakableSpecification (cssSelector, der auf #tldr- und #definition-Blöcke zeigt) teilt Sprach- und Audio-KIs mit, welche Blöcke zum Vorlesen gedacht sind. KI-Engines parsen JSON-LD als ein Signal mit hohem Vertrauen, da es maschinenlesbar und eindeutig ist – Seiten mit korrektem Schema werden 2–3x häufiger zitiert als Seiten ohne.
EEAT-Signale. Experience, Expertise, Authoritativeness und Trustworthiness – das Vier-Buchstaben-Rahmenwerk, das Google Ende 2022 formalisiert hat – lassen sich direkt auf das KI-Ranking übertragen. KI-Engines zitieren bevorzugt Quellen mit benannten Autoren, sichtbaren Qualifikationen, Inline-Zitaten zu Primärquellen, Originaldaten und Markenbekanntheit auf KI-vertrauenswürdigen Domains (Wikipedia, Reddit, GitHub, Hacker News, große Fachpublikationen). Anonymer Inhalt ohne Autorenbiografie und ohne Inline-Zitate wird aus den Kandidatenpools für Zitate herausgefiltert.
Strukturierte Überschriften und faktische Dichte. Eine klare H1 → H2 → H3-Hierarchie ermöglicht es Retrieval-Pipelines, Ihre Seite genau zu chunkieren. Seiten mit einer riesigen H1 und Textwänden ohne Zwischenüberschriften werden schlecht gechunkt und selten zitiert. Innerhalb jedes Chunks ist die faktische Dichte wichtig – 4–6 benannte Entitäten (Personen, Daten, Produkte, Zahlen, Orte) pro 100 Wörter erzielen eine höhere Punktzahl als vage Prosa. LLMs verwenden die Anzahl benannter Entitäten als schnellen Proxy für "diese Passage ist informativ".
Für das vollständige GEO-Playbook mit allen 14 Taktiken – robots.txt-Allowlists, llms.txt, Schema, Seitengeschwindigkeit, zitierbare Passagen, Markenautorität – siehe unseren GEO-Leitfaden. Für die 18 Ranking-Faktoren, die KI-Suchmaschinen bei der Zusammenstellung von Antworten gewichten, siehe AI Search Engine Optimization. Für die ältere grundlegende Einordnung – was als KI-SEO-Audit gilt und wie es sich von klassischen Audits unterscheidet – siehe Was ist ein KI-SEO-Audit. llms.txt ist die Gateway-Datei; diese Leitfäden decken den Rest der Oberfläche ab.
Frequently Asked Questions
Was ist llms.txt?
Wo platziere ich llms.txt auf meiner Website?
Verwendet Google llms.txt?
Respektiert ChatGPT llms.txt?
Ist llms.txt dasselbe wie robots.txt?
Wie erstelle ich llms.txt?
Was ist llms-full.txt?
Sollten kleine Websites llms.txt haben?
Kann ich KI-Crawler mit llms.txt blockieren?
Hilft llms.txt bei SEO?
Was ist der Unterschied zwischen llms.txt und sitemap.xml?
Wie oft sollte ich llms.txt aktualisieren?
Gibt es llms.txt-Validatoren?
Wie sieht die Zukunft von llms.txt aus?
Fazit + CTA
llms.txt ist das günstigste Experiment zur Sichtbarkeit in der KI-Suche, das Sie dieses Jahr durchführen werden. Fünf Minuten Bearbeitung, eine kuratierte Liste mit 10–30 URLs, ein Content-Type: text/plain-Header, und schon sind Sie startklar. Der Nachteil ist gleich null – die Datei schadet SEO nicht, verlangsamt Ihre Website nicht und zerbricht nichts. Der Vorteil ist heute real auf Perplexity- und Anthropic-Plattformen und wird in den nächsten 12–18 Monaten, da der Anpassungsdruck steigt, zunehmend auch bei ChatGPT und Gemini wahrscheinlich.
Der tiefere Punkt: llms.txt ist eine von drei oder vier KI-Suchdateien, die es 2023 nicht gab und die bis 2027 zum Standard gehören werden. Websites, die sie frühzeitig ausliefern – zusammen mit der Arbeit an Schema, Seitengeschwindigkeit und zitierfähigen Passagen, die in unserem GEO-Leitfaden behandelt wird – bauen ihren KI-Sichtbarkeitsvorteil Quartal für Quartal aus. Websites, die warten, bis sich der Standard formalisiert hat, werden sechs bis zwölf Monate hinterherhinken, wenn ihre Konkurrenten bereits konsistent in den großen KI-Engines zitiert werden. Behandeln Sie llms.txt als eine kostenlose Option auf die KI-Suchzukunft. Kaufen Sie die Option, halten Sie sie und überprüfen Sie den Rest Ihres KI-Sichtbarkeits-Stapels.
Um Ihre aktuelle llms.txt zu prüfen – oder eine von Ihrer Website zu generieren, falls Sie noch keine haben – führen Sie einen kostenlosen Scan auf sitetest.ai durch. Der Audit prüft das Vorhandensein von llms.txt, das Format, die Linkgesundheit und den Content-Type sowie die breiteren 168 KI-Zitierfaktoren, die bestimmen, ob die von Ihnen aufgeführten URLs tatsächlich zitiert werden. Sechzig Sekunden, keine Anmeldung, entwicklerfreundliche Ausgabe.
Methodik
Dieser Leitfaden stützt sich auf den ursprünglichen llms.txt-Vorschlag, der von Jeremy Howard bei Answer.AI im September 2024 veröffentlicht wurde, die Spezifikation, die auf llmstxt.org gepflegt wird, öffentliche Common-Crawl-Scans von /llms.txt-Dateien im offenen Web und interne Auditdaten von sitetest.ai aus der 168-Check-Suite, die monatlich auf Tausenden von Websites durchgeführt wird. Die Schätzungen zur Verbreitung sind ungefähr – es gibt kein zentrales Register von Websites, die llms.txt veröffentlichen, daher wird die Zahl von über 1.200 aus Common Crawl plus gemeinschaftlich gepflegten Listen abgeleitet und sollte als Richtungsindikator und nicht als genaue Zählung betrachtet werden. Die Respektniveaus der KI-Engines (Perplexity ja, Anthropic ja, ChatGPT inkonsistent, Google nein) spiegeln öffentliche Aussagen und unsere eigenen Crawl-Log-Analysen Stand Mai 2026 wider und können sich mit der Reifung des Standards verschieben. Wir aktualisieren diesen Leitfaden vierteljährlich – das nächste geplante Update ist August 2026, und dateModified spiegelt die letzte Überarbeitung wider.
Related reading
AI-Suchmaschinenoptimierung: Vollständiger Leitfaden für Rankings 2026
Komplette Anleitung zur AI-Suchmaschinenoptimierung. Ranken in ChatGPT, Perplexity, Gemini, AI Overviews. 18 Ranking-Faktoren + kostenlose Audit-Checkliste.
25 Min. LesezeitGEOKI-Sichtbarkeit: So verfolgen Sie, ob ChatGPT & Perplexity Ihre Marke erwähnen
Erfahren Sie, wie Sie Ihre KI-Sichtbarkeit messen und verbessern – verfolgen Sie Markenerwähnungen in ChatGPT, Perplexity und AI Overviews. 8 Tools im Vergleich + kostenloser Check.
20 Min. LesezeitGEOWas ist Generative Engine Optimization (GEO)? Der ultimative Leitfaden 2026
Meistern Sie Generative Engine Optimization (GEO) – die Praxis, in ChatGPT, Perplexity & AI Overviews zu ranken. 14 Taktiken + kostenloser Audit.
22 Min. Lesezeit