20 Февраль 2025 - Время чтения: ~1 минут
LLMs.txt - это предложенный веб-стандарт, созданный для того, чтобы сделать содержимое веб-сайтов более доступным и полезным для больших языковых моделей (LLM). Это текстовый файл в формате markdown, который размещается в корневой директории сайта (например, /llms.txt) и содержит структурированное, краткое описание ключевой информации о сайте. Основная цель - помочь LLM эффективно обрабатывать и понимать контент сайта, минуя сложные элементы вроде HTML, JavaScript или другие структуры, предназначенные в первую очередь для людей.
Идея принадлежит Джереми Ховарду из Answer.AI. Она возникла из-за ограничений, с которыми сталкиваются LLM при работе с веб-сайтами: небольшие контекстные окна не позволяют обработать весь сайт целиком, а извлечение нужной информации из перегруженных страниц затруднено. Файл llms.txt обычно включает:
В отличие от robots.txt (регулирует доступ краулеров) или sitemap.xml (перечисляет страницы для поисковиков), llms.txt создан специально для языковых моделей, предоставляя им адаптированный контент. Его внедрение зависит от желания владельцев сайтов, и он может использоваться для разных целей: например, для краткого описания документации ПО, структуры компании или содержания личного сайта. Уже появились инструменты для генерации и анализа таких файлов, а некоторые организации, например Anthropic, начали применять этот формат для своих материалов.