🌐

Site Reader

dev

Конвейер контекстуализации сайта в Markdown для LLM и RAG.

Site Reader — это сервис контекстуализации веб‑данных для LLM, который превращает произвольный сайт в структурированный, семантически очищенный Markdown‑контекст, готовый для индексации в векторное хранилище или прямой подачи в языковую модель.

Вместо ручного парсинга и предобработки работает конвейер специализированных агентов:

fetch_url — сбор данных сайта
clean_html — удаление навигации, рекламы, скриптов и визуального шума
extract_semantics — выделение заголовков, мета‑данных, иерархии контента и смысловых блоков
chunk_md — семантическая разбивка на логические сегменты с сохранением перекрёстных ссылок
enrich_metadata — добавление URL, даты обновления, категории и тегов для точного поиска
validate_output — проверка целостности, читаемости и соответствия MD‑стандартам

Сервис нужен, чтобы ИИ‑агенты, чат‑боты и RAG‑системы работали с актуальной информацией вашего сайта без галлюцинаций и устаревших данных, и решает ключевые боли интеграции веб‑контента: потерю структуры при парсинге, шум в исходном HTML, сложность поддержки актуальности при обновлениях сайта, отсутствие единого формата для пайплайнов и ручную рутину при подготовке данных для LLM.

Стэк

Backend
- Python
- LangGraph
- Crawler
- Qdrant (Vector Storage)