Site Reader
devКонвейер контекстуализации сайта в Markdown для LLM и RAG.
Site Reader — это сервис контекстуализации веб‑данных для LLM, который превращает произвольный сайт в структурированный, семантически очищенный Markdown‑контекст, готовый для индексации в векторное хранилище или прямой подачи в языковую модель.
Вместо ручного парсинга и предобработки работает конвейер специализированных агентов:
fetch_url— сбор данных сайтаclean_html— удаление навигации, рекламы, скриптов и визуального шумаextract_semantics— выделение заголовков, мета‑данных, иерархии контента и смысловых блоковchunk_md— семантическая разбивка на логические сегменты с сохранением перекрёстных ссылокenrich_metadata— добавление URL, даты обновления, категории и тегов для точного поискаvalidate_output— проверка целостности, читаемости и соответствия MD‑стандартам
Сервис нужен, чтобы ИИ‑агенты, чат‑боты и RAG‑системы работали с актуальной информацией вашего сайта без галлюцинаций и устаревших данных, и решает ключевые боли интеграции веб‑контента: потерю структуры при парсинге, шум в исходном HTML, сложность поддержки актуальности при обновлениях сайта, отсутствие единого формата для пайплайнов и ручную рутину при подготовке данных для LLM.
Стэк
- Backend
- Python
- LangGraph
- Crawler
- Qdrant (Vector Storage)