← Назад к проектам
🌐

Site Reader

dev

Конвейер контекстуализации сайта в Markdown для LLM и RAG.

Site Reader — это сервис контекстуализации веб‑данных для LLM, который превращает произвольный сайт в структурированный, семантически очищенный Markdown‑контекст, готовый для индексации в векторное хранилище или прямой подачи в языковую модель.

Вместо ручного парсинга и предобработки работает конвейер специализированных агентов:

  • fetch_url — сбор данных сайта
  • clean_html — удаление навигации, рекламы, скриптов и визуального шума
  • extract_semantics — выделение заголовков, мета‑данных, иерархии контента и смысловых блоков
  • chunk_md — семантическая разбивка на логические сегменты с сохранением перекрёстных ссылок
  • enrich_metadata — добавление URL, даты обновления, категории и тегов для точного поиска
  • validate_output — проверка целостности, читаемости и соответствия MD‑стандартам

Сервис нужен, чтобы ИИ‑агенты, чат‑боты и RAG‑системы работали с актуальной информацией вашего сайта без галлюцинаций и устаревших данных, и решает ключевые боли интеграции веб‑контента: потерю структуры при парсинге, шум в исходном HTML, сложность поддержки актуальности при обновлениях сайта, отсутствие единого формата для пайплайнов и ручную рутину при подготовке данных для LLM.

Стэк

  • Backend
    • Python
    • LangGraph
    • Crawler
    • Qdrant (Vector Storage)