Проект направлен на создание структурированной базы данных нормативных документов РАНХиГС для последующего использования в чат-боте. Основные источники данных включают:
- Официальный сайт РАНХиГС, в частности раздел нормативной документации, содержащий документы в форматах HTML, PDF и DOCX
- Дополнительные источники: страницы Википедии об академии и открытые данные Минобрнауки
Датасет будет содержать текстовые фрагменты (чанки) из документов, разбитые на логические блоки по 1-3 абзаца или 200+ символов. Каждая запись включает:
- Идентификаторы документа и чанка
- Заголовок и текст фрагмента
- Источник и тип документа
Пример записи:
| 001 | 1 | Положение о курсовых работах | "Требования к оформлению: шрифт Times New Roman..." | https://www.ranepa.ru/... | Нормативный акт |
Основная задача - преобразовать существующие документы РАНХиГС в структурированный формат, пригодный для использования в RAG-системах. Для этого необходимо:
-
Сбор данных (можно использовать готовые выгрузки):
- Конвертация PDF/DOCX в текст с помощью
PyPDF2/python-docx - Извлечение структуры документов (заголовки, разделы)
- Конвертация PDF/DOCX в текст с помощью
-
Предобработка и чанкинг:
- Очистка текста от спецсимволов и нумерации
- Разделение на смысловые фрагменты с помощью, например,
RecursiveCharacterTextSplitterиз LangChain - Сохранение контекста при разбиении (перекрытие чанков 50 символов)
-
EDA-анализ:
- Анализ распределения типов документов
- Проверка качества чанков (длина, полнота)
На выходе ожидается:
- Структурированный датасет в формате CSV/Parquet
- Отчет с анализом данных (Jupyter-ноутбук)
- Дашборд в виде Streamlit или другого
Презентация с основной инфой
Продолжительность: 10-15 минут
Проект создает основу для будущей RAG-системы, фокусируясь на качестве структурирования данных, а не на разработке парсера.