Проект: RanepaData

Описание датасета

Проект направлен на создание структурированной базы данных нормативных документов РАНХиГС для последующего использования в чат-боте. Основные источники данных включают:

Официальный сайт РАНХиГС, в частности раздел нормативной документации, содержащий документы в форматах HTML, PDF и DOCX
Дополнительные источники: страницы Википедии об академии и открытые данные Минобрнауки

Датасет будет содержать текстовые фрагменты (чанки) из документов, разбитые на логические блоки по 1-3 абзаца или 200+ символов. Каждая запись включает:

Идентификаторы документа и чанка
Заголовок и текст фрагмента
Источник и тип документа

Пример записи:

| 001 | 1 | Положение о курсовых работах | "Требования к оформлению: шрифт Times New Roman..." | https://www.ranepa.ru/... | Нормативный акт |

Задание

Основная задача - преобразовать существующие документы РАНХиГС в структурированный формат, пригодный для использования в RAG-системах. Для этого необходимо:

Сбор данных (можно использовать готовые выгрузки):
- Конвертация PDF/DOCX в текст с помощью PyPDF2/python-docx
- Извлечение структуры документов (заголовки, разделы)
Предобработка и чанкинг:
- Очистка текста от спецсимволов и нумерации
- Разделение на смысловые фрагменты с помощью, например, RecursiveCharacterTextSplitter из LangChain
- Сохранение контекста при разбиении (перекрытие чанков 50 символов)
EDA-анализ:
- Анализ распределения типов документов
- Проверка качества чанков (длина, полнота)

Результаты и ресурсы

На выходе ожидается:

Структурированный датасет в формате CSV/Parquet
Отчет с анализом данных (Jupyter-ноутбук)
Дашборд в виде Streamlit или другого

Презентация проекта

Презентация с основной инфой

Продолжительность: 10-15 минут

Проект создает основу для будущей RAG-системы, фокусируясь на качестве структурирования данных, а не на разработке парсера.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Проект: RanepaData

Описание датасета

Задание

Результаты и ресурсы

Презентация проекта

About

Uh oh!

Releases

Packages

ikanam-ai/RanepaData

Folders and files

Latest commit

History

Repository files navigation

Проект: RanepaData

Описание датасета

Задание

Результаты и ресурсы

Презентация проекта

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages