Skip to content

ikanam-ai/RanepaData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 

Repository files navigation

Проект: RanepaData

Описание датасета

Проект направлен на создание структурированной базы данных нормативных документов РАНХиГС для последующего использования в чат-боте. Основные источники данных включают:

  • Официальный сайт РАНХиГС, в частности раздел нормативной документации, содержащий документы в форматах HTML, PDF и DOCX
  • Дополнительные источники: страницы Википедии об академии и открытые данные Минобрнауки

Датасет будет содержать текстовые фрагменты (чанки) из документов, разбитые на логические блоки по 1-3 абзаца или 200+ символов. Каждая запись включает:

  • Идентификаторы документа и чанка
  • Заголовок и текст фрагмента
  • Источник и тип документа

Пример записи:

| 001 | 1 | Положение о курсовых работах | "Требования к оформлению: шрифт Times New Roman..." | https://www.ranepa.ru/... | Нормативный акт |

Задание

Основная задача - преобразовать существующие документы РАНХиГС в структурированный формат, пригодный для использования в RAG-системах. Для этого необходимо:

  1. Сбор данных (можно использовать готовые выгрузки):

    • Конвертация PDF/DOCX в текст с помощью PyPDF2/python-docx
    • Извлечение структуры документов (заголовки, разделы)
  2. Предобработка и чанкинг:

    • Очистка текста от спецсимволов и нумерации
    • Разделение на смысловые фрагменты с помощью, например, RecursiveCharacterTextSplitter из LangChain
    • Сохранение контекста при разбиении (перекрытие чанков 50 символов)
  3. EDA-анализ:

    • Анализ распределения типов документов
    • Проверка качества чанков (длина, полнота)

Результаты и ресурсы

На выходе ожидается:

  1. Структурированный датасет в формате CSV/Parquet
  2. Отчет с анализом данных (Jupyter-ноутбук)
  3. Дашборд в виде Streamlit или другого

Презентация проекта

Презентация с основной инфой

Продолжительность: 10-15 минут

Проект создает основу для будущей RAG-системы, фокусируясь на качестве структурирования данных, а не на разработке парсера.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published