문서 파일을 업로드하면 OCR 및 텍스트 추출을 통해 원문 내용을 저장하고,
LLM을 활용하여 문서 요약과 카테고리 분류 결과를 제공하는 프로젝트입니다.
현재 Organization 내에서 관리될 주요 레포지토리입니다.
| Repository | Description | Status |
|---|---|---|
| project-sub | 사용자 화면 및 파일 업로드 UI / FastAPI 기반 API 서버 | 완료 |
| document | 프로젝트 발표 자료 pdf 및 시연 영상 | 완료 |
아래 이미지는 전체 서비스 흐름을 나타냅니다.
사용자는 PDF, DOCX, HWP 등의 문서 파일을 업로드할 수 있습니다.
업로드된 파일에서 원문 텍스트를 추출합니다.
- 이미지 기반 문서: OCR 처리
- 텍스트 기반 문서: PDF, DOCX, HWP 등에서 텍스트 추출
- 텍스트 추출 : 간략히, 기본, 상세히 타입을 통해 요약 길이에 맞춰 추출
추출된 원본 텍스트는 DB에 저장됩니다.
저장된 텍스트를 기반으로 LLM이 문서를 분석합니다.
- 문서 요약
요약 결과를 DB에 저장합니다.
사용자는 화면에서 문서 요약 결과와 카테고리 정보를 확인할 수 있습니다.
필요한 경우 요약 결과를 다운로드할 수 있습니다.
User
└─ File Upload
└─ OCR / Text Extraction
└─ Save Original Text
└─ LLM Summary & Classification
└─ Save Result
└─ Display Result
└─ Download Result File