Herramienta offline en Python para extraer texto y generar resúmenes sin IA generativa ni APIs externas. Usa técnicas clásicas de procesamiento de texto: TF-IDF, TextRank, MMR, extracción de palabras clave, heurísticas por secciones y análisis léxico de tono.
- Word OpenXML:
.docx,.docm,.dotx - Word legado:
.doc,.dotusando LibreOffice o antiword si están instalados - Texto:
.txt,.md,.rtf,.html,.htm - Lectura:
.pdf,.epub
python -m venv .venv
# Windows
.venv\Scripts\activate
# macOS/Linux
source .venv/bin/activate
pip install -r requirements.txtOCR de PDF escaneado: - Instala Tesseract OCR.
- Instala Poppler para que
pdf2imagepueda convertir páginas PDF a imágenes.
Word .doc / .dot legado:
- Recomendado: instala LibreOffice y asegúrate de que el comando
sofficeolibreofficeesté en el PATH. - Alternativa Linux/macOS:
antiword.
python resumidor_pro.pyEl menú permite elegir archivo(s), modo de resumen, OCR opcional, formato de salida y carpeta destino.
Resumen por tiempo disponible:
python resumidor_pro.py documento.pdf --mode time --minutes 5 --ocr --format mdResumen por cantidad de palabras:
python resumidor_pro.py informe.docx --mode words --words 450Resumen para principiante:
python resumidor_pro.py informe.pdf --mode persona --persona principiante --words 400Resumen por ángulo de interés:
python resumidor_pro.py contrato.pdf --mode query --query "cláusulas de rescisión y multas" --words 500Comparativo de varios archivos:
python resumidor_pro.py fuente1.pdf fuente2.epub fuente3.docx --mode comparative --words 800Informe completo:
python resumidor_pro.py documento.md --mode full --format htmltime: ajusta extensión por minutos y palabras por minuto.words: resumen por cantidad objetivo de palabras.persona: adapta selección y estructura paraprincipiante,neutraloexperto.hierarchical: titular, 3 puntos clave, resumen ejecutivo y resumen por secciones.query: enfoque por tema, cláusula, pregunta o ángulo de interés.comparative: síntesis comparativa de varios documentos, puntos comunes, aportes únicos y posibles contradicciones.sentiment: tono y sentimiento con léxico local.faq: preguntas frecuentes generadas desde palabras clave.simple: explicación simple basada en frases claras del documento.concept: mapa conceptual Mermaid y tabla de términos.full: informe con varios módulos combinados.
Este proyecto no usa IA generativa. Por eso no "entiende" como un LLM ni redacta paráfrasis profundas. En su lugar, selecciona, ordena y estructura las mejores frases del documento. Las contradicciones, el tono y las palabras clave son heurísticas: útiles para exploración, no una verificación jurídica, científica o contable definitiva.