Skip to content

📂 DataPub – Sistema de Análise de Documentos Públicos

License

Notifications You must be signed in to change notification settings

dadoaberto/datapub

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📂 DataPub – Sistema de Análise de Documentos Públicos

📌 Visão Geral

DataPub é uma plataforma para coleta, processamento, estruturação e análise de documentos públicos brasileiros, incluindo Diários Oficiais, contratos, portarias, atos administrativos e demais publicações governamentais.

Nosso objetivo é tornar mais acessíveis e analisáveis informações que estão dispersas em portais públicos, promovendo transparência, accountability e inteligência institucional.

đź§­ Por que isso importa? Documentos pĂşblicos revelam o funcionamento real do Estado. Ao reunir e estruturar essas fontes:

  • Permitimos o monitoramento da saĂşde polĂ­tica e institucional do paĂ­s
  • Fortalecemos o controle social e o jornalismo investigativo
  • Geramos dados Ăşteis para pesquisadores, ONGs, ĂłrgĂŁos de controle e a sociedade civil organizada

Bucket PĂşblico

Os dados deste projeto estão disponíveis em um bucket da AWS com acesso público. Isso permite que qualquer pessoa acesse os arquivos diretamente, sem necessidade de autenticação.

VocĂŞ pode acessar os dados por meio do seguinte endpoint (via CloudFront):

đź”— https://d23ollh9dwoi10.cloudfront.net/

Nota: Certifique-se de usar URLs completas e corretas ao referenciar arquivos especĂ­ficos no bucket. Exemplo:

https://d23ollh9dwoi10.cloudfront.net/pasta/arquivo.json

🗂️ Estrutura do Projeto

/datapub
│
├── src/                  
│   └── databub/
│       ├── __init__.py
│       ├── /entities
│       │   ├── /al_go
│       │   │   ├── extractor.py
│       │   │   ├── processing.py
│       │   │   ├── models.py
│       │   │   └── config.yaml
│       │   ├── /al_ms
│       │   │   └── ...
│       ├── /shared
│       │   ├── /utils  
│       │   ├── /processing
│       │   ├── /models
│       │   └── /config
│       ├── config.py
│       ├── cli.py
│       └── factory.py
│
├── /storage
│   ├── /raw               # Documentos públicos originais (PDF, HTML, etc.)
│   ├── /processed         # Textos extraídos, limpos e enriquecidos
│   └── /structured        # Dados estruturados (JSON, CSV, banco de dados)
│
├── tests/                 
│   ├── __init__.py
│   ├── test_diario_alpa.py
│   └── test_relatorios_gestao_alpa.py
│
├── docs/
│
├── .gitignore
├── LICENSE
├── pyproject.toml           # Configurações do projeto (PEP 518)
├── setup.cfg                # Configurações do setuptools, lint, pytest, etc
├── setup.py                 # Script de instalação
├── requirements.txt         # Dependências
└── README.rst               # Documentação


⚙️ Como Executar

  1. Instale as dependĂŞncias:

    pip install -e . 
  2. Execute o coletor de arquivos:

    extractor al_pa --start 2021-01-1 --end 2025-06-1
  3. Execute o pipeline de processamento:

    // TODO


🔍 Casos de Uso

  • Monitoramento de nomeações, exonerações e licitações
  • Extração de padrões temáticos de portarias e contratos
  • Análise de linguagem em atos administrativos
  • Detecção de eventos polĂ­ticos importantes em diferentes esferas (municipal, estadual, federal)

🤝 Contribuições

Contribuições são muito bem-vindas! Abra uma issue, envie um pull request ou compartilhe fontes/documentos de interesse público que deseja ver monitorados aqui.


📄 Licença

Este projeto Ă© de cĂłdigo aberto sob a MIT License.


About

📂 DataPub – Sistema de Análise de Documentos Públicos

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

 

Packages

No packages published