📂 DataPub – Sistema de Análise de Documentos Públicos

📌 Visão Geral

DataPub é uma plataforma para coleta, processamento, estruturação e análise de documentos públicos brasileiros, incluindo Diários Oficiais, contratos, portarias, atos administrativos e demais publicações governamentais.

Nosso objetivo é tornar mais acessíveis e analisáveis informações que estão dispersas em portais públicos, promovendo transparência, accountability e inteligência institucional.

🧭 Por que isso importa? Documentos públicos revelam o funcionamento real do Estado. Ao reunir e estruturar essas fontes:

Permitimos o monitoramento da saúde política e institucional do país

Fortalecemos o controle social e o jornalismo investigativo

Geramos dados úteis para pesquisadores, ONGs, órgãos de controle e a sociedade civil organizada

Bucket Público

Os dados deste projeto estão disponíveis em um bucket da AWS com acesso público. Isso permite que qualquer pessoa acesse os arquivos diretamente, sem necessidade de autenticação.

Você pode acessar os dados por meio do seguinte endpoint (via CloudFront):

🔗 https://d23ollh9dwoi10.cloudfront.net/

Nota: Certifique-se de usar URLs completas e corretas ao referenciar arquivos específicos no bucket. Exemplo:
https://d23ollh9dwoi10.cloudfront.net/pasta/arquivo.json

🗂️ Estrutura do Projeto

/datapub
│
├── src/                  
│   └── databub/
│       ├── __init__.py
│       ├── /entities
│       │   ├── /al_go
│       │   │   ├── extractor.py
│       │   │   ├── processing.py
│       │   │   ├── models.py
│       │   │   └── config.yaml
│       │   ├── /al_ms
│       │   │   └── ...
│       ├── /shared
│       │   ├── /utils  
│       │   ├── /processing
│       │   ├── /models
│       │   └── /config
│       ├── config.py
│       ├── cli.py
│       └── factory.py
│
├── /storage
│   ├── /raw               # Documentos públicos originais (PDF, HTML, etc.)
│   ├── /processed         # Textos extraídos, limpos e enriquecidos
│   └── /structured        # Dados estruturados (JSON, CSV, banco de dados)
│
├── tests/                 
│   ├── __init__.py
│   ├── test_diario_alpa.py
│   └── test_relatorios_gestao_alpa.py
│
├── docs/
│
├── .gitignore
├── LICENSE
├── pyproject.toml           # Configurações do projeto (PEP 518)
├── setup.cfg                # Configurações do setuptools, lint, pytest, etc
├── setup.py                 # Script de instalação
├── requirements.txt         # Dependências
└── README.rst               # Documentação

⚙️ Como Executar

Instale as dependências:
```
pip install -e . 
```

Execute o coletor de arquivos:

extractor al_pa --start 2021-01-1 --end 2025-06-1

Execute o pipeline de processamento:

// TODO

🔍 Casos de Uso

Monitoramento de nomeações, exonerações e licitações
Extração de padrões temáticos de portarias e contratos
Análise de linguagem em atos administrativos
Detecção de eventos políticos importantes em diferentes esferas (municipal, estadual, federal)

🤝 Contribuições

Contribuições são muito bem-vindas! Abra uma issue, envie um pull request ou compartilhe fontes/documentos de interesse público que deseja ver monitorados aqui.

📄 Licença

Este projeto é de código aberto sob a MIT License.

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
.github		.github
docker/postgres		docker/postgres
docs		docs
src/datapub		src/datapub
storage		storage
tests		tests
.coveragerc		.coveragerc
.gitignore		.gitignore
.readthedocs.yml		.readthedocs.yml
AUTHORS.rst		AUTHORS.rst
CHANGELOG.rst		CHANGELOG.rst
CONTRIBUTING.rst		CONTRIBUTING.rst
LICENSE.txt		LICENSE.txt
README.md		README.md
README.rst		README.rst
database.sql		database.sql
docker-compose.yml		docker-compose.yml
local.txt		local.txt
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py
sources.json		sources.json
tox.ini		tox.ini

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Repository files navigation

📂 DataPub – Sistema de Análise de Documentos Públicos

📌 Visão Geral

Bucket Público

🗂️ Estrutura do Projeto

⚙️ Como Executar

🔍 Casos de Uso

🤝 Contribuições

📄 Licença

About

Uh oh!

Releases

Sponsor this project

Uh oh!

Packages

Languages

Uh oh!

License

dadoaberto/datapub

Folders and files

Latest commit

History

Repository files navigation

📂 DataPub – Sistema de Análise de Documentos Públicos

📌 Visão Geral

Bucket Público

🗂️ Estrutura do Projeto

⚙️ Como Executar

🔍 Casos de Uso

🤝 Contribuições

📄 Licença

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Sponsor this project

Uh oh!

Packages 0

Languages

Packages