DataPub é uma plataforma para coleta, processamento, estruturação e análise de documentos públicos brasileiros, incluindo Diários Oficiais, contratos, portarias, atos administrativos e demais publicações governamentais.
Nosso objetivo Ă© tornar mais acessĂveis e analisáveis informações que estĂŁo dispersas em portais pĂşblicos, promovendo transparĂŞncia, accountability e inteligĂŞncia institucional.
đź§ Por que isso importa? Documentos pĂşblicos revelam o funcionamento real do Estado. Ao reunir e estruturar essas fontes:
- Permitimos o monitoramento da saĂşde polĂtica e institucional do paĂs
- Fortalecemos o controle social e o jornalismo investigativo
- Geramos dados Ăşteis para pesquisadores, ONGs, ĂłrgĂŁos de controle e a sociedade civil organizada
Os dados deste projeto estĂŁo disponĂveis em um bucket da AWS com acesso pĂşblico. Isso permite que qualquer pessoa acesse os arquivos diretamente, sem necessidade de autenticação.
VocĂŞ pode acessar os dados por meio do seguinte endpoint (via CloudFront):
đź”— https://d23ollh9dwoi10.cloudfront.net/
Nota: Certifique-se de usar URLs completas e corretas ao referenciar arquivos especĂficos no bucket. Exemplo:
https://d23ollh9dwoi10.cloudfront.net/pasta/arquivo.json
/datapub
│
├── src/
│ └── databub/
│ ├── __init__.py
│ ├── /entities
│ │ ├── /al_go
│ │ │ ├── extractor.py
│ │ │ ├── processing.py
│ │ │ ├── models.py
│ │ │ └── config.yaml
│ │ ├── /al_ms
│ │ │ └── ...
│ ├── /shared
│ │ ├── /utils
│ │ ├── /processing
│ │ ├── /models
│ │ └── /config
│ ├── config.py
│ ├── cli.py
│ └── factory.py
│
├── /storage
│ ├── /raw # Documentos públicos originais (PDF, HTML, etc.)
│ ├── /processed # Textos extraĂdos, limpos e enriquecidos
│ └── /structured # Dados estruturados (JSON, CSV, banco de dados)
│
├── tests/
│ ├── __init__.py
│ ├── test_diario_alpa.py
│ └── test_relatorios_gestao_alpa.py
│
├── docs/
│
├── .gitignore
├── LICENSE
├── pyproject.toml # Configurações do projeto (PEP 518)
├── setup.cfg # Configurações do setuptools, lint, pytest, etc
├── setup.py # Script de instalação
├── requirements.txt # Dependências
└── README.rst # Documentação
-
Instale as dependĂŞncias:
pip install -e . -
Execute o coletor de arquivos:
extractor al_pa --start 2021-01-1 --end 2025-06-1
-
Execute o pipeline de processamento:
// TODO
- Monitoramento de nomeações, exonerações e licitações
- Extração de padrões temáticos de portarias e contratos
- Análise de linguagem em atos administrativos
- Detecção de eventos polĂticos importantes em diferentes esferas (municipal, estadual, federal)
Contribuições são muito bem-vindas! Abra uma issue, envie um pull request ou compartilhe fontes/documentos de interesse público que deseja ver monitorados aqui.
Este projeto Ă© de cĂłdigo aberto sob a MIT License.