Este projeto aplica técnicas de tratamento de dados (data wrangling) para reunir, limpar e analisar dois conjuntos de dados — um sobre filmes e séries da Netflix e outro sobre o PIB mundial, obtido por meio da API do Banco Mundial.
O objetivo principal é investigar a relação entre o poder econômico de um país (PIB) e o nível de produção audiovisual presente na plataforma.
Neste projeto, apliquei as habilidades adquiridas em tratamento de dados para:
- Coletar e extrair dados de diferentes fontes (download manual e API).
- Avaliar e limpar os dados de forma programática.
- Armazenar e combinar diferentes bases.
- Visualizar e interpretar correlações com Python.
- Tipo: Arquivo CSV (baixado manualmente do Kaggle)
- Descrição: Contém informações sobre filmes e séries disponíveis na Netflix.
- Principais variáveis:
type: Filme ou Sérietitle: Título da produçãodirector: Nome do diretorcast: Lista de atorescountry: País de origemrelease_year: Ano de lançamentorating: Classificação indicativaduration: Duração (em minutos ou temporadas)
📈 Este conjunto permite analisar padrões de produção audiovisual por país.
- Tipo: Dados em JSON obtidos via API do Banco Mundial
- Método: Extração automatizada por requisição HTTP.
- Principais variáveis:
country: Nome do paísyear: Ano de observaçãogdp (US$): PIB total em dólares correntes
🌍 Este conjunto fornece o contexto econômico necessário para comparação com os dados da Netflix.
Existe relação entre o PIB de um país e a quantidade de produções da Netflix associadas a ele?
-
Coleta de Dados
- Dados da Netflix baixados manualmente do Kaggle.
- Dados de PIB obtidos via API do Banco Mundial com
requests.
-
Avaliação dos Dados
- Verificação de completude, consistência e valores ausentes.
- Garantia de que cada base possuía mais de 500 observações e pelo menos 2 variáveis.
-
Limpeza dos Dados
- Padronização de nomes de colunas e países.
- Remoção de valores nulos e registros irrelevantes.
-
Junção dos Dados
- Combinação das bases por país.
- Contagem de títulos da Netflix por país e cruzamento com o PIB.
-
Análise e Visualização
- Cálculo de correlação entre PIB e número de títulos.
- Criação de heatmaps com a biblioteca Seaborn.
| Categoria | Bibliotecas / Ferramentas |
|---|---|
| Manipulação de dados | pandas, numpy |
| Visualização de dados | matplotlib, seaborn |
| Coleta de dados | requests, BeautifulSoup |
| Modelagem / Machine Learning (opcional) | scikit-learn |
| Integração com banco de dados | SQLAlchemy |
| Processamento de imagens | Pillow |
# 1. Instale as dependências
pip install numpy pandas matplotlib requests seaborn scikit-learn SQLAlchemy beautifulsoup4 pillow openpyxl
# 2. Execute o notebook
jupyter notebook data_wrangling_project.ipynb