Criado para a competição do Kaggle sobre a previsão de preço das casas na cidade de Ames, Iowa (Estados Unidos)
- Nesta fase, realizamos uma análise inicial dos dados sem aplicar tratamentos ou engenharia de dados, visando avaliar o desempenho dos modelos básicos.
- Optamos por substituímos todos os valores vazios por -1 e eliminamos todas as colunas de texto
- Utilizamos três algoritmos de regressão: Regressão Linear, Árvore de Regressão e KNeighborsRegressor e avaliamos os resultados utilizando o erro médio absoluto e o erro quadrático médio, dando preferência ao segundo pois era o critério usando na competição
- O score público retornado pelo Kaggle foi: 0,25476
- Focamos na limpeza dos dados, identificando e tratando valores vazios e informações faltantes para melhorar a qualidade dos modelos.
- Em algumas colunas, valores vazios representavam ausência dos atributos na casa, como por exemplo o valor vazio na coluna de piscina significava que aquele imóvel não possuia piscina. Nesse caso o vazio era uma informação
- Em outros casos onde a informação realmente estava ausente, usamos tratamentos como substituir pela média da coluna, utilizar uma agregação para encontrar a melhor média para o atributo, utilizar a moda, entre outros tratamentos
- O score público retornado pelo Kaggle foi: 0,1812
- Após a limpeza dos dados, exploramos a correlação entre as variáveis numéricas e os valores mais frequentes das variáveis de texto
- Para tratar colunas do tipo texto, começamos eliminando as colunas com muitos valores iguais e depois utilizamos lambda function e criamos nossas próprias funções para aplicar e fazer o tratamento
- Implementamos técnicas como OneHotEncoder e OrdinalEncoder para o tratamento de variáveis categóricas, e analisamos detalhadamente as colunas relacionadas à garagem.
- Os resultados variaram entre 0,18433 e 0,45474 no score público do Kaggle, indicando áreas para refinamento nas próximas etapas do projeto.
Esse projeto está sob licença. Veja o arquivo LICENÇA para mais detalhes.