top of page
  • Foto do escritorRoger Sampaio

Eu sei quanto você gasta, diz a empresa de Planos de Saúde.


Fala meus guerreiros. Como estão vocês?

Espero que bem. Não se engane, Ciência de Dados é prática, prática e prática. Se você já iniciou seus estudos na área, as vezes deve ter ficado louco com tantos conceitos matemáticos, técnicas, procedimentos, algoritmo. Bem, saiba que todos eles são apenas ferramentas, ou seja, meios para ajudar a resolver um problema. Para aprimorar tanto meu aprendizado como de vocês, está saindo de forno mais um projeto completo de Machine Learning de ponta-a-ponta, isto é, composto pelas etapas: 1. entendimento do negócio, 2. coleta dos dados, 3. análise exploratória, 4. construção do modelo preditivo, 5. avaliação do modelo preditivo e por fim 6. otimização do modelo preditivo. É um projeto para uma empresa de planos de saúde, que prever quantos seus clientes gastam mensalmente para efetuar um bom planejamento financeiro.


1. O Projeto


Conforme comentado anteriormente, trata-se de um projeto para uma empresa de planos de saúdes que deseja prever os gastos de seus clientes seja antigos ou novos. Por questões didáticas, usamos um dataset público da Kaggle chamado Medical Cost Personal Datasets. A base de dados contém um total de 1339 clientes, com 7 variáveis. Entre algumas variáveis temos: idade, sexo, índice de massa corporal (IMC), número de dependentes entre outras. A variável alvo, que queremos prever é, charges, que é gasto mensal. Como se trata de prever um valor numérico em um range de valores, temos um problema de regressão.



2. Tecnologias usadas


Todo o projeto foi feito em linguagem Python. Não trabalhamos com nenhum banco de dados, apenas exportamos o arquivo CSV dos pacientes. Para Machine Learning utilizamos sklearn como também statsmodels.



3. Código


Durante o código, utilizamos uma série de técnicas: 1. análise exploratória (por meio de gráficos, tabelas), 2. remoção de valores outliers, 3. normalização e padronização de dados, 4. eliminação de valores missing, 4. label enconding para variáveis categóricas entre outras. Veja o projeto completo aqui.


Abraços e até mais.





81 visualizações0 comentário