Oi! Este projeto foi desenvolvido com o objetivo de realizar uma Análise Exploratória de Dados (EDA) em um dataset de filmes para o desafio técnico do PROGRAMA LIGHTHOUSE da INDICIUM, e construir um modelo de Machine Learning capaz de prever a nota de um filme no IMDB com base em variáveis relevantes.
💻 Todo o desenvolvimento foi feito utilizando Python no VSCode.
├── data/ # Pasta de datasets usados no projeto
│ └── desafio_indicium_imdb.csv # Base de dados original fornecida
├── reports/ # Saídas geradas (relatórios e modelos)
│ ├── PrevisãoIMDB.pdf # Relatório de previsão do modelo
│ ├── Relatório de Análise Exploratória de Dados (EDA).pdf # Relatório da EDA
│ └── modelo_imdb.pkl # Modelo de regressão linear treinado e salvo (pickle)
├── src/ # Scripts principais do projeto
│ ├── modelo_IMDB.py # Script de treinamento, avaliação e salvamento do modelo
│ └── project_EDA.py # Script da análise exploratória de dados (EDA)
├── venv/ # Ambiente virtual do Python (dependências isoladas)
├── README.md # Documentação do projeto
└── requirements.txt # Lista de dependências necessárias
-
Clone este repositório ou baixe os arquivos do projeto.
-
Crie e ative um ambiente virtual (recomendado):
python -m venv venv
Windows:
venv\Scripts\activate
Linux/Mac:
source venv/bin/activate
- Instale as dependências:
pip install -r requirements.txt
O arquivo project_EDA.py contém todo o processo de exploração dos dados, incluindo:
-
Estatísticas descritivas das variáveis (numéricas e categóricas).
-
Verificação de valores nulos e repetidos.
-
Distribuição das notas do IMDB.
-
Visualizações com Matplotlib e Seaborn.
Exemplo de saída no terminal:
===== ESTATÍSTICAS DAS COLUNAS =====
count 999.000000
mean 7.99
std 0.43
min 7.00
max 9.20
O arquivo modelo_IMDB.py contém o código de treinamento do modelo para prever notas de filmes no IMDB.
-
Foi utilizado o Scikit-learn.
-
O problema foi tratado como regressão, já que a variável IMDB_Rating é contínua (0–10).
-
Foram consideradas variáveis numéricas, categóricas e de texto após transformações.
Exemplo de execução no terminal:
Erro quadrático médio (MSE): 0.0408
R² (quanto o modelo explica os dados): 0.499
Nota IMDB prevista: 9.24
As principais bibliotecas utilizadas foram:
pandas==1.5.3
matplotlib==3.6.3
seaborn==0.11.2
scikit-learn==1.1.3
1 - Para rodar a análise exploratória (EDA):
python project_EDA.py
2 - Para rodar o modelo de predição:
python modelo_IMDB.py
-
Todo o projeto foi desenvolvido utilizando Python no VSCode.
-
O dataset foi extraído de uma planilha real do Google Sheets.