Skip to content

Projeto de desenvolvimento de uma EDA e construção de um modelo de Machine Learning que preve a nota de um filme no IMDB.

Notifications You must be signed in to change notification settings

mecatelli/desafio-lighthouse-project-eda

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🎬 Projeto EDA e Predição de Notas do IMDB

Oi! Este projeto foi desenvolvido com o objetivo de realizar uma Análise Exploratória de Dados (EDA) em um dataset de filmes para o desafio técnico do PROGRAMA LIGHTHOUSE da INDICIUM, e construir um modelo de Machine Learning capaz de prever a nota de um filme no IMDB com base em variáveis relevantes.

💻 Todo o desenvolvimento foi feito utilizando Python no VSCode.


📂 Estrutura do Projeto

├── data/                               # Pasta de datasets usados no projeto
│   └── desafio_indicium_imdb.csv       # Base de dados original fornecida
├── reports/                            # Saídas geradas (relatórios e modelos)
│   ├── PrevisãoIMDB.pdf                # Relatório de previsão do modelo
│   ├── Relatório de Análise Exploratória de Dados (EDA).pdf  # Relatório da EDA 
│   └── modelo_imdb.pkl                 # Modelo de regressão linear treinado e salvo (pickle)
├── src/                                # Scripts principais do projeto
│   ├── modelo_IMDB.py                  # Script de treinamento, avaliação e salvamento do modelo
│   └── project_EDA.py                  # Script da análise exploratória de dados (EDA)
├── venv/                               # Ambiente virtual do Python (dependências isoladas)
├── README.md                           # Documentação do projeto
└── requirements.txt                    # Lista de dependências necessárias

⚙️ Instalação

  1. Clone este repositório ou baixe os arquivos do projeto.

  2. Crie e ative um ambiente virtual (recomendado):

python -m venv venv

Windows:

venv\Scripts\activate

Linux/Mac:

source venv/bin/activate
  1. Instale as dependências:
pip install -r requirements.txt

📊 Análise Exploratória de Dados (EDA)

O arquivo project_EDA.py contém todo o processo de exploração dos dados, incluindo:

  • Estatísticas descritivas das variáveis (numéricas e categóricas).

  • Verificação de valores nulos e repetidos.

  • Distribuição das notas do IMDB.

  • Visualizações com Matplotlib e Seaborn.

Exemplo de saída no terminal:

===== ESTATÍSTICAS DAS COLUNAS =====
count    999.000000
mean       7.99
std        0.43
min        7.00
max        9.20

🤖 Predição de Notas (Machine Learning)

O arquivo modelo_IMDB.py contém o código de treinamento do modelo para prever notas de filmes no IMDB.

  • Foi utilizado o Scikit-learn.

  • O problema foi tratado como regressão, já que a variável IMDB_Rating é contínua (0–10).

  • Foram consideradas variáveis numéricas, categóricas e de texto após transformações.

Exemplo de execução no terminal:

Erro quadrático médio (MSE): 0.0408
R² (quanto o modelo explica os dados): 0.499
Nota IMDB prevista: 9.24

📦 Dependências

As principais bibliotecas utilizadas foram:

pandas==1.5.3
matplotlib==3.6.3
seaborn==0.11.2
scikit-learn==1.1.3

▶️ Como Executar

1 - Para rodar a análise exploratória (EDA):

python project_EDA.py

2 - Para rodar o modelo de predição:

python modelo_IMDB.py

📌 Observações

  • Todo o projeto foi desenvolvido utilizando Python no VSCode.

  • O dataset foi extraído de uma planilha real do Google Sheets.

About

Projeto de desenvolvimento de uma EDA e construção de um modelo de Machine Learning que preve a nota de um filme no IMDB.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages