Skip to content

suhyun0115/ml_project

Repository files navigation

Machine Learning Project

당뇨병 예측 머신러닝 분석 프로젝트 입니다.


👨‍👧‍👦 Team DBDBDeep 소개

조서현 김유진 이수현

조서현 / 김유진 / 이수현


🗒️ 목차(INDEX)

   Ⅰ. 프로젝트 Concept 및 분석 라이브러리 소개
   Ⅱ. 프로젝트 방향
   Ⅲ. DataSets & 분석변수
   Ⅳ. Data 전처리 (dataset 정보 및 가공)
   Ⅴ. Machine-Learning (Model 정보)
   Ⅵ. 최종 Model
   Ⅶ. 서비스화


INDEX. Ⅰ 프로젝트 Concept & 분석 라이브러리 소개

Concept

[환경적 요인(생활습관) 당뇨 예측]

📚 skill

  • Programming
  • Framework
  • Tools
  • Git
import pandas
import numpy
import sklearn
import streamlit
import joblib
import wordcloud

INDEX. Ⅱ 프로젝트 방향

프로젝트방향

  • 당뇨의 발병 원인 분석

    1) 유전적 원인

    ○ 췌장의 베타세포 유전적 결함
    ○ 인슐린 수용체 유전적 결함
    ○ 인슐린 작용력을 감소시키는 유전자

    2) 환경적 원인

    ○ 스트레스
    ○ 노화
    ○ 비만증
    ○ 운동부족
    ○ 감염
    ○ 외상
    ○ 수술
    ○ 임신 및 약물
    ○ 나쁜 식생활

INDEX. Ⅲ DataSets & 분석변수

NHIS_2018

# 당뇨병 분석 변수 선정
import pandas as pd
df_a = pd.read_csv('samadult.csv')
df_a = df_a[['SEX','AGE_P','R_MARITL','DIBEV1','HYPEV','PREGNOW','DEP_2','AFLHCA18','BMI',
            'AFLHC29_','AFLHC31_','AFLHC32_','AFLHC33_','SMKEV','ALC1YR','CHLEV','VIGNO',
            'AUSUALPL','ASICNHC','HIT1A']]

diabetes_age_count3 cholesterol

diabetes_age_sex

INDEX. Ⅳ Data 전처리 (dataset 정보 및 가공)

  • 사용한 colunms

    • 환경, 생활 요인에 따라 당뇨 발병률에 영향을 줄 것이라 판단
    • 성별, 연령 등 인구통계학적 요인 포함한 환경 요인별 당뇨 예측을 진행

image

  • Data perprocessing

  1. 기본 데이터프레임 생성
  2. EDA (탐색적 데이터 분석)
  3. 설문 답변 1/2로 정형화
  4. null값 및 이상치 데이터 정제
  5. 컬럼명 재구성
    • df_01, df_02, df_03, df_04, df_05, df_06으로 재구성
  6. 스케일링 및 데이터 csv 저장
    • one-hot encoding
    • _1 대신 _yes로 변경

INDEX. Ⅴ Machine-Learning (Model 정보)

  1. SVC
  2. Decisiontree
  3. KNN
  4. Adaboost
  5. Naivebayes
  6. Randomforest
  7. XGBoost

image image

INDEX. Ⅵ 최종 Model

  • Adaboost

image

INDEX. Ⅶ 서비스화

image

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •