조서현 / 김유진 / 이수현
Ⅰ. 프로젝트 Concept 및 분석 라이브러리 소개
Ⅱ. 프로젝트 방향
Ⅲ. DataSets & 분석변수
Ⅳ. Data 전처리 (dataset 정보 및 가공)
Ⅴ. Machine-Learning (Model 정보)
Ⅵ. 최종 Model
Ⅶ. 서비스화
[환경적 요인(생활습관) 당뇨 예측]
import pandas
import numpy
import sklearn
import streamlit
import joblib
import wordcloud
○ 췌장의 베타세포 유전적 결함
○ 인슐린 수용체 유전적 결함
○ 인슐린 작용력을 감소시키는 유전자
○ 스트레스
○ 노화
○ 비만증
○ 운동부족
○ 감염
○ 외상
○ 수술
○ 임신 및 약물
○ 나쁜 식생활
-
- [NHIS_2018] https://www.cdc.gov/nchs/nhis/nhis_2018_data_release.htm
- Sample Adult file : samadult.csv, familyxx.csv
-
- 분석할 컬럼을 추려내기 위해 결측치 값에 fillna()함수 사용 -> 0으로 대체
# 당뇨병 분석 변수 선정
import pandas as pd
df_a = pd.read_csv('samadult.csv')
df_a = df_a[['SEX','AGE_P','R_MARITL','DIBEV1','HYPEV','PREGNOW','DEP_2','AFLHCA18','BMI',
'AFLHC29_','AFLHC31_','AFLHC32_','AFLHC33_','SMKEV','ALC1YR','CHLEV','VIGNO',
'AUSUALPL','ASICNHC','HIT1A']]
-
- 환경, 생활 요인에 따라 당뇨 발병률에 영향을 줄 것이라 판단
- 성별, 연령 등 인구통계학적 요인 포함한 환경 요인별 당뇨 예측을 진행
- 기본 데이터프레임 생성
- EDA (탐색적 데이터 분석)
- 설문 답변 1/2로 정형화
- null값 및 이상치 데이터 정제
- 컬럼명 재구성
- df_01, df_02, df_03, df_04, df_05, df_06으로 재구성
- 스케일링 및 데이터 csv 저장
- one-hot encoding
- _1 대신 _yes로 변경
- SVC
- Decisiontree
- KNN
- Adaboost
- Naivebayes
- Randomforest
- XGBoost
- Adaboost