배경 및 목표: 유방암은 전 세계적으로 여성에게 가장 흔한 암 중 하나로, 특히 한국에서 40-50대 여성의 발병률이 증가하는 추세를 보인다. 이에 따라 생존율 예측은 맞춤형 의료 서비스 제공에 중요한 역할을 할 수 있다. 본 연구는 40-50대 환자와 그 외 연령대 환자 간에 생존에 영향을 미치는 주요 요인을 분석하고, 각 연령대에 맞춘 예측 모델을 구축하는 것을 목표로 한다.
- "어떤 요인들이 유방암 생존에 가장 큰 영향을 미치는가?"
- "40-50대 유방암 환자의 생존 예측에서 다른 연령대와 차이가 있는가?” 본 연구를 통해 특정 연령대에 맞춘 예측 모델을 개발함으로써 향후 맞춤형 의료 서비스 제공을 위한 데이터 기반의 접근 방안을 제시하고자 한다.
기존의 유방암 생존 예측 연구는 주로 전체 연령대를 대상으로 하였으나, 본 연구는 40-50대와 다른 연령대를 구분하여 생존에 영향을 미치는 요인 분석을 수행한다.
Decision Tree와 Random Forest와 같은 전통적인 모델을 넘어서 XGBoost, CatBoost를 사용하여 모델 성능을 높이고 각 모델별 성능 비교를 통해 최적의 예측 모델을 도출한 점에서 차별성이 있다.
- 데이터 출처 및 설명
- 데이터셋: 국립암센터 합성 데이터 사용, 10대부터 80대 유방암 환자 정보 포함. 주요 변수로 진단 시 연령, 조직학적 진단명, 치료 방식, 면역 병리, BRCA 유전자 변이, 생존 여부 등을 포함.
- 데이터 전처리
- 모델 선정
- 기존 연구에서 사용 빈도가 높은 Decision Tree와 Random Forest 외에 XGBoost, CatBoost 등 성능이 뛰어난 모델을 포함하여 총 5개의 모델을 사용.
각 모델은 다양한 특성과 하이퍼파라미터를 통해 유방암 생존 여부를 예측하도록 설계되었다.
- 기존 연구에서 사용 빈도가 높은 Decision Tree와 Random Forest 외에 XGBoost, CatBoost 등 성능이 뛰어난 모델을 포함하여 총 5개의 모델을 사용.
- 평가 지표
-
각 모델의 성능을 평가하기 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score를 사용하여 생존 예측의 효율성을 측정.
-
유방암 환자의 생존 예측 성능 평가
[유방암 환자의 생존 예측 초기 성능 평가]Row Data Accuracy Recall Precision Decision Tree 0.52 0.48 0.48 RandomForest 0.63 0.44 0.50 XGBoost 0.50 0.49 0.50 CatBoost 0.60 0.55 0.50 LogisticRegression 0.48 0.48 0.48 Decision Tree와 Logistic Regression은 각각 52%와 48%의 정확도를 기록하며 낮은 정확도를 보였다.
Random Forest와 CatBoost는 약 60%의 정확도를 나타냈으나, 여전히 Recall과 Precision 수치가 낮아 성능 개선이 필요한 것으로 확인 되었다. 이러한 초기 평가를 바탕으로 다양한 성능 개선 접근 방식을 모색하였다.[SMOTE 기법을 활용한 불균형 데이터 보정 후 유방암 환자의 생존 예측 모델 성능평가 결과]
SMOTE 최적의 하이퍼파라미터 Accuracy Recall Precision Decision Tree 'max_depth': 10, 'min_samples_leaf': 1 'min_samples_split': 10 0.62 0.62 0.62 RandomForest 'max_depth': 20, 'min_samples_leaf': 1 'min_samples_split': 2 'n_estimators': 300 0.74 0.74 0.74 XGBoost 'colsample_bytree': 0.6, 'learning_rate': 0.01, 'max_depth': 6, 'n_estimators': 300, 'subsample': 0.8 0.72 0.72 0.73 CatBoost 'depth': 10', ’iterations': 200, 'learning_rate': 0.1 0.75 0.75 0.75 LogisticRegression 'C': 100, 'solver': 'lbfgs’ 0.71 0.71 0.73 - XGBoost 모델은 SMOTE 기법을 적용한 후 정밀도와 재현율이 각각 0.75로 나타나, 유방암 생존 예측에서 높은 정확도를 기록하였다.
- XGBoost는 Boosting 기법을 통해 다양한 변수를 효과적으로 조합할 수 있어, 생존 예측에서 매우 유용한 도구임을 입증하였다.
[ADASYN 기법을 활용한 불균형 데이터 보정 후 유방암 환자의 생존 예측 모델 성능평가 결과]
ADASYN 최적의 하이퍼파라미터 Accuracy Recall Precision Decision Tree 'max_depth': 10 'min_samples_leaf':2, 'min_samples_split': 2 0.60 0.60 0.60 RandomForest 'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 300 0.72 0.72 0.72 XGBoost 'colsample_bytree': 0.6, 'learning_rate': 0.01, 'max_depth': 6, 'n_estimators': 300, 'subsample': 0.8 0.68 0.68 0.68 CatBoost 'depth': 10', ’iterations': 200, 'learning_rate': 0.1 1.0 1.0 1.0 LogisticRegression 'C': 100, 'solver': 'liblinear’ 0.70 0.71 0.73 - CatBoost 모델의 정확도가 1.0이 나타난 것은 과적합의 가능성을 시사한다.
- 과적합이 발생한 경우, 모델이 학습 데이터에 지나치게 적합하여 새로운 데이터에 대한 일반화 능력이 저하될 수 있다. 이는 실제 상황에서 모델 성능을 떨어뜨릴 위험이 있으므로, 이를 완화하기 위해 SMOTE 기법을 적용하였다.
- XGBoost 모델은 SMOTE 기법을 적용한 후 정밀도와 재현율이 각각 0.75로 나타나, 유방암 생존 예측에서 높은 정확도를 기록하였다.
-
다음 그래프는 유방암 환자의 생존율에 미치는 영향을 주요 예측 변수를 보여준다.
-
주요 발견
- 40-50대 유방암 환자에서는 **나이, 음주 습관, 면역병리 ER(Estrogen Receptor)**이 생존에 중요한 영향을 미치는 변수로 나타났으며, 이는 해당 연령대의 음주 습관과 면역 상태가 생존율에 중요한 역할을 한다는 것을 시사한다.
- 그 외 연령대에서는 출산 자녀 수, 초경 연령, 신체적 특징인 키와 몸무게가 주요 변수로 작용했다. 이는 생리적 변화, 가족력, 그리고 신체적 특성이 해당 연령대의 생존 가능성에 큰 영향을 미친다는 의미로 해석된다.
⇒ 이러한 차이는 각 연령대 환자들이 경험하는 생물학적, 사회적 요인이 다르기 때문이다.
- 40-50대 유방암 환자에서는 **나이, 음주 습관, 면역병리 ER(Estrogen Receptor)**이 생존에 중요한 영향을 미치는 변수로 나타났으며, 이는 해당 연령대의 음주 습관과 면역 상태가 생존율에 중요한 역할을 한다는 것을 시사한다.
-
한계점
- 본 연구는 특정 연령대에 초점을 맞추었기 때문에 전체 연령대에 대한 일반화가 어려운 한계가 있습니다.
- 또한, 생존 예측 모델을 위해 필요한 다양한 요인들(정신적 스트레스, 유전적 소인 등)을 충분히 포함하지 못한 점에서 분석의 한계가 있습니다.
-
추가 진행
-
추가 연구 방향
- 향후 연구에서는 더욱 다양한 연령대를 포함한 데이터셋을 사용하여 예측 요인을 확장하고, 맞춤형 치료 전략의 기반을 강화하는 연구를 진행할 필요가 있습니다.
본 연구는 SMOTE 기법을 통해 데이터의 불균형 문제를 해결함으로써 모델의 성능을 개선할 수 있다는 점은 향후 유사 연구에도 활용될 수 있다. 또한 맞춤형 유방암 생존 예측 모델을 제시함으로써 개인화된 의료 제공에 기여할 수 있다. 40-50대 유방암 환자에 특화된 예측 모델은 해당 연령대의 생존율을 더욱 정밀하게 예측할 수 있도록 하여, 의료진이 환자의 특성에 맞는 치료 계획을 수립하는 데 실질적인 도움을 줄 수 있을 것이다.