과적합(Overfitting): 좋은 성능의 함정에 빠지지 않기
모델이 훈련 데이터에 너무 잘 맞으면, 오히려 새로운 데이터에서는 예측 성능이 떨어지는 현상이 발생합니다. 이를 과적합(Overfitting) 이라고 합니다.
과적합이란?
- 학습 데이터의 패턴뿐만 아니라 노이즈(불규칙성) 까지 학습해버려서, 새로운 데이터에는 일반화되지 못하는 현상입니다.
- 너무 복잡한 모델, 변수 수가 많은 모델에서 자주 발생합니다.
과적합의 대표적 증상
구분 | 훈련 데이터 정확도 | 테스트 데이터 정확도 |
---|---|---|
정상 | 높음 | 높음 |
과적합 | 매우 높음 | 낮음 |
즉, 훈련 데이터에서는 거의 완벽하지만 테스트 데이터에서는 형편없는 성능을 보입니다.
과적합을 피하는 방법
- 변수 선택 최소화: 설명력이 낮은 변수는 제거
- 교차 검증(Cross Validation): 데이터를 여러 조각으로 나누어 반복적으로 검증
- 정규화 기법 사용: Lasso, Ridge 등의 회귀 방식으로 과적합 방지
- 단순한 모델 선택: 설명력이 높다고 무조건 복잡한 모델을 선택하지 말 것
- Adjusted R² 사용: 단순 R²는 변수 수가 많을수록 값이 커지므로, 조정된 결정계수로 확인
ADsP 시험 포인트 요약
- 과적합은 훈련 데이터에만 지나치게 적합된 모델
- 테스트 데이터에서는 성능이 낮아짐
- 변수 과다, 복잡한 모델 구조가 주된 원인
- R²만 믿지 말고 교차 검증, 조정 결정계수, 변수의 유의성을 함께 평가할 것
마무리: 세 개념의 연결
- 결정계수(R²) 는 회귀모델의 설명력을 나타냄
- 다중회귀분석은 여러 변수로 종속변수를 예측하는 회귀기법
- 변수 수가 많아질수록 R²는 높아질 수 있지만, 과적합으로 인해 실제 예측력이 떨어질 수 있음
따라서 모델의 적합도와 예측력은 균형 있게 고려해야 하며, R²와 함께 Adjusted R², p-value, 교차 검증 등을 함께 살펴보는 습관을 기르는 것이 중요합니다.
반응형
'자격증 (Certifications) > ADsP' 카테고리의 다른 글
[ADsP] 제45회 데이터 분석 준전문가(ADsP) 시험 복원 문제 (1) | 2025.06.01 |
---|---|
[ADsP] 제45회 데이터 분석 준전문가(ADsP) 시험 후기 (1) | 2025.05.18 |
[ADsP] 다중회귀분석 (0) | 2025.05.18 |
[ADsP] 결정계수(R²) (0) | 2025.05.18 |
[ADsP] 반정형 데이터란? (0) | 2025.05.18 |