결정계수(R²)에 대한 이해: 예측 모델의 설명력을 나타내는 지표
데이터 분석에서 회귀 분석을 수행한 후, 해당 모델이 얼마나 잘 설명력을 가지는지를 평가할 때 사용하는 대표적인 지표가 바로 결정계수(R², Coefficient of Determination) 입니다. ADsP 시험에서도 자주 출제되는 개념이므로, 그 정의와 해석, 계산 방식까지 꼼꼼히 알아두는 것이 중요합니다.
결정계수란 무엇인가요?
결정계수는 회귀 모형이 전체 종속변수의 변동량 중에서 독립변수로 설명할 수 있는 비율을 나타내는 지표입니다. 쉽게 말해, 모델이 데이터를 얼마나 잘 설명하고 있는지를 0부터 1 사이의 값으로 나타냅니다.
- R² = 1: 완벽하게 설명. 예측값과 실제값이 완전히 일치
- R² = 0: 전혀 설명하지 못함. 모델의 설명력이 없음
- 0 < R² < 1: 일정 부분 설명 가능
결정계수의 수식
결정계수는 다음과 같이 계산됩니다:
- SST (Total Sum of Squares): 총 제곱합, 실제값이 평균값으로부터 얼마나 떨어져 있는지를 나타냄
- SSR (Residual Sum of Squares): 잔차 제곱합, 실제값이 예측값으로부터 얼마나 떨어져 있는지를 나타냄
이 수식은 SST 중에서 SSR이 차지하는 비율을 빼서, 모델이 설명한 비율만 남긴다는 의미를 가집니다.
예시로 이해하는 결정계수
예를 들어, 어떤 모델이 실제값과 예측값의 차이가 크지 않다면 SSR 값이 작아지고, 따라서 R²는 1에 가까워집니다. 반대로 예측이 부정확해 잔차가 크다면 SSR이 커지고, R²는 작아집니다.
모델 | SSR | SST | R² 값 |
---|---|---|---|
A (좋은 모델) | 20 | 100 | 0.80 |
B (나쁜 모델) | 70 | 100 | 0.30 |
결정계수의 한계
- 과적합 가능성: R²는 설명력을 높게 만들기 위해 변수를 무작정 추가하면 증가합니다. 따라서 단순히 R² 값만 높다고 해서 좋은 모델이라 보긴 어렵습니다.
- 변수의 유의성 미고려: R²는 각 변수의 유의성 여부를 고려하지 않습니다. 따라서 반드시 p-value, 표준 오차 등의 다른 통계 지표와 함께 해석해야 합니다.
- 비선형 모델에는 부적절: R²는 선형 회귀에 적합한 지표로, 비선형 모델에서는 왜곡될 수 있습니다.
ADsP 시험 포인트 요약
- 결정계수는 종속변수의 변동 중 회귀모형이 설명하는 비율을 의미
- 0~1 사이의 값을 가지며, 클수록 설명력이 높음
- 단순히 높은 R²가 좋은 모델이라는 보장은 없음 (과적합 주의)
- 잔차 제곱합과 총 제곱합의 비율을 이용해 계산됨
반응형
'자격증 (Certifications) > ADsP' 카테고리의 다른 글
[ADsP] 과적합(Overfitting) (0) | 2025.05.18 |
---|---|
[ADsP] 다중회귀분석 (0) | 2025.05.18 |
[ADsP] 반정형 데이터란? (0) | 2025.05.18 |
[ADsP] Extreme Studentized Deviation (0) | 2025.05.18 |
[ADsP] 탐색적 데이터 분석(EDA) (0) | 2025.05.18 |