데이터 기반 이상 탐지 시스템에서는 종종 다음과 같은 결과를 마주하게 됩니다.
"이벤트 시나리오(Anomalous Event Pattern)의 발생 확률은 0인데, 특정 피처(feature)는 active 상태로 전이될 확률이 높게 계산된다."
이런 현상은 이상 탐지 모델과 Root Cause Analysis(RCA)의 구조적 차이에서 비롯됩니다.
1. 시나리오 확률 = 복합 이상 패턴의 joint probability
- 실무에서는 이벤트 시나리오를 특정 시점에 여러 피처(feature)가 동시에 비정상 상태를 나타내는 multivariate anomaly pattern 또는 joint anomaly로 표현합니다.
- 이 시나리오의 발생 확률은 joint probability distribution 기반으로 계산되며,
과거 학습 데이터에서 관측된 패턴과의 유사도에 따라 확률이 부여됩니다.
✔ 만약 해당 조합이 학습 데이터에 거의 없거나 매우 낮은 빈도로 존재했다면 → joint probability ≈ 0
2. 개별 피처의 전이 확률 = marginal probability or transition likelihood
- 반면, 각 피처는 개별 시계열(time series) 또는 univariate distribution 기반으로 관리되며,
최근 데이터가 얼마나 평상시(normal baseline)에서 벗어났는지를 바탕으로 scoring됩니다. - 여기서 사용하는 확률은 marginal probability 또는 state transition likelihood로 볼 수 있습니다.
- 예: potential 상태에서 active 상태로 전이될 확률 =
P(active | historical potential)
- 예: potential 상태에서 active 상태로 전이될 확률 =
✔ 이는 다른 피처들과의 관계 없이, 해당 feature의 과거 이력 기반으로 독립적으로 계산됩니다.
3. RCA 관점에서는?
- Root Cause Analysis(RCA)는 이상 상황 발생 시, 여러 피처 중에서 실질적인 트리거(Trigger) 역할을 한 피처를 식별하려는 분석입니다.
- 이때 joint anomaly score(시나리오 단위)가 낮더라도, 개별 feature importance, influence, or contribution score는 높을 수 있습니다.
- 따라서 RCA는 종종 low-probability joint events 속에서 high-likelihood marginal anomalies를 찾아냅니다.
✔ 즉, 드문 복합 이상(anomaly pattern) 안에서도 핵심 원인(key driver)은 존재할 수 있다는 뜻입니다.
4. 예시 정리
| 요소 | 데이터 사이언스 용어 | 설명 |
|---|---|---|
| 시나리오 ID | Multivariate anomaly pattern, joint anomaly | 여러 피처가 동시에 이상을 보이는 조합 |
| 시나리오 확률 | Joint probability, joint likelihood | 전체 조합이 관측된 빈도 기반 |
| 파라미터(피처) | Feature (time series, KPI 등) | 개별적으로 이상 여부를 판단하는 변수 |
| 개별 확률 | Marginal probability, transition likelihood | 피처 하나만의 변화 추이로 계산됨 |
| RCA 판단 | Feature attribution, causal analysis | 이상에 가장 크게 기여한 변수 식별 |
5. 실무 적용 요약
| 항목 | 설명 |
|---|---|
| 시나리오 확률이 0인 이유 | 해당 joint pattern이 훈련 데이터셋에서 매우 희귀하거나 존재하지 않기 때문 |
| 피처 전이 확률이 계산되는 이유 | 개별 feature는 과거 분포 기반으로 scoring 되며, joint context와 무관하게 평가되기 때문 |
| RCA에서의 활용 | low joint probability 상황에서도 high-impact feature를 key driver로 식별 가능함 |
6. 마무리
데이터 사이언스 실무에서는 anomaly detection과 RCA가 다음처럼 구분되어 활용됩니다:
- Anomaly Detection: joint/marginal probability로 이상을 탐지
- RCA: 이상 발생 후 feature-level impact 또는 contribution score로 root cause 분석
따라서 joint probability가 낮아도, 해당 이벤트를 유발한 feature의 영향도는 유의미할 수 있습니다.
반응형