데이터는 일반적으로 정형, 반정형, 비정형 데이터로 나눌 수 있습니다. 그 중 반정형 데이터(Semi-structured Data)는 일정한 구조를 가지면서도, 엄격한 스키마를 따르지 않는 형태의 데이터를 말합니다.
정형 데이터는 관계형 데이터베이스처럼 행과 열이 고정되어 있는 구조를 말하고, 비정형 데이터는 텍스트, 이미지, 영상처럼 구조화되지 않은 데이터를 의미합니다. 반정형 데이터는 이 둘의 중간 성격을 가지며, 일정한 규칙에 따라 구조화되지만 유연한 형식을 가집니다.
HTML은 왜 반정형 데이터인가?
HTML은 웹페이지를 구성할 때 사용하는 마크업 언어로, 태그(tag)를 이용해 콘텐츠의 구조를 정의합니다. 이는 어느 정도 형식이 있는 데이터처럼 보이지만, 웹사이트마다 HTML 구조가 다르고, 태그의 사용 방식이나 순서도 일관되지 않을 수 있습니다. 또한 같은 정보라도 위치나 표현 방식이 다양하게 나타날 수 있습니다.
즉, HTML은 구조가 있기는 하지만 고정된 스키마를 따르지 않기 때문에 정형 데이터는 아니며, 반대로 완전히 자유로운 형식의 비정형 데이터도 아닙니다. 이런 특성 때문에 HTML은 반정형 데이터로 분류됩니다.
반정형 데이터의 대표 예시
- HTML
- XML
- JSON
- YAML
이러한 데이터들은 모두 태그나 키-값 쌍 등 구조적인 표현을 가지고 있지만, 사용하는 방식이 상황에 따라 달라질 수 있습니다. 때문에 유연성과 구조성을 동시에 갖춘 반정형 데이터로 활용됩니다.
마무리
반정형 데이터는 웹 크롤링, 로그 분석, API 데이터 처리 등 다양한 분야에서 사용됩니다. 특히 HTML은 웹에서 정보를 수집할 때 자주 접하게 되는 대표적인 반정형 데이터이며, 이를 이해하는 것은 데이터 분석과 처리 과정에서 중요한 기초가 됩니다.
'자격증 (Certifications) > ADsP' 카테고리의 다른 글
[ADsP] 다중회귀분석 (0) | 2025.05.18 |
---|---|
[ADsP] 결정계수(R²) (0) | 2025.05.18 |
[ADsP] Extreme Studentized Deviation (0) | 2025.05.18 |
[ADsP] 탐색적 데이터 분석(EDA) (0) | 2025.05.18 |
[ADsP] 독립사건과 배반사건 (0) | 2025.05.18 |