[ADsP] 반정형 데이터란?

2025. 5. 18. 18:10·자격증 (Certifications)/ADsP

데이터는 일반적으로 정형, 반정형, 비정형 데이터로 나눌 수 있습니다. 그 중 반정형 데이터(Semi-structured Data)는 일정한 구조를 가지면서도, 엄격한 스키마를 따르지 않는 형태의 데이터를 말합니다.

정형 데이터는 관계형 데이터베이스처럼 행과 열이 고정되어 있는 구조를 말하고, 비정형 데이터는 텍스트, 이미지, 영상처럼 구조화되지 않은 데이터를 의미합니다. 반정형 데이터는 이 둘의 중간 성격을 가지며, 일정한 규칙에 따라 구조화되지만 유연한 형식을 가집니다.

HTML은 왜 반정형 데이터인가?

HTML은 웹페이지를 구성할 때 사용하는 마크업 언어로, 태그(tag)를 이용해 콘텐츠의 구조를 정의합니다. 이는 어느 정도 형식이 있는 데이터처럼 보이지만, 웹사이트마다 HTML 구조가 다르고, 태그의 사용 방식이나 순서도 일관되지 않을 수 있습니다. 또한 같은 정보라도 위치나 표현 방식이 다양하게 나타날 수 있습니다.

즉, HTML은 구조가 있기는 하지만 고정된 스키마를 따르지 않기 때문에 정형 데이터는 아니며, 반대로 완전히 자유로운 형식의 비정형 데이터도 아닙니다. 이런 특성 때문에 HTML은 반정형 데이터로 분류됩니다.

반정형 데이터의 대표 예시

  • HTML
  • XML
  • JSON
  • YAML

이러한 데이터들은 모두 태그나 키-값 쌍 등 구조적인 표현을 가지고 있지만, 사용하는 방식이 상황에 따라 달라질 수 있습니다. 때문에 유연성과 구조성을 동시에 갖춘 반정형 데이터로 활용됩니다.

마무리

반정형 데이터는 웹 크롤링, 로그 분석, API 데이터 처리 등 다양한 분야에서 사용됩니다. 특히 HTML은 웹에서 정보를 수집할 때 자주 접하게 되는 대표적인 반정형 데이터이며, 이를 이해하는 것은 데이터 분석과 처리 과정에서 중요한 기초가 됩니다.

반응형

'자격증 (Certifications) > ADsP' 카테고리의 다른 글

[ADsP] 다중회귀분석  (0) 2025.05.18
[ADsP] 결정계수(R²)  (0) 2025.05.18
[ADsP] Extreme Studentized Deviation  (0) 2025.05.18
[ADsP] 탐색적 데이터 분석(EDA)  (0) 2025.05.18
[ADsP] 독립사건과 배반사건  (0) 2025.05.18
'자격증 (Certifications)/ADsP' 카테고리의 다른 글
  • [ADsP] 다중회귀분석
  • [ADsP] 결정계수(R²)
  • [ADsP] Extreme Studentized Deviation
  • [ADsP] 탐색적 데이터 분석(EDA)
LoopThinker
LoopThinker
모르는 것을 알아가고, 아는 것을 더 깊게 파고드는 공간
  • LoopThinker
    CodeMemoir
    LoopThinker
  • 전체
    오늘
    어제
    • 분류 전체보기 (231) N
      • 개발 (Development) (165) N
        • Algorithm (1)
        • Angular (1)
        • AWS (6)
        • DeepSeek (2)
        • Docker (7)
        • Git (3)
        • Java (34) N
        • JavaScript (4)
        • Kafka (5)
        • Kubernetes (4)
        • Linux (7)
        • PostgreSQL (38)
        • Python (31)
        • React (3)
        • TypeScript (3)
        • Vue.js (5)
        • General (11)
      • 데이터 분석 (Data Analysis) (1)
      • 알고리즘 문제 풀이 (Problem Solving.. (27)
      • 자격증 (Certifications) (24)
        • ADsP (14)
        • 정보처리기사 (4)
        • Linux Master (5)
        • SQLD (1)
      • 기술 동향 (Tech Trends) (11)
      • 기타 (Others) (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    백준자바
    Kubernetes
    PostgreSQL
    springboot
    자바
    리눅스 마스터 2급
    Vue.js
    데이터분석
    백준
    JPA
    AWS
    timescaledb
    Linux master
    Kafka
    python
    백준알고리즘
    Linux
    JSON
    DevOps
    javascript
    ADsP
    오답노트
    deepseek
    docker
    Spring boot
    java
    리눅스 마스터 2급 2차
    MyBatis
    백준온라인저지
    pandas
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
LoopThinker
[ADsP] 반정형 데이터란?
상단으로

티스토리툴바