[Linux] Dell PowerEdge R750xs 부팅 시 PERC H755 Multibit ECC 오류 대응 기록

2026. 6. 7. 00:32·개발 (Development)/Linux

도입

어느 날 아침 서버를 재부팅했더니 OS 부팅 화면 대신 낯선 메시지가 나타났습니다. Dell EMC의 Driver Health Manager 화면에 Critical Message가 표시되며 부팅이 멈춘 상황이었습니다. 서버 모델은 Dell PowerEdge R750xs이며, RAID 컨트롤러로 PERC H755 Adapter를 사용하고 있습니다.

증상

부팅 중 Broadcom EFI SAS Driver 단계에서 멈추며 아래와 같은 화면이 표시되었습니다.

RAID Controller in Slot 1: Dell PERC H755 Adapter Driver Health Protocol Utility

Critical Message

Please contact Technical Support to fix Multibit ECC errors noticed on the RAID
controller. If you continue, data corruption can occur. Press 'X' to continue or
else power off the system, replace the controller and reboot.

Enter Your Input Here: _

하단에는 다음과 같은 안내도 함께 표시되었습니다.

First you might need to press <Enter> to get the input window. Then press the desired
key(s) in response to the critical message displayed above.

OS 부팅은 완전히 멈춘 상태였고, X 키를 누르거나 컨트롤러를 교체하지 않으면 진행이 불가능했습니다.

의심해볼 원인과 확인 방법

Multibit ECC Error란

PERC H755 컨트롤러에는 캐시 메모리(DRAM)가 탑재되어 있으며, 이 메모리에서 발생하는 오류를 ECC(Error Correcting Code)로 감지합니다.

  • Single-bit ECC 오류: 자동으로 수정 가능하며 운영에 큰 지장 없음
  • Multibit ECC 오류: 수정이 불가능한 수준의 오류로, 데이터 손상 가능성이 있음

Multibit ECC 오류가 발생하면 컨트롤러가 스스로 Unhealthy 상태로 플래그를 세우고, UEFI Driver Health Manager를 통해 경고를 출력합니다.

확인 방법

1. iDRAC에서 시스템 이벤트 로그 확인

iDRAC 웹 UI 접속 후 Maintenance > System Event Log에서 관련 이벤트를 조회할 수 있습니다.

https://<iDRAC_IP>/sysmgmt/2012/server/eventlog

2. PERC 컨트롤러 펌웨어 버전 확인

OS 기동 후 storcli 또는 perccli 유틸리티로 컨트롤러 상태를 확인합니다.

# 컨트롤러 요약 확인
/opt/MegaRAID/perccli/perccli64 /c0 show

# 이벤트 로그 조회
/opt/MegaRAID/perccli/perccli64 /c0 show events

3. 펌웨어 버전 확인 및 최신 버전 비교

Dell Support 사이트에서 서비스 태그를 입력해 현재 권장 펌웨어 버전을 확인합니다.

https://www.dell.com/support

실제 해결 방법

근본적인 해결(컨트롤러 교체 또는 펌웨어 업데이트)은 별도 일정으로 진행하기로 하고, 우선 X 키를 입력하여 부팅을 강행했습니다.

OS는 정상적으로 기동되었으며 현재까지 서비스 이상 징후는 발견되지 않았습니다. 다만 컨트롤러 이상이 리소스 과부하로 인한 일시적 오동작일 가능성도 배제할 수 없어, 리소스 제한이 걸려 있지 않은 Docker 서비스들을 점검하여 compose.yml에 리소스 제한을 추가했습니다.

services:
  example-service:
    image: example/image:latest
    deploy:
      resources:
        limits:
          cpus: "1.0"
          memory: 512M
        reservations:
          cpus: "0.25"
          memory: 128M

현재 상태는 다음과 같습니다.

  • X 입력으로 부팅 강행 후 정상 운영 중
  • Docker 서비스 전반에 리소스 제한 적용 완료
  • PERC H755 펌웨어 업데이트 및 컨트롤러 교체 여부는 추가 모니터링 후 판단 예정

원리 설명

UEFI 환경에서 하드웨어 드라이버는 부팅 단계에서 스스로 상태를 보고하는 Driver Health Protocol을 구현할 수 있습니다. PERC H755의 EFI 드라이버는 컨트롤러 캐시 메모리에서 Multibit ECC 오류를 감지할 경우 이를 Critical 상태로 보고하도록 설계되어 있습니다.

UEFI Boot Manager는 이 상태 보고를 받아 부팅을 중단하고 Driver Health Manager 화면을 표시합니다. 이 시점에서 X 키를 입력하면 오류 상태를 인지한 채로 부팅을 강행하겠다는 의미이며, 컨트롤러는 그대로 동작을 계속합니다.

Multibit ECC 오류의 원인은 크게 두 가지입니다.

  • 하드웨어 불량: 컨트롤러 캐시 메모리 자체의 물리적 결함으로, 이 경우 컨트롤러 교체가 필요합니다.
  • 펌웨어 버그: 일부 펌웨어 버전에서 오탐(false positive)이 보고된 사례가 있으며, 최신 펌웨어로 업데이트 시 해소되는 경우도 있습니다.

데이터 손상 가능성이 있는 경고이므로 장기적으로는 반드시 원인을 명확히 규명하고 조치하는 것이 권장됩니다.

반응형

'개발 (Development) > Linux' 카테고리의 다른 글

[Linux] 윈도우에서 리눅스 서버로 ping은 되는데 SSH가 안 될 때 - 결국 재부팅으로 해결  (0) 2026.05.24
[Linux] Bash에서 `source` 명령어 사용법 정리  (0) 2025.09.07
[Linux/Ubuntu] Ubuntu 서버 LVM 루트 디스크 용량 부족 문제 해결  (1) 2025.06.01
[Linux] 서버 Memory Swap 사용량  (1) 2025.02.17
[Linux] ll 명령어 완벽 가이드  (0) 2025.02.17
'개발 (Development)/Linux' 카테고리의 다른 글
  • [Linux] 윈도우에서 리눅스 서버로 ping은 되는데 SSH가 안 될 때 - 결국 재부팅으로 해결
  • [Linux] Bash에서 `source` 명령어 사용법 정리
  • [Linux/Ubuntu] Ubuntu 서버 LVM 루트 디스크 용량 부족 문제 해결
  • [Linux] 서버 Memory Swap 사용량
LoopThinker
LoopThinker
모르는 것을 알아가고, 아는 것을 더 깊게 파고드는 공간
  • LoopThinker
    CodeMemoir
    LoopThinker
  • 전체
    오늘
    어제
    • 분류 전체보기 (257) N
      • 개발 (Development) (190) N
        • Algorithm (1)
        • Angular (1)
        • AWS (7)
        • DeepSeek (2)
        • Docker (9)
        • Git (3)
        • Java (41)
        • JavaScript (4)
        • Kafka (6)
        • Kubernetes (4)
        • Linux (9)
        • PostgreSQL (41)
        • Python (40) N
        • React (3)
        • TypeScript (3)
        • Vue.js (5)
        • General (11)
      • 데이터 분석 (Data Analysis) (1)
      • 알고리즘 문제 풀이 (Problem Solving.. (27)
      • 자격증 (Certifications) (24)
        • ADsP (14)
        • 정보처리기사 (4)
        • Linux Master (5)
        • SQLD (1)
      • 기술 동향 (Tech Trends) (12)
      • 기타 (Others) (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    PostgreSQL
    JPA
    Vue.js
    Kafka
    Linux
    docker
    백준
    python
    pandas
    java
    DevOps
    Kubernetes
    오답노트
    리눅스 마스터 2급
    MyBatis
    timescaledb
    파이썬
    트러블슈팅
    springboot
    AWS
    백준알고리즘
    자바
    데이터분석
    javascript
    deepseek
    백준온라인저지
    JSON
    Linux master
    ADsP
    백준자바
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
LoopThinker
[Linux] Dell PowerEdge R750xs 부팅 시 PERC H755 Multibit ECC 오류 대응 기록
상단으로

티스토리툴바