'

ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [study39] 기본 셋팅 이후의 추가셋팅 03/12(4)HA(실습후 정리다시)
    FISA 2026. 3. 12. 11:52

    HA는 호스트(ESXi)에 문제가 생겼을 때, 그 위에서 돌고 있던 VM을 다른 정상 호스트에서 다시 켜주는 기능

     

    장애가 났을 때 VM을 살리는 기능

     

     

     

    DRS랑 차이

    여기서 DRS랑 많이 헷갈리는데

     

        HA = 장애 났을 때 다시 켜줌

        DRS = 평소에 자원 상태 보고 적절한 호스트에 배치/이동함

     

    즉, DRS는 성능/부하 분산 쪽       /     HA는 장애 대응/복구

     

    HA는 다시 켜주는 기능이라서, 그 짧은 순간의 재부팅 시간은 생깁니다.
    즉 Fault Tolerance처럼 완전 무중단은 아니고,
    장애가 나면 자동으로 복구해주는 기능에 가깝습니다. 공식 문서 기준으로도 HA는 affected VM restart가 핵심입니다

     

     

    [ Admission Control ] 

    HA에서 같이 많이 보는 게 Admission Control인데, 이건 장애가 났을 때 VM들을 다시 켤 수 있도록 미리 자원을 남겨두는 장치입니다.

    예를 들어, 클러스터 자원을 이미 꽉 채워서 쓰고 있으면 호스트 하나 죽었을 때 다른 호스트에서 VM을 켤 자리가 없을 수도 있잖아요.

    그래서 Admission Control은 “장애 복구용 여유 자원은 남겨둬라”이걸 관리하는 기능입니다. vSphere 공식 문서도 Admission Control은 호스트 장애 시 VM 복구를 위해 충분한 자원을 예약해 두도록 보장한다고 설명합니다.

     

     

    • HA = 호스트 장애 시 다른 호스트에서 VM 다시 켜줌
    • DRS = 평소에 부하 보고 VM 배치/이동
    • Admission Control = 장애 복구할 자리 미리 확보

     

     

     

    실습

     

    1. HA를 쓸 클러스터 만들기
    vCenter에서 Datacenter 아래에 Cluster를 만들고, ESXi 호스트들을 그 클러스터 안에 넣기

    HA는 개별 호스트 기능이 아니라 클러스터 기능이라서 먼저 클러스터가 있어야 합니다. 

     

    > 이미 Jeju와 Seoul 만들어놔서 패스할게요

     

    2. 클러스터에서 vSphere HA 켜기
    보통 Cluster 선택 → Configure → vSphere Availability → Edit로 들어가서 HA를 활성화합니다. 여기서 Host Monitoring, Admission Control, VM Monitoring 같은 항목들을 같이 보게 됩니다. KB 문서에도 동일한 설정 경로가 나옵니다.

    a. 호스트 실패 응답

    - 호스트 자체가 죽었을 때 어떻게 할지입니다.

    지금처럼 VM다시 시작이면 장애 난 호스트 위에 있던 VM을 다른 살아있는 호스트에서 다시 켭니다.

     

    b. 호스트 분리에 대한 응답

    - 호스트가 완전히 꺼진 건 아니고, 관리 네트워크상에서 클러스터와 통신이 안 되는 고립 상태일때 반응입니다.

      1. 사용 안 함 ( 영향을 받은 VM에 아무런 작업도 수행하지 않습니다. )

      2. 전원을 끈 후 VM 다시 시작 ( 영향을 받는 모든 VM의 전원이 꺼지고 vSphere HA는 아직 네트워크 연결이 있는 호스트의 VM을 다시 시작하려고 시도 )

      3. 종료 후 VM 다시 시작 ( 영향을 받는 모든 VM이 정상적으로 종료되고 vSphere HA는 아직 온라인 상태에 있는 호스트의 VM을 다시 시작하려고 시도합니다. )

     

    c.  PDL이 있는 데이터 스토어

    - Permanent Device Loss, 즉 스토리지가 영구적으로 사라졌다고 명확히 판단되는 상태입니다. 예를 들어 LUN이 제거됐거나 더 이상 접근 불가능한 게 확실할 때입니다.  

     

    d. APD가 있는 데이터 스토어

    - All Paths Down, 즉 스토리지로 가는 모든 경로가 끊겼는데 이게 일시적인지 영구적인지 아직 확실하지 않은 상태입니다. PDL보다 더 애매한 상태라고 보면 됩니다.

     

    e. VM모니터링

    - 호스트가 완전히 꺼진 건 아니고, 관리 네트워크상에서 클러스터와 통신이 안 되는 고립 상태일때 반응입니다. VM 모니터링은 개별 VM의 VMware Tools 하트비트가 설정된 시간 내에 수신되지 않으면 해당 VM을 재설정합니다

     

     

    • 호스트 모니터링 사용: ESXi끼리 서로 살아있는지 감시
    • 호스트 실패 응답: 호스트 죽으면 VM 다시 켤지
    • 호스트 분리 응답: 호스트는 살아있는데 네트워크 고립되면 어떻게 할지
    • PDL: 스토리지를 영구적으로 잃었을 때 어떻게 할지
    • APD: 스토리지 경로가 다 끊겼을 때 어떻게 할지
    • VM 모니터링: VM 내부가 멈췄을 때 reset할지

     

     

     

    3. Host Monitoring을 켠다
    이건 호스트들이 서로 살아있는지 감시하는 기능입니다. HA가 동작하려면 먼저 “어느 호스트가 죽었는지”를 알아야 하니까, Host Monitoring이 기본 전제라고 보시면 됩니다. 관리 네트워크 문제만 있는 건지, 진짜 호스트가 죽은 건지 판단하는 데도 HA 메커니즘이 관여합니다.

     

     

     

    4. Admission Control을 정한다
    이건 장애 복구용 자원을 미리 남겨둘지 정하는 옵션입니다. 쉽게 말해 “호스트 하나 죽었을 때 다른 호스트에서 VM 다시 켤 자리를 확보해둘 거냐”입니다. 공식 문서도 Admission Control은 host failure 시 VM recovery를 위해 충분한 자원을 예약하도록 보장한다고 설명합니다.

     

     

     

    5. VM Monitoring은 필요할 때만 켠다
    이건 호스트가 아니라 VM 자체가 멈췄는지 보는 기능입니다. VMware Tools heartbeat 등을 보고 VM이 응답 불가 상태라고 판단되면 reset할 수 있습니다. 공식 문서에도 VM and Application Monitoring은 failure 감지 후 VM을 reset해서 서비스를 다시 살리는 흐름으로 설명됩니다.

     

     

     

    6. Heartbeat Datastore를 확인한다
    관리 네트워크가 잠깐 끊긴 상황과 진짜 호스트 장애를 구분하는 데 datastore heartbeating이 도움 됩니다. 공식 문서도 datastore heartbeating은 management network partition과 host failure를 구분하는 데 사용된다고 설명합니다.

     

     

     

    7. 저장 후 실제로 테스트한다
    가장 흔한 실습은 특정 호스트에 VM을 올려두고, 그 호스트를 장애 상태처럼 만들어 본 뒤 다른 호스트에서 VM이 다시 켜지는지 확인하는 방식입니다. HA의 핵심은 무중단 유지가 아니라 장애 후 자동 재시작입니다.

    이제 각 기능이 무슨 뜻인지를 실습 느낌으로 적어드리면 이렇습니다.

     

     

    <개념>

    HA (High Availability)
    호스트가 죽었을 때 그 호스트에 있던 VM을 다른 정상 호스트에서 다시 켜주는 기능입니다. 평소에 자원을 고르게 나누는 기능이 아니라, 장애 복구 기능이라고 보면 됩니다. 즉 DRS가 평상시 운영 최적화라면, HA는 사고 났을 때를 대비하는 장치입니다.

    Host Monitoring
    클러스터 안 ESXi들이 서로 상태를 감시하는 기능입니다. 이게 있어야 “호스트가 실제로 죽었는지”, “잠깐 네트워크만 끊긴 건지”를 판단할 수 있습니다. HA가 동작하는 출발점이라고 보면 됩니다.

    Admission Control
    복구용 좌석을 미리 비워두는 개념입니다. 예를 들어 호스트 2대가 있는데 둘 다 이미 꽉 차게 VM을 돌리고 있으면, 한 대 죽었을 때 남은 한 대에 VM을 다시 못 올릴 수 있습니다. Admission Control은 그런 상황을 막으려고 일부 CPU/메모리를 failover용으로 남겨두는 정책입니다.

    VM Monitoring
    이건 ESXi가 죽은 게 아니라 게스트 OS나 VM이 멎었을 때 대응하는 옵션입니다. VMware Tools heartbeat 등을 보고 VM이 응답하지 않는다고 판단되면 reset할 수 있습니다. 즉 “호스트 장애용”인 HA와는 결이 조금 다르고, VM 내부 이상 감지 쪽이라고 보면 됩니다.

    Application Monitoring
    VM 안의 특정 애플리케이션 heartbeat까지 받아서 이상을 감지하는 확장 개념입니다. 그냥 VM이 살아있는지보다 더 안쪽까지 보는 기능입니다. HA application monitoring 문서도 guest 안의 heartbeat 신호를 ESXi/HA 쪽으로 전달하는 구조를 설명합니다.

    Heartbeat Datastores
    관리망이 끊겼을 때 무조건 “호스트 죽음”으로 오판하면 안 되니까, HA가 datastore heartbeat도 같이 참고해서 host failure와 network partition을 구분하는 데 쓰는 장치입니다. 실습에서는 크게 체감이 안 나도, HA 판단 정확도에 중요한 요소입니다.

    Isolation Response
    호스트가 완전히 꺼진 건 아닌데, 클러스터 다른 호스트들과 통신이 안 되는 host isolation 상황에서 어떻게 반응할지 정하는 옵션입니다. 공식 문서에 따르면 vSphere HA는 isolated host 위 VM들을 power off한 뒤 non-isolated host에서 restart하도록 구성할 수 있습니다. 즉 “고립된 호스트 위 VM을 그냥 둘지, 내리고 다른 곳에서 다시 켤지”를 정하는 값입니다.

     

     

     

     

     

     

     

     

     

     

    728x90

    댓글

Designed by Tistory.
티스토리 친구하기