본문 바로가기

공부 ✍/서버 끄적✍

LifeKeeper Failover 로그 분석

1️⃣ 개요

LifeKeeper 환경에서 VIP 장애 발생 후 페일오버 상황.

 

 

[node1]

 

[node2]

node1 ens224 링크 다운되어 node2로 페일오버된 상황.

2️⃣ LifeKeeper 로그 구조 이해

 

LifeKeeper 로그는 기본적으로 아래의 구조를 가지고 있음.

클래스:모듈:리소스:이벤트

 

예시:

ip:quickCheck:NGINX_VIP_192.168.11.176:Link check failed

 

ip → IP Recovery Kit
quickCheck → 상태 감지 모듈
NGINX_VIP_192.168.11.176 → 해당 리소스
Link check failed → 발생 이벤트

 

3️⃣ 장애 감지 구간 분석

로그:

ERROR:ip:quickCheck:NGINX_VIP_192.168.11.176:Link check failed
ERROR:ip:quickCheck:NGINX_VIP_192.168.11.176:the link for interface ens224 is down

 

장애 원인: 네트워크 레벨

 

  • VIP 문제가 아니라 NIC 링크 DOWN 상태임
  • ens224 인터페이스 링크 단절
  • 해당 인터페이스에 바인딩된 VIP 유지 불가

 

 

4️⃣ 로컬 복구 시도 구간

로그:

recover: BEGIN recover of NGINX_VIP_192.168.11.176
recover failed after event ip_pingfail
all attempts at local recovery have failed

 

의미:

  • pingfail 이벤트 발생
  • 로컬 노드 내 복구 시도 실패
  • 페일오버 판단 단계로 진입

 

5️⃣ 페일오버 대상 확인

node2 is a viable failover target

 

의미:

  • node2 정상 통신 가능
  • 전환 대상 적합 판정
  • 리소스 이동 단계 시작

 

6️⃣ node1 remove 순서

remove 단계는 항상 의존성 역순으로 진행됨.

Listener → DB → VIP → Filesystem → Datarep 순으로 의존성 해제.

 

로그:

BEGIN remove ORACLE_DB_LISTENER
END successful remove

BEGIN remove ORA19_DB
END successful remove

BEGIN remove ORACLE_DB_VIP
END successful remove

BEGIN remove /data
END successful remove

 

 

7️⃣ node2 restore 순서

restore는 의존성 정방향으로 수행됨.

Datarep   Filesystem   VIP   DB   Listener 순으로 계층 복구.

BEGIN restore datarep-data
BEGIN restore /data
BEGIN restore ORACLE_DB_VIP
BEGIN restore ORA19_DB
BEGIN restore ORACLE_DB_LISTENER
END successful restore

 

 

 

 

8️⃣ 빠른 로그 분석 키워드

LifeKeeper 로그는 길기 때문에 아래 키워드 위주로 분석함.

quickCheck   → 장애 감지
pingfail     → 네트워크 단절 판단
recover      → 복구 시도
remove       → 기존 노드 해제
restore      → 대상 노드 활성화
canfailover  → 전환 판단

 

 

9️⃣ 정상 여부 판단 기준

정상 전환 기준:

  • 모든 remove 단계에서 END successful
  • 모든 restore 단계에서 END successful
  • DB start 정상
  • Listener 정상
  • VIP 단일 노드에서만 활성화

비정상 징후:

  • 반복 recover 루프
  • remove 실패
  • restore 중단
  • VIP 중복 활성화

 


정리

 

  • quickCheck는 최초 감지 지점.
  • recover는 복구 시도 단계.
  • remove/restore는 리소스 이동 단계.