[RTO vs RPO] 차이점과 실전 가이드!!
1) 정의 (간단명료)
-
RTO (Recovery Time Objective, 복구 목표 시간)
장애 발생 시 서비스를 정상 상태로 복구하는 데 허용되는 최대 시간.
→ "서비스가 다운된 상태로 있어도 괜찮은 최대 시간"을 뜻함. -
RPO (Recovery Point Objective, 복구 목표 시점)
장애 시점으로부터 복구된 시스템이 허용할 수 있는 최대 데이터 손실 범위(시간).
→ "얼마나 최근 시점의 데이터까지 복구하면 괜찮은가" (예: 1시간 전까지의 데이터면 OK).
2) 핵심 차이 (한 줄 요약)
-
RTO = 시간(얼마나 빨리), RPO = 데이터(얼마나 최근까지).
RTO는 가용성/복구 속도 관련, RPO는 데이터 손실량 관련이다.
3) 실제 예시 (숫자 들어간 시나리오)
-
예) 웹 서비스에 장애 발생 시:
-
RTO = 2시간 → 장애 발생 후 2시간 이내에 서비스 복구 필요.
-
RPO = 15분 → 복구 시점에 손실될 수 있는 데이터는 최대 15분치 까지만 허용 (예: 마지막 백업/복제 지점은 장애 15분 전).
-
-
데이터 관점 계산: 데이터 생성율이 분당 1,000건이면
허용 손실 건수 = 1,000 * 15 = 15,000건 (RPO 15분 기준).
4) 어떻게 측정하고 구현하나
RTO 측정/구현 방법
-
재해 시나리오를 만들고 복구 절차 실행 → 실제 걸린 시간 측정.
-
복구 단계 예: 탐지 → 알림 → 장애 격리 → 서비스 재시작/리플레이스 → 데이터 복구 → 테스트 및 트래픽 전환.
-
자동화(오케스트레이션, IaC, 스크립트)를 통해 RTO 단축 가능.
RPO 측정/구현 방법
-
데이터 동기화 주기(백업 빈도, DB 복제 지연 등)를 설정.
-
예: 실시간 복제(near-zero RPO), 5분 단위 증분 백업(RPO = 5분), 하루 1회 백업(RPO ≈ 24시간).
-
로그 기반 복구(예: WAL replay), 스냅샷 전략, CDC(변경 데이터 캡처) 사용.
5) 기술적 옵션과 RTO/RPO 관계
-
실시간 동기 복제 → RPO ≈ 0 (거의 데이터 손실 없음), 하지만 RTO는 인프라 복구 전략에 따름. 비용/지연(성능 영향) 발생.
-
비동기 복제 / 5분 주기 백업 → RPO = 5분. 더 저렴하지만 데이터 손실 가능.
-
핫 스탠바이(자동 페일오버) → RTO 매우 짧음(수초~몇분).
-
콜드 스탠바이(수동 복구) → RTO 길어짐(수시간~수일).
6) 비용-리스크 트레이드오프
-
짧은 RTO / 짧은 RPO → 높은 비용 (이중화, 실시간 복제, 자동 페일오버, 다중 리전).
-
긴 RTO / 긴 RPO → 낮은 비용이지만 비즈니스 영향(수익 손실, 신뢰도 하락) 큼.
-
핵심은 비즈니스 영향 분석(BIA): 서비스별로 허용 가치(금전적 손실, 규제, 고객 신뢰)를 기준으로 RTO/RPO 정함.
7) 의사결정 프로세스 (권장 흐름)
-
비즈니스 서비스 목록 작성
-
각 서비스의 핵심 거래/데이터 가치 평가
-
BIA로 허용 가동중단 시간(금전적/평판 영향) 산정
-
서비스별 RTO, RPO 목표 설정
-
기술/운영(백업, 복제, 오케스트레이션)으로 목표 달성 방안 설계
-
정기 복구 테스트(드릴) 및 SLA 검증 → 목표 미달 시 개선
8) 점검 체크리스트 (실무용)
-
각 서비스별 RTO, RPO 문서화했는가?
-
현재 백업/복제 주기와 목표 RPO가 일치하는가?
-
복구 Runbook(절차서)이 있고 자동화 가능한가?
-
정기적으로 DR(복구) 테스트를 수행하는가? (권장: 분기별 또는 서비스 중요도에 따라)
-
SLA/SLO에 RTO/RPO가 반영되어 있는가?
-
복구 후 데이터 정합성(무결성) 검사 절차가 있는가?
-
운영 팀과 비즈니스 팀이 목표에 동의했는가?
9) 흔히 하는 실수 / 주의사항
-
RTO와 RPO를 동일하게 취급 → 둘은 완전히 다른 목적임.
-
목표만 정하고 테스트 안 함 → 실제 복구 시 목표 달성 불가.
-
비용 고려 없이 무리하게 0 RPO/RTO 목표 설정 → 과도한 비용 발생.
-
백업은 있는데 복구 절차가 없거나 오래되어 복구 불가한 경우.
10) 짧은 요약
-
RTO = 얼마나 빨리 서비스 복구할 것인가 (시간)
-
RPO = 얼마나 최근 데이터까지 복구할 것인가 (데이터의 시점/손실 허용 범위)
-
둘 다 비즈니스 영향(BIA)에 따라 결정하고, 기술/운영으로 뒷받침해야 함.
댓글
댓글 쓰기