[RTO vs RPO] 차이점과 실전 가이드!!




1) 정의 (간단명료)

  • RTO (Recovery Time Objective, 복구 목표 시간)
    장애 발생 시 서비스를 정상 상태로 복구하는 데 허용되는 최대 시간.
    → "서비스가 다운된 상태로 있어도 괜찮은 최대 시간"을 뜻함.

  • RPO (Recovery Point Objective, 복구 목표 시점)
    장애 시점으로부터 복구된 시스템이 허용할 수 있는 최대 데이터 손실 범위(시간).
    → "얼마나 최근 시점의 데이터까지 복구하면 괜찮은가" (예: 1시간 전까지의 데이터면 OK).


2) 핵심 차이 (한 줄 요약)

  • RTO = 시간(얼마나 빨리), RPO = 데이터(얼마나 최근까지).
    RTO는 가용성/복구 속도 관련, RPO는 데이터 손실량 관련이다.


3) 실제 예시 (숫자 들어간 시나리오)

  • 예) 웹 서비스에 장애 발생 시:

    • RTO = 2시간 → 장애 발생 후 2시간 이내에 서비스 복구 필요.

    • RPO = 15분 → 복구 시점에 손실될 수 있는 데이터는 최대 15분치 까지만 허용 (예: 마지막 백업/복제 지점은 장애 15분 전).

  • 데이터 관점 계산: 데이터 생성율이 분당 1,000건이면
    허용 손실 건수 = 1,000 * 15 = 15,000건 (RPO 15분 기준).


4) 어떻게 측정하고 구현하나

RTO 측정/구현 방법

  • 재해 시나리오를 만들고 복구 절차 실행 → 실제 걸린 시간 측정.

  • 복구 단계 예: 탐지 → 알림 → 장애 격리 → 서비스 재시작/리플레이스 → 데이터 복구 → 테스트 및 트래픽 전환.

  • 자동화(오케스트레이션, IaC, 스크립트)를 통해 RTO 단축 가능.

RPO 측정/구현 방법

  • 데이터 동기화 주기(백업 빈도, DB 복제 지연 등)를 설정.

  • 예: 실시간 복제(near-zero RPO), 5분 단위 증분 백업(RPO = 5분), 하루 1회 백업(RPO ≈ 24시간).

  • 로그 기반 복구(예: WAL replay), 스냅샷 전략, CDC(변경 데이터 캡처) 사용.


5) 기술적 옵션과 RTO/RPO 관계

  • 실시간 동기 복제 → RPO ≈ 0 (거의 데이터 손실 없음), 하지만 RTO는 인프라 복구 전략에 따름. 비용/지연(성능 영향) 발생.

  • 비동기 복제 / 5분 주기 백업 → RPO = 5분. 더 저렴하지만 데이터 손실 가능.

  • 핫 스탠바이(자동 페일오버) → RTO 매우 짧음(수초~몇분).

  • 콜드 스탠바이(수동 복구) → RTO 길어짐(수시간~수일).


6) 비용-리스크 트레이드오프

  • 짧은 RTO / 짧은 RPO → 높은 비용 (이중화, 실시간 복제, 자동 페일오버, 다중 리전).

  • 긴 RTO / 긴 RPO → 낮은 비용이지만 비즈니스 영향(수익 손실, 신뢰도 하락) 큼.

  • 핵심은 비즈니스 영향 분석(BIA): 서비스별로 허용 가치(금전적 손실, 규제, 고객 신뢰)를 기준으로 RTO/RPO 정함.


7) 의사결정 프로세스 (권장 흐름)

  1. 비즈니스 서비스 목록 작성

  2. 각 서비스의 핵심 거래/데이터 가치 평가

  3. BIA로 허용 가동중단 시간(금전적/평판 영향) 산정

  4. 서비스별 RTO, RPO 목표 설정

  5. 기술/운영(백업, 복제, 오케스트레이션)으로 목표 달성 방안 설계

  6. 정기 복구 테스트(드릴) 및 SLA 검증 → 목표 미달 시 개선


8) 점검 체크리스트 (실무용)

  • 각 서비스별 RTO, RPO 문서화했는가?

  • 현재 백업/복제 주기와 목표 RPO가 일치하는가?

  • 복구 Runbook(절차서)이 있고 자동화 가능한가?

  • 정기적으로 DR(복구) 테스트를 수행하는가? (권장: 분기별 또는 서비스 중요도에 따라)

  • SLA/SLO에 RTO/RPO가 반영되어 있는가?

  • 복구 후 데이터 정합성(무결성) 검사 절차가 있는가?

  • 운영 팀과 비즈니스 팀이 목표에 동의했는가?


9) 흔히 하는 실수 / 주의사항

  • RTO와 RPO를 동일하게 취급 → 둘은 완전히 다른 목적임.

  • 목표만 정하고 테스트 안 함 → 실제 복구 시 목표 달성 불가.

  • 비용 고려 없이 무리하게 0 RPO/RTO 목표 설정 → 과도한 비용 발생.

  • 백업은 있는데 복구 절차가 없거나 오래되어 복구 불가한 경우.


10) 짧은 요약

  • RTO = 얼마나 빨리 서비스 복구할 것인가 (시간)

  • RPO = 얼마나 최근 데이터까지 복구할 것인가 (데이터의 시점/손실 허용 범위)

  • 둘 다 비즈니스 영향(BIA)에 따라 결정하고, 기술/운영으로 뒷받침해야 함.




 

댓글

이 블로그의 인기 게시물

[8/9] 1184회 로또 당첨번호 추천!!

[AWS] SCP, OU, Policy 사용하기 !!

[AWS] AWS Activate 스타트업 $1,000 지원 성공

[Gemini API] 구글 생성형 AI API 모델별 요금 및 청구 방식!!

[8/2] 1183회 로또 당첨번호 추천!!

[Shopizer E‑commerce] Shopizer란?

[Vault] 온프레미스 구축 개요!!