CrowdStrike 업데이트로 인한 대규모 기술 장애로 수백만 명의 Microsoft 기술 사용자의 디바이스가 중단되어 은행, 미디어 회사, 응급 서비스 운영을 중단시키고 수많은 항공사의 항공편 운항 중단을 초래했습니다. 이 사건은 글로벌 디지털 인프라가 얼마나 취약하고 상호 의존적인지를 여실히 보여줍니다.
대부분의 조직은 건물 파손, 인력 상실, 공급망 중단과 같은 최악의 시나리오를 대비한 비즈니스 연속성 플랜을 갖추고 있습니다. 하지만 종종 무시되는 상황이 있습니다. 바로 IT 서비스 손실입니다. 그러나 오늘날의 모덴 디지털 업무 환경에서 IT 서비스는 비즈니스 운영에 핵심 요소이며 더 이상 무시할 수 없습니다. IT 서비스가 중단되면 비즈니스도 중단되어 시간, 비용, 생산성 손실을 초래할 수 있습니다.
Microsoft와 같은 클라우드 공급업체는 이러한 서비스에 대해 책임이 지지 않습니다. 실제로 Microsoft의 공유 책임 모델은 인프라 장애, 사용자 또는 관리자 오류, 소프트웨어 손상 또는 악의적 공격 등 상황에 대한 책임이 고객에게 있음을 명확히 규정하고 있습니다. 데이터와 ID 보안 보호는 전적으로 고객에게 달려 있습니다.
어떤 상황에서도 비즈니스 연속성을 보장하기 위해 재해 복원 플랜이 필요합니다. 구축 시작하기 위한 다음 6단계를 확인해 보세요.
Azure 재해 복원 전략 구축을 위한 무료 가이드를 확인하세요.
1단계: 환경 및 구조 평가
클라우드로 최대한 빠르게 마이그레이션하기 위해 '리프트 앤 시프트' 방식을 활용하는 경우, 이 단계는 매우 중요합니다. 하지만 이 방식은 올바르고 안전한 마이그레이션보다는 빠른 도입에 중점을 두기 때문에, 결과적으로 취약하고 정리되지 않은 환경을 만들 수 있습니다.

현재 환경을 검토하여 개선이 필요한 부분을 파악하는 것이 중요합니다. AvePoint Discovery Tool과 같은 제품을 사용하면 시행착오 없이 콘텐츠 저장 위치를 찾고, 보유량과 관련성을 파악하며, 구조를 개선하기 위한 플랜을 수립할 수 있습니다.
환경과 구조를 개선하는 것은 스토리지 비용 절감, 거버넌스 간소화 등 현재의 이점 뿐만 아니라 정보 수명 주기 관리 구현, 잠재적인 인수합병(M&A) 실행, 그리고 가장 중요한 비즈니스 연속성 플랜 수립을 위한 핵심 기반이 됩니다.
2단계: IT 서비스 및 시스템 인벤토리 구축
다음으로, 규모가 크고 작은 것, 내부 및 외부 시스템의 인벤토리를 구축하고 이들이 비즈니스에 중요한 이유를 파악해야 합니다. 기억하세요 - 당신의 환경이 무엇인지 파악되지 않는다면, 문제가 생겼을 때 아무도 제대로 복원할 수 없습니다.
먼저, 전체 환경에 대한 검색 스캔을 실행합니다(1단계 참조). 자체 개발한 애플리케이션부터 가상머신까지 보유한 모든 서비스 또는 시스템을 추적하고 그 존재 이유를 파악해야 합니다. 그런 다음, 시스템 간의 종속성을 매핑합니다. 예를 들어, 특정 애플리케이션의 기능에 의존하는 비즈니스 기반한 자동화 프로세스가 있는 경우입니다. 이러한 종속성은 현재로서는 중요하지 않아 보일 수 있지만, 사고 발생 시 복원 순서를 결정하는 데 매우 중요합니다.
3단계: 가장 중요한 시스템 식별
모든 IT 시스템이 동등하게 중요한 것은 아닙니다. 휴가 신청 애플리케이션이 중단되면 불편하겠지만, 고객 기록에 액세스할 수 없는 것만큼 비즈니스가 중단되지는 않을 것입니다. 인벤토리 항목을 비즈니스에 미치는 영향에 따라 순위를 매겨야 하며, 이는 비즈니스 영향 분석(BIA) 수립의 첫 번째 단계로 여겨집니다.

핵심은 손실 또는 시스템 중단으로 인한 실제 비용을 파악하는 것입니다. 특정 기간 동안 시스템에 액세스할 수 없는 경우 얼마나 많은 손실(시간, 생산성, 비용 등)이 발생할까요? 가장 큰 손실을 초래할 수 있는 시스템을 최우선 순위로 분류해야 합니다. 각 시스템의 비즈니스 중요도와 손실 비용을 파악하기 전까지 재해 복원 플랜에 투입할 예산을 결정할 수 없습니다.
4단계: RPO, RTO, RLO 설정
최악의 상황을 피하기 위해 최선을 다하겠지만, 피할 수 없는 서비스 중단 또는 잠재적인 데이터 손실 등 최악의 시나리오에 대비해야 합니다. 이를 위해 시스템 중단 발생 시 복원 지점 목표(RPO), 복원 수준 목표(RLO), 복원 시간 목표(RTO)를 설정하세요.
이러한 약어들을 자주 들어보셨을 것입니다. 각각은 서로 다른 의미를 가집니다. RPO는 마지막 백업과 잠재적 장애 지점 간의 최대 허용 시간을 결정하고, RLO는 데이터 복원에 필요한 세부화 수준을 정의하며, RTO는 비즈니스가 허용할 수 있는 최대 복원 시간을 결정합니다. 하지만 모두 하나의 핵심 질문으로 요약됩니다. 시스템을 얼마나 빨리 백업하여 운영을 정상적으로 실행할 수 있습니까?
비즈니스의 우선순위에 따라 목표의 우선순위가 결정됩니다. 환자 기록을 분실한 병원의 경우 세분화된 복원에 더 집중할 수 있고, CRM이 모든 비즈니스 활동의 핵심인 경우 가장 빠른 복원 기능이 필요할 것입니다. 각 조직만이 자신에게 가장 중요한 것이 무엇인지 판단할 수 있습니다.
이전에 수립한 시스템 중요도 분석 결과를 바탕으로, 데이터 포인트를 참조하여 특정 시스템이 손실을 발생시키기 시작하기 전까지 중단될 수 있는 정확한 시간을 결정하세요. 그런 다음 비즈니스에 적합한 각 목표별 메트릭을 결정할 수 있습니다.

5단계: RPO, RTO 및 RLO 테스트
주요 목표를 설정했으면 이제 직접 테스트할 차례입니다. 속도, 세분화 수준, 잠재적 데이터 손실 등 메트릭을 테스트하지 않으면 재해 발생 시 이러한 목표가 실현 가능한지 확인할 수 없습니다. "재해가 발생하면 무엇을 해야 할지 알 것 같다"는 생각에서 "무슨 일이 발생하더라도 정확히 무엇을 해야 하는지 알고 있다"는 확신으로 전환하는 것이라고 생각하시면 됩니다.
첫 번째 시도에서 목표를 달성하지 못하더라도 걱정하지 마세요. 우선순위에 따라 항상 개선할 여지가 있기 때문입니다. 반복적으로 테스트하고 프로세스를 개선했음에도 목표를 달성하지 못한다면, 목표 달성에는 그만한 비용이 수반된다는 것을 깨닫게 될 것입니다.
현재 상태에서 무엇이 가능한지 파악했다면, 목표 개선에 필요한 리소스를 결정할 수 있습니다. 더 빠른 백업하기 위해 어느 정도의 데이터 손실을 감수할지 결정하는 등 목표를 재조정하거나, AvePoint Cloud Backup for Azure와 같은 도구에 투자하여 세분화 수준 또는 시간을 희생하지 않고 프로세스를 최적화 또는 자동화할 수 있습니다.
6단계: 재해 복원 예산 확보
철저한 준비를 통해 최악의 시나리오 발생 시 비즈니스 복원을 위해 무엇이 필요한지 파악했습니다. 경영진과 같이 이 과정에 익숙하지 않은 사람들은 데이터가 클라우드에 저장되면 보호된다고 생각하기 때문에 왜 비용을 투자해야 하는지 이해하지 못할 수 있습니다.
이미 Microsoft의 공유 책임 모델에 대해 설명했으며, 다경영진에게 설명할 수 있는 다른 클라우드 제공업체들의 유사한 정책들도 있습니다. 하지만 더 중요한 것은 이러한 비용이 어디서 발생하는지, 그리고 비용과 관련된 위험과 가치를 구체적으로 입증하는 것입니다.

재해 복원 플랜은 투자이지만, 투자하지 않았을 때의 비용은 훨씬 더 큽니다. 특히 평판 손상이나 고객 이탈과 같이 계량화할 수 없는 비용까지 고려하면 더욱 그렇습니다. 재해 복원에 대한 투자는 비즈니스 중단으로부터 보호받을 때 가동시간 향상이라는 형태로 그 가치를 되돌려줄 것입니다.
결론
재해 복구 계획을 수립하는 것은 방대한 작업입니다. 하지만 빨리 시작할수록 더 나은 보호를 받을 수 있습니다. 따라서 작은 것부터 시작하세요. 가장 기본적이고 중요한 IT 서비스를 먼저 보호하고, 안정적인 보호와 안심을 제공할 수 있는 전문 파트너와 협력하시기 바랍니다.
AvePoint 백업 솔루션은 비즈니스 복원력을 보장합니다. Microsoft 365, Entra ID, Power Platform, Dynamics 365, Salesforce, Amazon Web Services, Google Workspace를 위한 직관적인 솔루션으로 조직 전반에 걸쳐 포괄적인 보호와 신속한 빠른 복원 기능을 제공합니다. 데모를 요청하여 AvePoint의 전문가와 삼담하여 지금 바로 Azure 재해 복원 플랜 구축을 시작하세요.

