클라우드 비용 청구서를 열어보고 깜짝 놀란 경험, 한 번쯤 있을 것이다. 온디맨드 요금만으로 인프라를 운영하면 매달 예산이 눈덩이처럼 불어난다. 이 글에서는 AWS, Azure, GCP 세 플랫폼의 예약 인스턴스와 스팟 인스턴스를 비용 관점에서 정면 비교한다. 끝까지 읽으면 워크로드 특성에 맞는 할인 모델을 직접 선택하고, 월 클라우드 비용을 20~70%까지 줄이는 판단 기준을 갖게 된다.
예약 인스턴스(RI)는 1년 또는 3년 사용을 약정하고 온디맨드 대비 30~72% 할인을 받는 모델이다. AWS에서는 Reserved Instance와 Savings Plans, Azure에서는 Reserved VM Instance, GCP에서는 Committed Use Discount(CUD)라는 이름으로 제공한다. 핵심은 확정된 사용량을 미리 약속하는 것이다.
스팟 인스턴스는 완전히 다른 구조다. 클라우드 제공자의 남는 서버 용량을 시장 가격에 빌려 쓴다. AWS Spot Instance, Azure Spot VM, GCP Preemptible/Spot VM이 이에 해당하며, 할인율이 60~90%에 달하지만 언제든 2분 내 회수될 수 있다. 짧게 말해, RI는 ‘장기 계약 할인’, 스팟은 ‘땡처리 세일’이다.
동일한 4vCPU/16GB 범용 인스턴스 기준으로 비교하면 차이가 선명해진다. AWS m6i.xlarge의 경우 온디맨드 시간당 약 $0.192인데, 1년 RI 전체 선결제 시 $0.121(약 37% 할인), 3년이면 $0.076(약 60% 할인)까지 내려간다. 같은 인스턴스의 스팟 가격은 리전과 시점에 따라 $0.04~0.08 수준으로, 최대 79% 할인이 가능하다.
Azure의 D4s v5도 비슷한 패턴을 보인다. 1년 예약 시 약 36%, 3년 시 약 57% 할인. 스팟은 최대 90%까지 떨어지지만 인기 리전에서는 축출률이 높아 실질 가용 시간이 줄어든다. GCP의 n2-standard-4는 1년 CUD 약 37%, 3년 CUD 약 55% 할인이며, Spot VM은 60~91% 할인 범위다. GCP 공식 문서에 따르면 Spot VM은 24시간 최대 수명 제한이 사라졌지만 여전히 선점 가능성은 존재한다.
단순 시간당 단가만 보면 스팟이 압도적이다. 하지만 실제 총소유비용(TCO)은 다르다. 스팟 인스턴스 중단에 대비한 아키텍처 설계 비용, 체크포인팅 로직 개발 시간, 그리고 중단 시 재시작으로 인한 작업 낭비가 발생한다. 예약 인스턴스는 약정 기간 동안 사용량이 줄어도 비용이 고정되므로 과잉 프로비저닝 리스크가 있다.
24시간 365일 돌아가는 워크로드가 대표적이다. 프로덕션 데이터베이스, 핵심 API 서버, 모니터링 인프라처럼 중단이 곧 매출 손실로 이어지는 서비스에는 예약 인스턴스가 정답이다. 실제 적용 사례를 살펴보면, 한 SaaS 기업이 프로덕션 RDS와 EKS 노드에 3년 Savings Plans를 적용해 연간 인프라 비용을 42% 절감한 사례가 있다.
반면 배치 처리, CI/CD 파이프라인, 데이터 분석, 머신러닝 학습 같은 중단 허용(fault-tolerant) 워크로드에서는 스팟이 압도적으로 유리하다. 많은 기업이 처음에는 온디맨드로 ML 학습을 돌리다가, 스팟으로 전환한 뒤 같은 예산으로 3~4배 더 많은 실험을 수행하게 된다. AWS에서는 Spot Fleet, GCP에서는 Managed Instance Group을 활용하면 자동으로 가용한 스팟 용량을 확보해준다. AWS Spot 공식 페이지에서 아키텍처 모범 사례를 확인할 수 있다.
장점은 명확하다. 비용 예측이 쉽고, 용량이 보장되며, 안정적으로 할인을 받는다. 그런데 함정도 있다.
GCP의 CUD는 비교적 유연한 편이다. 리소스 기반 약정이라 특정 인스턴스 타입에 묶이지 않고 vCPU와 메모리 단위로 약정할 수 있다.
할인율은 매력적이지만 모든 경우에 적용되지 않을 수 있다. 핵심 리스크를 정리하면 이렇다.
실용적 팁: 예약과 스팟을 양자택일로 볼 필요가 없다. 기본 부하는 예약, 피크 트래픽은 스팟, 나머지는 온디맨드로 혼합하는 것이 FinOps 비용 최적화를 실현한 기업들의 공통 전략이다.
아래 순서대로 진행하면 불필요한 시행착오를 줄일 수 있다.
검증된 접근법은 70-20-10 비율이다. 기본 부하의 70%를 예약으로, 변동 부하의 20%를 스팟으로, 나머지 10%를 온디맨드 버퍼로 둔다. 물론 이 비율은 비즈니스 특성에 따라 조정해야 한다. FinOps 도입 첫걸음 가이드에서 비용 가시성 확보부터 시작하는 방법을 참고하면 도움이 된다. 부서별 비용 태깅과 거버넌스 정책 수립은 별도 글에서 다루고 있으니 함께 살펴보길 권한다.
예약 인스턴스는 안정성과 예측 가능한 할인을, 스팟 인스턴스는 극한의 비용 절감을 제공한다. 둘 중 하나만 고르는 것이 아니라, 워크로드 성격에 맞게 혼합하는 것이 핵심이다. 오늘 당장 클라우드 콘솔에서 지난 3개월 사용량 리포트를 뽑아보자. 상시 가동 vs 변동 워크로드 분류가 비용 최적화의 첫 단추다. 클라우드 비용 최적화 도구 비교와 거버넌스 정책 수립 방법은 시리즈의 다음 글에서 이어진다.
예상치 못한 자금이 필요할 때 퇴직연금담보대출을 고려하는 직장인들이 늘어나고 있습니다.퇴직연금을 해지하지 않고도 적립금을 담보로 대출을…
재테크에 관심이 있는 많은 이들이 ‘절세의 아이콘’으로 알려진 개인종합자산관리계좌(ISA)에 대한 관심이 계속해서 높아지고 있습니다.다양한 금융…