GPT API 호출 비용이 월 수십만 원을 넘기 시작하면 가장 먼저 떠오르는 해법이 캐싱이다. 그런데 단순 문자열 매칭 캐시로는 “서울 날씨 알려줘”와 “오늘 서울 기온 어때?”를 같은 질문으로 인식하지 못한다. 여기서 등장하는 것이 시맨틱 캐싱이다. 이 글을 끝까지 읽으면 Redis 기반 벡터 유사도 캐시와 해시 기반 정확 매칭 캐시의 구조적 차이를 이해하고, 자신의 서비스에 맞는 캐싱 전략을 바로 설계할 수 있다.
정확 매칭 캐시는 프롬프트 텍스트를 해시값으로 변환해 키로 쓴다. 한 글자라도 다르면 캐시 미스가 발생한다. 반면 시맨틱 캐시는 프롬프트를 임베딩 벡터로 변환한 뒤, 기존 캐시 벡터와의 코사인 유사도가 임계값(보통 0.95 이상)을 넘으면 히트로 판정한다.
GPT API 비용을 아키텍처로 절반 넘게 줄이는 방법에서 다룬 것처럼, 캐싱은 비용 최적화의 첫 번째 레이어에 해당한다. 이 글에서는 그중 어떤 캐시를 선택해야 하는지 깊이 파고든다.
Redis Stack의 벡터 검색 모듈(RediSearch)을 활용하면 별도 벡터 DB 없이도 시맨틱 캐시를 구축할 수 있다. 흐름은 이렇다.
고객 상담 챗봇에 시맨틱 캐싱을 적용한 사례를 살펴보면, 비슷한 질문이 반복되는 CS 도메인에서 캐시 히트율이 40~60%까지 올라간 경우가 보고된다. 이는 API 호출 비용을 거의 절반 수준으로 줄인다는 뜻이다. 다만 임베딩 API 호출 비용이 건당 약 $0.00002 추가되므로, 원본 LLM 호출 비용 대비 이 오버헤드가 충분히 상쇄되는지 계산이 필요하다.
프롬프트 문자열을 SHA-256으로 해시한 값을 Redis 키로 사용한다. 구현이 놀라울 정도로 간단하다. Python 기준 10줄 안쪽이면 핵심 로직이 완성된다. 임베딩 모델 호출이 필요 없으니 조회 지연이 1ms 미만이고, 추가 API 비용도 제로다.
API 게이트웨이 수준의 캐싱이나 동일 프롬프트가 대량 반복되는 배치 파이프라인에서 위력을 발휘한다. 실제 적용 사례를 보면, 내부 데이터 분석 자동화 파이프라인에서 동일 쿼리 재실행 비율이 70%를 넘는 경우 해시 캐시만으로 API 비용을 대폭 절감한 사례가 있다. 캐시 히트 시 정확도는 100%라는 점도 크다. 시맨틱 캐시의 경우 유사도 임계값 설정이 낮으면 엉뚱한 응답을 반환할 위험이 있지만, 정확 매칭에는 이 문제가 원천적으로 없다.
주의: 해시 캐시는 프롬프트에 타임스탬프, 세션 ID 등 동적 요소가 포함되면 히트율이 급락한다. 캐시 키 생성 전에 불필요한 동적 요소를 정규화하는 전처리가 필수다.
어떤 캐시가 더 낫다고 단정하기 어렵다. 핵심은 서비스의 질문 패턴이다.
월 10만 건 API 호출 기준으로 비교하면 감이 온다. GPT-4o 호출 단가를 건당 평균 $0.03으로 잡으면 월 $3,000이다. 해시 캐시(히트율 20%)를 적용하면 $2,400으로 줄고, 시맨틱 캐시(히트율 50%)를 적용하면 $1,500 + 임베딩 비용 약 $2로 총 $1,502 수준이 된다. 토큰을 정확히 세는 것이 이런 시뮬레이션의 전제 조건이라는 점도 기억해야 한다.
실무에서 가장 효과적인 패턴은 계층형 캐시다. 첫 번째 레이어에서 해시 매칭으로 완전 일치를 빠르게 잡아내고, 두 번째 레이어에서 시맨틱 매칭으로 의미적 유사 질문까지 커버한다. LangChain의 캐싱 모듈이 이 구조를 기본으로 지원하므로 프레임워크 수준에서 빠르게 도입할 수 있다.
현실적인 한계도 짚어두자. 시맨틱 캐시는 모든 서비스에 적합하지 않다. 창의적 생성 태스크(소설 작성, 브레인스토밍)처럼 같은 질문에도 매번 다른 답을 원하는 경우에는 캐싱 자체가 맞지 않는다.
정리하면 이렇다. 해시 캐시는 빠르고 정확하지만 커버 범위가 좁고, 시맨틱 캐시는 커버 범위가 넓지만 설계와 운영에 신경 쓸 부분이 많다. 서비스 특성을 먼저 분석하고, 질문 변형 비율을 측정한 뒤 결정하는 것이 가장 합리적인 접근이다.
시맨틱 캐시는 의미 기반 매칭으로 히트율을 극대화하고, 해시 캐시는 정확도와 단순성에서 이긴다. 대부분의 프로덕션 환경에서는 두 방식을 조합한 계층형 캐시가 최적이다. 오늘 바로 할 수 있는 첫 단계는 현재 서비스의 API 호출 로그에서 유사 질문 비율을 측정하는 것이다. 그 수치가 30%를 넘으면 시맨틱 캐시 도입을 본격적으로 검토할 타이밍이다.
도심의 주요 역세권과 상업 지역을 중심으로 주상복합아파트에 대한 관심이 끊임없이 증가하고 있습니다.상업시설과 주거공간이 한 건물에…