LLM API 토큰 과금, 처음 도입할 때 반드시 알아야 할 비용 구조 완전 해부

LLM API 비용 최적화

API 키 하나 발급했을 뿐인데, 청구서는 왜 이렇게 나올까

ChatGPT를 써보고 “우리 서비스에도 붙여보자”고 결심한 순간, 가장 먼저 부딪히는 벽이 있다. 바로 비용이다. 월 20달러짜리 구독과 API 과금은 완전히 다른 세계인데, 많은 팀이 이 차이를 모른 채 개발부터 시작한다.

이 글을 끝까지 읽으면 토큰이 뭔지, 어떻게 돈이 빠져나가는지, 첫 프로젝트에서 예산을 어떻게 잡아야 하는지 명확하게 파악할 수 있다. 실제 도입 사례 두 가지를 비교하면서, 같은 기능을 만들어도 비용이 10배 차이 나는 이유까지 짚어본다.

LLM API 비용 구조, 토큰 과금 방식이란 정확히 무엇인가

토큰의 정체와 계산 원리

토큰은 LLM이 텍스트를 처리하는 최소 단위다. 영어에서는 대략 단어 1개가 1~1.3토큰, 한국어에서는 한 글자가 1~3토큰으로 쪼개진다. “안녕하세요”라는 다섯 글자가 5토큰이 아니라 7~8토큰으로 잡히는 식이다. OpenAI 공식 토큰 가이드에서 토크나이저를 직접 테스트해볼 수 있다.

입력 토큰과 출력 토큰, 요금이 다르다

핵심은 이것이다. 보내는 글(입력)과 받는 글(출력)의 단가가 다르다. GPT-4o 기준 입력은 100만 토큰당 2.5달러, 출력은 10달러로 4배 차이가 난다. 프롬프트를 길게 쓰면 입력 비용이, 답변을 길게 받으면 출력 비용이 올라간다. 여기에 시스템 프롬프트까지 매 요청마다 반복 전송되니, 모르는 사이에 입력 토큰이 쌓인다.

  • 입력 토큰: 시스템 프롬프트 + 사용자 메시지 + 대화 히스토리
  • 출력 토큰: AI가 생성한 응답 전체
  • 대화가 길어질수록 히스토리 누적으로 입력 토큰이 기하급수적으로 증가

월 5만원으로 챗봇 운영에 성공한 팀은 뭐가 달랐을까

작은 모델과 프롬프트 압축의 조합

실제 적용 사례를 살펴보면, 한 국내 이커머스 스타트업이 고객 문의 챗봇에 LLM API를 붙였다. 이 팀은 처음부터 GPT-4가 아닌 GPT-4o-mini를 선택했다. 단가가 약 10분의 1 수준이었기 때문이다.

그보다 더 중요했던 건 프롬프트 설계다. 시스템 프롬프트를 300토큰 이내로 압축하고, 대화 히스토리는 최근 3턴만 유지했다. 답변도 200자 이내로 제한을 걸었다. 일 평균 500건 문의를 처리하면서 월 API 비용이 4~5만원 선에서 안정적으로 유지됐다.

비용 추적을 처음부터 설계에 포함

이 팀이 특별했던 이유가 하나 더 있다. 모든 API 호출에 토큰 사용량을 로깅하는 코드를 초기부터 심어뒀다. 응답 객체의 usage 필드에서 prompt_tokens와 completion_tokens를 꺼내 일별로 집계한 것이다. 덕분에 특정 유형의 질문이 비용을 많이 잡아먹는다는 걸 2주 만에 발견하고, 해당 카테고리만 규칙 기반으로 돌렸다.

LLM API 비용 최적화

예산 초과 3배, 토큰 과금 방식을 몰라서 생긴 실패 사례

“GPT-4로 전부 돌리면 되겠지”의 함정

반면 교훈을 남긴 사례도 있다. 한 B2B SaaS 팀이 내부 문서 검색 + 요약 기능에 GPT-4 Turbo를 도입했다. 문서를 통째로 프롬프트에 넣고, 대화 컨텍스트도 10턴까지 유지하는 설계였다. 개발 중에는 테스트 호출이 적어 비용이 안 보였다.

문제는 사내 배포 후 터졌다. 직원 50명이 하루 평균 20번씩 질문하자, 월 청구서가 300만원을 넘겼다. 예상 예산의 3배였다. 긴 문서가 매번 입력 토큰으로 잡히고, 대화가 이어질수록 토큰이 눈덩이처럼 불어난 게 원인이었다.

뒤늦게 깨달은 계층적 모델 전략

이 팀은 결국 아키텍처를 전면 수정했다. 문서 검색은 임베딩 기반 RAG로 전환하고, 단순 요약은 GPT-4o-mini로 내리고, 복잡한 분석만 GPT-4o를 쓰는 구조로 바꿨다. API 비용을 아키텍처로 절반 넘게 줄인 사례에서 이런 계층적 접근이 왜 효과적인지 더 자세히 다루고 있다. 결과적으로 월 비용이 80만원대로 내려왔지만, 처음부터 알았다면 불필요한 지출을 피할 수 있었다.

LLM API 초보자가 반드시 기억해야 할 비용 관리 핵심 교훈

세 가지 비용 레버

두 사례를 비교하면 패턴이 뚜렷하다. LLM API 비용을 좌우하는 레버는 크게 세 가지다.

  • 모델 선택 — 같은 OpenAI라도 GPT-4o와 GPT-4o-mini의 가격 차이가 10배 이상. 모든 요청에 최고 모델을 쓸 필요가 없다.
  • 컨텍스트 관리 — 시스템 프롬프트 길이, 대화 히스토리 유지 턴 수, 문서 삽입 방식이 입력 토큰을 결정한다.
  • 출력 제어 — max_tokens 파라미터로 응답 길이를 제한하고, 불필요하게 장황한 답변을 막아야 한다.

도입 전 비용 시뮬레이션은 필수

많은 사람이 처음에는 “일단 만들고 나서 최적화하자”고 생각한다. 하지만 토큰 과금 모델에서는 설계 단계의 결정이 운영 비용의 80%를 좌우한다. 간단한 스프레드시트로라도 예상 호출 수 × 평균 토큰 × 단가를 곱해보는 작업이 첫걸음이다. Google AI 가격 페이지처럼 주요 제공사의 공식 요금표를 나란히 놓고 비교하면 감이 빨리 잡힌다.

LLM API 비용 최적화

오늘 당장 시작하는 LLM API 비용 설계 실행 계획

첫째 주: 프로토타입과 측정

가장 저렴한 모델(GPT-4o-mini, Claude Haiku 등)로 프로토타입을 만들고, 모든 호출의 토큰 사용량을 기록하라. API 응답의 usage 객체를 파싱해서 CSV나 간단한 DB에 쌓으면 된다. 이 데이터 없이는 어떤 최적화도 감으로 하는 것이다.

둘째 주: 분석과 전략 수립

쌓인 데이터를 보고 세 가지를 판단한다.

  • 어떤 기능이 토큰을 가장 많이 쓰는가
  • 해당 기능에 정말 고성능 모델이 필요한가
  • 프롬프트나 히스토리를 줄일 여지가 있는가

비용 한도(spending limit)를 반드시 설정하라. OpenAI와 Anthropic 모두 대시보드에서 월 상한선을 지정할 수 있다. 예상치 못한 트래픽 폭증이나 코드 버그로 인한 무한 루프 호출은 누구에게나 일어날 수 있다.

정리하며

LLM API 토큰 과금의 핵심은 단순하다. 보내는 글과 받는 글 모두에 돈이 붙고, 대화가 길어질수록 비용이 누적된다. 작은 모델로 시작해서 측정하고, 필요한 곳에만 큰 모델을 쓰는 게 정답이다. 오늘 할 일은 딱 하나, OpenAI나 Anthropic 계정에서 API 키를 발급받고 playground에서 토큰 카운터를 직접 확인해보는 것이다. 비용 모니터링과 Rate Limit 설정에 대해서는 실전 체크리스트를 참고하면 바로 적용할 수 있다.

댓글 남기기