Datadog 청구서가 매달 올라가는데, 팀 미팅에서 나오는 대답은 늘 같다 — "로그 볼륨 줄여야죠." 틀린 말은 아닌데, 그게 전부는 아니다.
API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.
작년 말, 우리 팀 RAG 파이프라인의 답변 품질이 정체기에 들어섰다. 사용자가 "최근 3개월 매출 추이랑 작년 동기 대비 변화율 알려줘"라고 물으면 매출 추이만 가져오고 변화율은 빠뜨리는 식이었다.
월 API 비용이 1,200만원을 찍은 달, 팀 슬랙에 "우리도 자체 인퍼런스 올리자"는 스레드가 열렸다. "GPU 서버 리스하면 절반은 아끼겠다"는 대략적인 계산이 붙었고, CTO도 동의했다.
지난 3월, "프론티어 모델에 다 보내면 비용이 너무 나온다"는 문제를 해결하겠다고 모델 라우터를 도입했다. 분류 모델 하나가 요청을 보고 "이건 SLM으로 충분", "이건 프론티어로" 판단하는 구조다.
작년에 팀이 셋으로 쪼개지면서 클러스터를 5개에서 12개로 늘렸다. 다음 달 AWS 청구서에 컨트롤 플레인 비용만 월 86만원이 찍혀 있었다.
DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.
2020년에 사이드 프로젝트 하나 돌리려면 매달 최소 5만원은 서버비로 날렸다. EC2 하나, RDS 하나, 도메인, SSL — 유저 0명인데 인프라 비용만 쌓이는 게 일상이었다.
LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?
"모델 컨텍스트가 100만 토큰이면 문서 전부 때려넣으면 되지 않나?" 1월에 팀 회의에서 누군가 던진 이 질문에 아무도 반박하지 못했다.
API 비용 청구서를 보고 "이 돈이면 GPU를 사겠다"고 생각한 적 있을 거다. 우리 팀도 똑같은 계산을 했다.
월 API 청구서가 2천만 원을 넘기자 팀에서 당연한 제안이 나왔다. 프로덕션 트래픽의 80%가 분류와 요약 같은 단순 태스크인데, 큰 모델 출력으로 작은 모델을 학습시켜 자체 서빙하면 비용이 확 줄지 않겠냐는 거다.
작년 12월, 우리 팀의 RAG 파이프라인에 OpenTelemetry 트레이싱을 붙였다. 에이전트가 가끔 이상한 응답을 내놓는데 어디서 문제인지 찾을 수가 없어서였다.
올해 클라우드 비용 리뷰 미팅에서 GPU 항목 보고 한숨 안 쉰 팀이 있나. AI 워크로드가 프로덕션에 올라가면서 GPU 인스턴스 비용이 전체 클라우드 지출의 40~60%를 차지하는 팀이 늘고 있다.
고객 문의 응대 서비스에서 할루시네이션이 한 달에 200건씩 올라오길래, "응답 모델이 대답하고 다른 모델이 검증하면 되지 않나?"라는 아이디어를 실행에 옮겼다.
벤더 세일즈 덱에서 "Semantic Cache 95% accuracy"라는 문구를 봤을 때, 나는 당연히 그게 히트율이라고 생각했다. 한 달 뒤 우리 챗봇이 잘못된 답을 매우 자신있게 뱉기 시작했고, CS 큐가 두 배로 늘었다.
3월 초에 API 비용 리포트를 열었더니 월 1,800만 원이 찍혀 있었다. 챗봇 서비스가 모든 고객 문의를 동일한 프론티어 모델 하나로 처리하고 있었기 때문이다.
작년 가을, 고객사 문의를 자동으로 분류하는 시스템을 만들게 됐다. CS 팀에서 매일 수천 건을 수작업으로 나누고 있었고, GPT-4급 모델에 프롬프트만 넣어보니 정확도 82%.
지난 달 우리 팀은 기존 RAG 파이프라인에 에이전트 루프를 추가했다. 검색 결과를 보고 "이걸로 충분한가?