← 탐색

태그된 포스트: 비용최적화

AI 실무 적용기 · ·3분 읽기

트래픽의 70%를 Haiku로 돌렸더니 오히려 빨라졌다

운영비 리포트를 열어보고 숨이 막혔다. 월 420만 원.

llm라우팅비용최적화프로덕션
클라우드 네이티브 · ·3분 읽기

Datadog 청구서가 아파서 OTTL을 배웠다

Datadog 청구서가 매달 올라가는데, 팀 미팅에서 나오는 대답은 늘 같다 — "로그 볼륨 줄여야죠." 틀린 말은 아닌데, 그게 전부는 아니다.

opentelemetryottlobservability
AI 실무 적용기 · ·2분 읽기

시맨틱 캐시 달았더니 틀린 답이 더 빠르게 퍼졌다

API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.

시맨틱캐시캐시포이즈닝llm
AI 실무 적용기 · ·3분 읽기

검색을 LLM이 알아서 하게 했더니 요금이 8배 뛰었다

작년 말, 우리 팀 RAG 파이프라인의 답변 품질이 정체기에 들어섰다. 사용자가 "최근 3개월 매출 추이랑 작년 동기 대비 변화율 알려줘"라고 물으면 매출 추이만 가져오고 변화율은 빠뜨리는 식이었다.

에이전틱rag비용최적화프로덕션
AI 실무 적용기 · ·3분 읽기

API 비용 줄이겠다고 vLLM 올린 팀의 3개월

월 API 비용이 1,200만원을 찍은 달, 팀 슬랙에 "우리도 자체 인퍼런스 올리자"는 스레드가 열렸다. "GPU 서버 리스하면 절반은 아끼겠다"는 대략적인 계산이 붙었고, CTO도 동의했다.

vllm자체인퍼런스gpu
AI 실무 적용기 · ·3분 읽기

모델 라우터 하나 넣었을 뿐인데 장애 유형이 세 개 늘었다

지난 3월, "프론티어 모델에 다 보내면 비용이 너무 나온다"는 문제를 해결하겠다고 모델 라우터를 도입했다. 분류 모델 하나가 요청을 보고 "이건 SLM으로 충분", "이건 프론티어로" 판단하는 구조다.

모델라우팅slm프론티어모델
클라우드 네이티브 · ·2분 읽기

빈 클러스터에 월 73달러가 나간다

작년에 팀이 셋으로 쪼개지면서 클러스터를 5개에서 12개로 늘렸다. 다음 달 AWS 청구서에 컨트롤 플레인 비용만 월 86만원이 찍혀 있었다.

managed-kuberneteseksgke
AI 실무 적용기 · ·2분 읽기

프롬프트 깎기 vs 파인튜닝, 이 논쟁 자체가 구식이다

DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.

프롬프트최적화파인튜닝증류
사이드 프로젝트 일지 · ·2분 읽기

서버비 내고 있으면 뭔가 잘못된 거다

2020년에 사이드 프로젝트 하나 돌리려면 매달 최소 5만원은 서버비로 날렸다. EC2 하나, RDS 하나, 도메인, SSL — 유저 0명인데 인프라 비용만 쌓이는 게 일상이었다.

사이드프로젝트인프라서버리스
AI 실무 적용기 · ·2분 읽기

시맨틱 캐시 hit rate 95%라더니 — 프로덕션에서 23%였던 이유

LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?

시맨틱캐싱llm비용최적화
AI 실무 적용기 · ·3분 읽기

컨텍스트 윈도우가 100만 토큰인데 RAG가 왜 필요하냐고요

"모델 컨텍스트가 100만 토큰이면 문서 전부 때려넣으면 되지 않나?" 1월에 팀 회의에서 누군가 던진 이 질문에 아무도 반박하지 못했다.

rag롱컨텍스트프로덕션
AI 실무 적용기 · ·3분 읽기

셀프호스팅 비용 계산, GPU값은 절반도 안 됐다

API 비용 청구서를 보고 "이 돈이면 GPU를 사겠다"고 생각한 적 있을 거다. 우리 팀도 똑같은 계산을 했다.

셀프호스팅vllm비용최적화
AI 실무 적용기 · ·3분 읽기

디스틸레이션 3개월 차, 아직도 학습 데이터를 고치고 있다

월 API 청구서가 2천만 원을 넘기자 팀에서 당연한 제안이 나왔다. 프로덕션 트래픽의 80%가 분류와 요약 같은 단순 태스크인데, 큰 모델 출력으로 작은 모델을 학습시켜 자체 서빙하면 비용이 확 줄지 않겠냐는 거다.

디스틸레이션llm비용최적화
AI 실무 적용기 · ·2분 읽기

LLM 트레이싱 달았는데 Datadog 청구서가 먼저 터졌다

작년 12월, 우리 팀의 RAG 파이프라인에 OpenTelemetry 트레이싱을 붙였다. 에이전트가 가끔 이상한 응답을 내놓는데 어디서 문제인지 찾을 수가 없어서였다.

옵저버빌리티트레이싱opentelemetry
클라우드 네이티브 · ·3분 읽기

GPU 절반이 놀고 있다 — 비용부터 잡자

올해 클라우드 비용 리뷰 미팅에서 GPU 항목 보고 한숨 안 쉰 팀이 있나. AI 워크로드가 프로덕션에 올라가면서 GPU 인스턴스 비용이 전체 클라우드 지출의 40~60%를 차지하는 팀이 늘고 있다.

kubernetesgpufinops
AI 실무 적용기 · ·3분 읽기

출력 검증용 LLM을 달았는데 그 LLM도 틀렸다

고객 문의 응대 서비스에서 할루시네이션이 한 달에 200건씩 올라오길래, "응답 모델이 대답하고 다른 모델이 검증하면 되지 않나?"라는 아이디어를 실행에 옮겼다.

llm-as-judge할루시네이션검증
AI 실무 적용기 · ·3분 읽기

'캐시 히트율 95%'라는 슬라이드를 보고 의미 캐시를 달았다

벤더 세일즈 덱에서 "Semantic Cache 95% accuracy"라는 문구를 봤을 때, 나는 당연히 그게 히트율이라고 생각했다. 한 달 뒤 우리 챗봇이 잘못된 답을 매우 자신있게 뱉기 시작했고, CS 큐가 두 배로 늘었다.

의미캐시llm비용최적화
AI 실무 적용기 · ·3분 읽기

쿼리 하나에 모델 세 개가 대기하는 구조를 만들어봤다

3월 초에 API 비용 리포트를 열었더니 월 1,800만 원이 찍혀 있었다. 챗봇 서비스가 모든 고객 문의를 동일한 프론티어 모델 하나로 처리하고 있었기 때문이다.

모델라우팅프로덕션llm
AI 실무 적용기 · ·2분 읽기

파인튜닝 안 해도 되는 걸 파인튜닝한 3개월

작년 가을, 고객사 문의를 자동으로 분류하는 시스템을 만들게 됐다. CS 팀에서 매일 수천 건을 수작업으로 나누고 있었고, GPT-4급 모델에 프롬프트만 넣어보니 정확도 82%.

파인튜닝qlora프로덕션
AI 실무 적용기 · ·2분 읽기

RAG에 에이전트를 얹었더니 정확도는 올랐는데 비용이 7배 뛰었다

지난 달 우리 팀은 기존 RAG 파이프라인에 에이전트 루프를 추가했다. 검색 결과를 보고 "이걸로 충분한가?

agentic-rag에이전트rag
1 / 2 Next →