태그된 포스트: 비용최적화

AI 실무 적용기 · 6월 3일 ·3분 읽기

라우터 하나 끼웠을 뿐인데 장애 대응이 세 배 복잡해졌다

지난 3월, 우리 팀은 모든 API 요청을 Claude Sonnet 하나로 보내던 구조에서 하이브리드 분배 구조로 전환했다. 단순 분류, 키워드 추출, 포맷 변환 같은 요청은 Haiku급 소형 모델로, 복잡한 추론이 필요한 건만 프론티어 모델로 보내는 방식이다.

라우팅llm프론티어모델

클라우드 네이티브 · 6월 3일 ·3분 읽기

매니지드 K8s 청구서, 컨트롤 플레인만 보면 호구 된다

컨트롤 플레인 가격표만 보고 클라우드를 골랐다면 이미 늦었을 수 있다. 2026년 기준 EKS, GKE, AKS의 실제 청구서를 뜯어봤는데, 숫자가 직관과 많이 다르다.

kuberneteseksgke

AI 실무 적용기 · 6월 2일 ·3분 읽기

월 800만 원이 될 줄 알았던 자체 호스팅이 1,800만 원이 된 경위

API 토큰 비용이 월 2,200만 원을 넘기 시작하면 누구나 같은 생각을 한다. "이거 직접 돌리면 절반도 안 되지 않나?

자체호스팅gpuvllm

AI 실무 적용기 · 5월 30일 ·3분 읽기

캐시 히트율이 높을수록 위험해지는 시스템

시맨틱 캐시를 처음 붙였을 때 가장 먼저 한 일은 대시보드에 히트율 그래프를 올린 거였다. 첫 주 22%, 둘째 주 31%, 셋째 주 38%.

시맨틱캐싱llm프로덕션

AI 실무 적용기 · 5월 21일 ·3분 읽기

트래픽의 70%를 Haiku로 돌렸더니 오히려 빨라졌다

운영비 리포트를 열어보고 숨이 막혔다. 월 420만 원.

llm라우팅비용최적화프로덕션

클라우드 네이티브 · 5월 20일 ·3분 읽기

Datadog 청구서가 아파서 OTTL을 배웠다

Datadog 청구서가 매달 올라가는데, 팀 미팅에서 나오는 대답은 늘 같다 — "로그 볼륨 줄여야죠." 틀린 말은 아닌데, 그게 전부는 아니다.

opentelemetryottlobservability

AI 실무 적용기 · 5월 18일 ·2분 읽기

시맨틱 캐시 달았더니 틀린 답이 더 빠르게 퍼졌다

API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.

시맨틱캐시캐시포이즈닝llm

AI 실무 적용기 · 5월 12일 ·3분 읽기

검색을 LLM이 알아서 하게 했더니 요금이 8배 뛰었다

작년 말, 우리 팀 RAG 파이프라인의 답변 품질이 정체기에 들어섰다. 사용자가 "최근 3개월 매출 추이랑 작년 동기 대비 변화율 알려줘"라고 물으면 매출 추이만 가져오고 변화율은 빠뜨리는 식이었다.

에이전틱rag비용최적화프로덕션

AI 실무 적용기 · 5월 10일 ·3분 읽기

API 비용 줄이겠다고 vLLM 올린 팀의 3개월

월 API 비용이 1,200만원을 찍은 달, 팀 슬랙에 "우리도 자체 인퍼런스 올리자"는 스레드가 열렸다. "GPU 서버 리스하면 절반은 아끼겠다"는 대략적인 계산이 붙었고, CTO도 동의했다.

vllm자체인퍼런스gpu

AI 실무 적용기 · 5월 9일 ·3분 읽기

모델 라우터 하나 넣었을 뿐인데 장애 유형이 세 개 늘었다

지난 3월, "프론티어 모델에 다 보내면 비용이 너무 나온다"는 문제를 해결하겠다고 모델 라우터를 도입했다. 분류 모델 하나가 요청을 보고 "이건 SLM으로 충분", "이건 프론티어로" 판단하는 구조다.

모델라우팅slm프론티어모델

클라우드 네이티브 · 5월 8일 ·2분 읽기

빈 클러스터에 월 73달러가 나간다

작년에 팀이 셋으로 쪼개지면서 클러스터를 5개에서 12개로 늘렸다. 다음 달 AWS 청구서에 컨트롤 플레인 비용만 월 86만원이 찍혀 있었다.

managed-kuberneteseksgke

AI 실무 적용기 · 5월 7일 ·2분 읽기

프롬프트 깎기 vs 파인튜닝, 이 논쟁 자체가 구식이다

DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.

프롬프트최적화파인튜닝증류

사이드 프로젝트 일지 · 5월 6일 ·2분 읽기

서버비 내고 있으면 뭔가 잘못된 거다

2020년에 사이드 프로젝트 하나 돌리려면 매달 최소 5만원은 서버비로 날렸다. EC2 하나, RDS 하나, 도메인, SSL — 유저 0명인데 인프라 비용만 쌓이는 게 일상이었다.

사이드프로젝트인프라서버리스

AI 실무 적용기 · 5월 3일 ·2분 읽기

시맨틱 캐시 hit rate 95%라더니 — 프로덕션에서 23%였던 이유

LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?

시맨틱캐싱llm비용최적화

AI 실무 적용기 · 4월 27일 ·3분 읽기

컨텍스트 윈도우가 100만 토큰인데 RAG가 왜 필요하냐고요

"모델 컨텍스트가 100만 토큰이면 문서 전부 때려넣으면 되지 않나?" 1월에 팀 회의에서 누군가 던진 이 질문에 아무도 반박하지 못했다.

rag롱컨텍스트프로덕션

AI 실무 적용기 · 4월 24일 ·3분 읽기

셀프호스팅 비용 계산, GPU값은 절반도 안 됐다

API 비용 청구서를 보고 "이 돈이면 GPU를 사겠다"고 생각한 적 있을 거다. 우리 팀도 똑같은 계산을 했다.

셀프호스팅vllm비용최적화

AI 실무 적용기 · 4월 22일 ·3분 읽기

디스틸레이션 3개월 차, 아직도 학습 데이터를 고치고 있다

월 API 청구서가 2천만 원을 넘기자 팀에서 당연한 제안이 나왔다. 프로덕션 트래픽의 80%가 분류와 요약 같은 단순 태스크인데, 큰 모델 출력으로 작은 모델을 학습시켜 자체 서빙하면 비용이 확 줄지 않겠냐는 거다.

디스틸레이션llm비용최적화

AI 실무 적용기 · 4월 21일 ·2분 읽기

LLM 트레이싱 달았는데 Datadog 청구서가 먼저 터졌다

작년 12월, 우리 팀의 RAG 파이프라인에 OpenTelemetry 트레이싱을 붙였다. 에이전트가 가끔 이상한 응답을 내놓는데 어디서 문제인지 찾을 수가 없어서였다.

옵저버빌리티트레이싱opentelemetry

클라우드 네이티브 · 4월 20일 ·3분 읽기

GPU 절반이 놀고 있다 — 비용부터 잡자

올해 클라우드 비용 리뷰 미팅에서 GPU 항목 보고 한숨 안 쉰 팀이 있나. AI 워크로드가 프로덕션에 올라가면서 GPU 인스턴스 비용이 전체 클라우드 지출의 40~60%를 차지하는 팀이 늘고 있다.

kubernetesgpufinops

AI 실무 적용기 · 4월 17일 ·3분 읽기

출력 검증용 LLM을 달았는데 그 LLM도 틀렸다

고객 문의 응대 서비스에서 할루시네이션이 한 달에 200건씩 올라오길래, "응답 모델이 대답하고 다른 모델이 검증하면 되지 않나?"라는 아이디어를 실행에 옮겼다.

llm-as-judge할루시네이션검증

1 / 2 Next →