운영 3개월 차에 고객이 챗봇으로부터 경쟁사 내부 전략 문서를 요약받았다는 제보가 들어왔다. 입력 필터, 출력 검증, PII 마스킹 — 안전장치는 분명히 달아놨는데.
RAG 파이프라인의 레이턴시와 비용에 지친 팀 리드가 어느 날 회의에서 꺼낸 카드가 합성 데이터 파인튜닝이었다. "고품질 데이터 500개면 7B 모델을 도메인 전문가로 만들 수 있다"는 블로그 글을 레퍼런스로 달아놨다.
API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.
작년 말, 우리 팀은 GPT-4o의 Structured Output를 도입하면서 응답 파싱 코드 300줄을 삭제했다. JSON 파싱 에러?
우리 팀은 고객 상담 이력 전체를 인풋에 넣으면 모델이 더 정확한 답을 줄 거라고 믿었다. 128K 토큰이나 지원하니까, 최대한 많이 넣는 게 이득 아닌가.
우리 팀이 LLM 고객 상담 요약 시스템을 만들었을 때, 내부 평가 셋에서 95%를 찍었다. PM은 기뻐했고, 테크리드도 고개를 끄덕였다.
우아한형제들이 교육 운영 시스템에 RAG를 붙이려고 할 때, 처음 손이 간 건 MCP였다. 표준 프로토콜로 LLM과 데이터 소스를 연결하면 깔끔하겠다는 판단.
작년 말, 우리 팀 RAG 파이프라인의 답변 품질이 정체기에 들어섰다. 사용자가 "최근 3개월 매출 추이랑 작년 동기 대비 변화율 알려줘"라고 물으면 매출 추이만 가져오고 변화율은 빠뜨리는 식이었다.
지난달 고객사 챗봇의 "주문 조회" 기능이 이상하다는 CS 리포트가 올라왔다. 로그를 뒤져봤다.
월 API 비용이 1,200만원을 찍은 달, 팀 슬랙에 "우리도 자체 인퍼런스 올리자"는 스레드가 열렸다. "GPU 서버 리스하면 절반은 아끼겠다"는 대략적인 계산이 붙었고, CTO도 동의했다.
지난 3월, "프론티어 모델에 다 보내면 비용이 너무 나온다"는 문제를 해결하겠다고 모델 라우터를 도입했다. 분류 모델 하나가 요청을 보고 "이건 SLM으로 충분", "이건 프론티어로" 판단하는 구조다.
DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.
사내 지식 검색 챗봇 출시 3주 차, QA 팀에서 슬랙 DM이 왔다. "이거 혹시 권한 체크 하고 있어요?
금요일 오후 5시, 동료가 "고객 응대 톤이 너무 딱딱하다"며 시스템 프롬프트에 "친근하게 대화해"를 추가했다.
LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?
지난 달 목요일 밤 11시, PagerDuty가 울렸다. "응답 품질 점수 급락 — 최근 1시간 평균 0.