운영 3개월 차에 고객이 챗봇으로부터 경쟁사 내부 전략 문서를 요약받았다는 제보가 들어왔다. 입력 필터, 출력 검증, PII 마스킹 — 안전장치는 분명히 달아놨는데.
RAG 파이프라인의 레이턴시와 비용에 지친 팀 리드가 어느 날 회의에서 꺼낸 카드가 합성 데이터 파인튜닝이었다. "고품질 데이터 500개면 7B 모델을 도메인 전문가로 만들 수 있다"는 블로그 글을 레퍼런스로 달아놨다.
API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.
Docker Desktop 4.42에서 Model Runner에 OpenAI Responses API가 추가됐다.
작년 말, 우리 팀은 GPT-4o의 Structured Output를 도입하면서 응답 파싱 코드 300줄을 삭제했다. JSON 파싱 에러?
우리 팀은 고객 상담 이력 전체를 인풋에 넣으면 모델이 더 정확한 답을 줄 거라고 믿었다. 128K 토큰이나 지원하니까, 최대한 많이 넣는 게 이득 아닌가.
올 것이 왔다. 어제 Google Threat Intelligence Group(GTIG)이 공개한 보고서에 따르면, 사이버 범죄 조직이 LLM을 사용해 제로데이 취약점을 발견하고 익스플로잇까지 자동 생성한 사례가 실전에서 처음 확인됐다.
지난달 고객사 챗봇의 "주문 조회" 기능이 이상하다는 CS 리포트가 올라왔다. 로그를 뒤져봤다.
DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.
LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?
지난 달 목요일 밤 11시, PagerDuty가 울렸다. "응답 품질 점수 급락 — 최근 1시간 평균 0.
작년 가을, 우리 팀은 고객 문의를 자동 분류하는 LLM 파이프라인을 배포했다. 카테고리, 긴급도, 요약을 JSON으로 받아서 후속 시스템에 넘기는 단순한 구조.
올해 1분기에 고객 문의 자동 분류 에이전트를 프로덕션에 올렸다. 내부 테스트에서 92%를 찍던 성공률이 실제 트래픽을 받으니 47%로 곤두박질.
"모델 컨텍스트가 100만 토큰이면 문서 전부 때려넣으면 되지 않나?" 1월에 팀 회의에서 누군가 던진 이 질문에 아무도 반박하지 못했다.
사내 챗봇의 응답 속도에 대한 CS 티켓이 2주 만에 40건이 쌓였다. 측정해보니 TTFT(Time To First Token) 평균 1.
고객 문의 분류에 쓰는 GPT-4o API 비용이 월 200만 원을 찍자, Llama 3.1 8B 파인튜닝을 결심했다.
월 API 청구서가 2천만 원을 넘기자 팀에서 당연한 제안이 나왔다. 프로덕션 트래픽의 80%가 분류와 요약 같은 단순 태스크인데, 큰 모델 출력으로 작은 모델을 학습시켜 자체 서빙하면 비용이 확 줄지 않겠냐는 거다.