태그된 포스트: 프로덕션

AI 실무 적용기 · 5월 21일 ·3분 읽기

트래픽의 70%를 Haiku로 돌렸더니 오히려 빨라졌다

운영비 리포트를 열어보고 숨이 막혔다. 월 420만 원.

llm라우팅비용최적화프로덕션

AI 실무 적용기 · 5월 20일 ·2분 읽기

"가드레일 넣었으니 안전하다"는 착각이 3개월 만에 깨졌다

운영 3개월 차에 고객이 챗봇으로부터 경쟁사 내부 전략 문서를 요약받았다는 제보가 들어왔다. 입력 필터, 출력 검증, PII 마스킹 — 안전장치는 분명히 달아놨는데.

가드레일프로덕션보안

AI 실무 적용기 · 5월 19일 ·3분 읽기

누가 합성 데이터 500개면 충분하다고 했나

RAG 파이프라인의 레이턴시와 비용에 지친 팀 리드가 어느 날 회의에서 꺼낸 카드가 합성 데이터 파인튜닝이었다. "고품질 데이터 500개면 7B 모델을 도메인 전문가로 만들 수 있다"는 블로그 글을 레퍼런스로 달아놨다.

합성데이터파인튜닝lora

AI 레이더 · 5월 18일 ·2분 읽기

GPT-Realtime-2, 전화도 건다 — 음성 에이전트가 프로토타입을 졸업한 날

솔직히 말하면, 지금까지 음성 AI 에이전트를 프로덕션에 넣은 팀은 대부분 고통받았다. Whisper로 STT 하고, GPT로 처리하고, TTS로 돌려주는 3단 파이프라인.

openaigpt-realtime-2음성-에이전트

AI 실무 적용기 · 5월 18일 ·2분 읽기

시맨틱 캐시 달았더니 틀린 답이 더 빠르게 퍼졌다

API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.

시맨틱캐시캐시포이즈닝llm

AI 실무 적용기 · 5월 17일 ·3분 읽기

JSON은 완벽한데 숫자가 전부 틀렸다 — Structured Output의 함정

작년 말, 우리 팀은 GPT-4o의 Structured Output를 도입하면서 응답 파싱 코드 300줄을 삭제했다. JSON 파싱 에러?

structured-outputjson-schema시맨틱검증

AI 실무 적용기 · 5월 16일 ·2분 읽기

128K 토큰에 전부 넣었더니 답이 더 나빠졌다

우리 팀은 고객 상담 이력 전체를 인풋에 넣으면 모델이 더 정확한 답을 줄 거라고 믿었다. 128K 토큰이나 지원하니까, 최대한 많이 넣는 게 이득 아닌가.

컨텍스트엔지니어링프로덕션llm

AI 실무 적용기 · 5월 15일 ·3분 읽기

평가 정확도 95%를 믿고 배포한 결과

우리 팀이 LLM 고객 상담 요약 시스템을 만들었을 때, 내부 평가 셋에서 95%를 찍었다. PM은 기뻐했고, 테크리드도 고개를 끄덕였다.

llm평가프로덕션llmops

AI 실무 적용기 · 5월 14일 ·2분 읽기

모델 버전 하나 올렸을 뿐인데 CS가 3배로 뛰었다

팀장이 슬랙에 올린 메시지는 단순했다. "GPT-4o에서 4.

모델업그레이드프롬프트프로덕션

AI 실무 적용기 · 5월 13일 ·2분 읽기

MCP 붙이면 끝이라더니 — 프로덕션에선 세션이 먼저 죽었다

우아한형제들이 교육 운영 시스템에 RAG를 붙이려고 할 때, 처음 손이 간 건 MCP였다. 표준 프로토콜로 LLM과 데이터 소스를 연결하면 깔끔하겠다는 판단.

mcp프로토콜에이전트

AI 실무 적용기 · 5월 12일 ·3분 읽기

검색을 LLM이 알아서 하게 했더니 요금이 8배 뛰었다

작년 말, 우리 팀 RAG 파이프라인의 답변 품질이 정체기에 들어섰다. 사용자가 "최근 3개월 매출 추이랑 작년 동기 대비 변화율 알려줘"라고 물으면 매출 추이만 가져오고 변화율은 빠뜨리는 식이었다.

에이전틱rag비용최적화프로덕션

AI 실무 적용기 · 5월 11일 ·2분 읽기

Function Calling 실패는 에러 로그에 안 남는다

지난달 고객사 챗봇의 "주문 조회" 기능이 이상하다는 CS 리포트가 올라왔다. 로그를 뒤져봤다.

function-callingtool-use프로덕션

AI 실무 적용기 · 5월 10일 ·3분 읽기

API 비용 줄이겠다고 vLLM 올린 팀의 3개월

월 API 비용이 1,200만원을 찍은 달, 팀 슬랙에 "우리도 자체 인퍼런스 올리자"는 스레드가 열렸다. "GPU 서버 리스하면 절반은 아끼겠다"는 대략적인 계산이 붙었고, CTO도 동의했다.

vllm자체인퍼런스gpu

AI 실무 적용기 · 5월 9일 ·3분 읽기

모델 라우터 하나 넣었을 뿐인데 장애 유형이 세 개 늘었다

지난 3월, "프론티어 모델에 다 보내면 비용이 너무 나온다"는 문제를 해결하겠다고 모델 라우터를 도입했다. 분류 모델 하나가 요청을 보고 "이건 SLM으로 충분", "이건 프론티어로" 판단하는 구조다.

모델라우팅slm프론티어모델

AI 실무 적용기 · 5월 8일 ·2분 읽기

임베딩 모델 바꿨을 뿐인데 검색이 엉망이 됐다

임베딩 모델을 바꾼 건 화요일이었다. 금요일에 CS팀에서 연락이 왔다.

임베딩벡터db마이그레이션

AI 실무 적용기 · 5월 7일 ·2분 읽기

프롬프트 깎기 vs 파인튜닝, 이 논쟁 자체가 구식이다

DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.

프롬프트최적화파인튜닝증류

AI 실무 적용기 · 5월 6일 ·3분 읽기

RAG한테 '팀장님 연봉 얼마야'라고 물었는데 답이 나왔다

사내 지식 검색 챗봇 출시 3주 차, QA 팀에서 슬랙 DM이 왔다. "이거 혹시 권한 체크 하고 있어요?

rag접근제어프로덕션

AI 실무 적용기 · 5월 5일 ·2분 읽기

프롬프트 한 줄 고쳤는데 매출이 빠졌다

금요일 오후 5시, 동료가 "고객 응대 톤이 너무 딱딱하다"며 시스템 프롬프트에 "친근하게 대화해"를 추가했다.

프롬프트관리ci/cd프로덕션

AI 실무 적용기 · 5월 4일 ·3분 읽기

에이전트 7개 도입했는데 서로 말도 안 통한다

올해 초 한 이커머스 회사에서 들은 이야기가 계속 머릿속에 남아 있다.

에이전트사일로프로덕션

AI 레이더 · 5월 3일 ·2분 읽기

IMO 금메달 따고 시계는 못 읽는다 — 벤치마크가 숨긴 에이전트의 민낯

수학올림피아드 금메달을 딸 수 있는 모델이 아날로그 시계를 읽지 못한다. 농담이 아니다 — Stanford AI Index 2026이 문서화한 숫자다.

ai-에이전트벤치마크stanford-ai-index

1 / 3 Next →