태그된 포스트: 실전

AI 실무 적용기 · 7월 10일 ·3분 읽기

MCP로 다 될 줄 알았다 — 배민이 결국 RAG 서버를 직접 만든 이유

"이번 주 수요일 교육 자료 어디 있어요?" 배달의민족 교육 운영팀에서 이 질문이 반복될 때마다 누군가는 DB를 열고, 구글 드라이브를 뒤지고, 캘린더를 확인했다.

ragmcp프로덕션

AI 실무 적용기 · 7월 9일 ·3분 읽기

GPU 사용률 30%인데 응답 시간이 터지는 이유 — 추론 서버 설정의 진짜 병목

70B 모델을 A100 4장에 올리고 vLLM으로 서빙을 시작했다. nvidia-smi를 찍어보니 GPU 사용률이 30% 언저리.

추론최적화vllmgpu

AI 실무 적용기 · 7월 8일 ·3분 읽기

임베딩 모델을 세 번 바꿔도 RAG 정확도가 안 올랐다

사내 기술 문서 3만 건을 벡터 DB에 넣고 RAG 챗봇을 만들었다. 데모 날, 팀장이 던진 질문 5개 중 4개를 정확하게 답했고 프로젝트 예산이 승인됐다.

rag프로덕션청킹

AI 실무 적용기 · 7월 7일 ·3분 읽기

에이전트에게 도구를 40개 줬더니 대화를 까먹기 시작했다

지난달 사내 CS 에이전트에 MCP 서버를 하나 더 붙였다. Jira 연동.

mcp컨텍스트윈도우에이전트

AI 실무 적용기 · 7월 6일 ·3분 읽기

초록불은 거짓말을 한다

지난달 우리 팀은 고객 응대 챗봇의 시스템 프롬프트에 문장 두 개를 추가했다 — 그게 전부였다. PR을 올리고, 유닛 테스트 187개가 돌았고, 통합 테스트도 통과했고, 코드 리뷰도 받았다.

ci/cdllm프로덕션

AI 실무 적용기 · 7월 5일 ·3분 읽기

모델은 안 건드렸는데 장애가 났다 — 프롬프트 배포라는 사각지대

지난달 팀에서 고객 응대 챗봇의 시스템 프롬프트를 딱 한 줄 수정했다. "친절하고 상세하게 답변하세요"를 "핵심만 간결하게 답변하세요"로 바꿨다.

프롬프트버전관리프로덕션

AI 실무 적용기 · 7월 4일 ·2분 읽기

Eval 통과율 100%인데 왜 고객이 화나는지 4주 걸려서 알았다

출시 직후에는 Eval 대시보드가 자부심이었다. Faithfulness 0.

eval프로덕션드리프트

AI 실무 적용기 · 7월 3일 ·3분 읽기

파인튜닝 모델이 한 달 만에 바보가 됐다 — 베이스모델 드리프트라는 지뢰

파인튜닝 프로젝트의 가장 위험한 순간은 학습이 끝난 직후가 아니다. 모든 게 잘 돌아가는 것처럼 보이는 한 달 후다.

파인튜닝lora베이스모델

AI 실무 적용기 · 6월 7일 ·2분 읽기

QA 통과율 99%짜리 가드레일이 프로덕션 1주차에 뚫렸다

QA 팀이 정성들여 만든 프롬프트 300개로 레드팀 테스트를 돌렸다. 차단율 99%.

가드레일프로덕션프롬프트인젝션

AI 실무 적용기 · 6월 3일 ·3분 읽기

라우터 하나 끼웠을 뿐인데 장애 대응이 세 배 복잡해졌다

지난 3월, 우리 팀은 모든 API 요청을 Claude Sonnet 하나로 보내던 구조에서 하이브리드 분배 구조로 전환했다. 단순 분류, 키워드 추출, 포맷 변환 같은 요청은 Haiku급 소형 모델로, 복잡한 추론이 필요한 건만 프론티어 모델로 보내는 방식이다.

라우팅llm프론티어모델

AI 실무 적용기 · 6월 2일 ·3분 읽기

월 800만 원이 될 줄 알았던 자체 호스팅이 1,800만 원이 된 경위

API 토큰 비용이 월 2,200만 원을 넘기 시작하면 누구나 같은 생각을 한다. "이거 직접 돌리면 절반도 안 되지 않나?

자체호스팅gpuvllm

AI 실무 적용기 · 5월 30일 ·3분 읽기

캐시 히트율이 높을수록 위험해지는 시스템

시맨틱 캐시를 처음 붙였을 때 가장 먼저 한 일은 대시보드에 히트율 그래프를 올린 거였다. 첫 주 22%, 둘째 주 31%, 셋째 주 38%.

시맨틱캐싱llm프로덕션

AI 실무 적용기 · 5월 29일 ·3분 읽기

Tool Calling의 90%는 LLM이 아니라 배관 공사다

프로덕션에 올린 에이전트가 밤새 47,000달러어치 API 호출을 했다는 사후 보고서를 읽었다. 분석 에이전트와 검증 에이전트가 서로에게 피드백을 주고받는 루프에 빠졌는데, 기술적으로는 '정상 동작'이었다.

tool-callingfunction-calling프로덕션

AI 실무 적용기 · 5월 28일 ·2분 읽기

JSON 파싱 에러 0건, 오답률 23% — Structured Output의 진짜 문제

지난 달 우리 팀 슬랙에 올라온 메시지: "파싱 에러 0건 달성했습니다 🎉". Structured output 도입 후 3주, JSON 깨짐으로 인한 재시도가 완전히 사라졌다.

structured-outputjsonllm

AI 실무 적용기 · 5월 27일 ·3분 읽기

PDF 속 표 하나 때문에 RAG 파이프라인을 세 번 갈아엎었다

사내 기술 문서 5만 건을 RAG에 태우는 프로젝트를 맡았다. PM이 "PDF 넣으면 되잖아"라고 했을 때 별 생각 없이 고개를 끄덕였는데, 그게 석 달짜리 삽질의 시작이었다.

멀티모달ragpdf표추출

AI 실무 적용기 · 5월 26일 ·3분 읽기

OTel 붙이면 LLM 디버깅 끝이라는 착각

대시보드는 초록불이었다. 레이턴시 P99 800ms, 에러율 0.

관측성otelllm

AI 실무 적용기 · 5월 25일 ·3분 읽기

통계적 유의성을 기다리다 분기가 끝났다 — LLM A/B 테스트의 함정

프롬프트 하나를 바꿨다. 기존 버전 대비 응답 품질이 나아졌는지 확인하려고 A/B 테스트를 세팅했다.

a/b테스트llm프로덕션

AI 실무 적용기 · 5월 24일 ·2분 읽기

에이전트 POC는 이틀 만에 됐는데, 두 달째 스테이징을 못 벗어나는 이유

지난주 구글 I/O에서 Antigravity 2.0 데모를 봤다.

에이전트프로덕션평가

AI 실무 적용기 · 5월 23일 ·3분 읽기

에이전트한테 기억력 달아줬더니 3개월 만에 치매 걸렸다

고객 상담 에이전트에 메모리를 붙이는 건 30분이면 된다. Mem0 SDK 깔고, 대화 끝날 때마다 add() 호출하고, 다음 세션에서 search()로 관련 기억을 불러오면 끝.

에이전트메모리프로덕션

AI 실무 적용기 · 5월 22일 ·3분 읽기

파인튜닝 한 번 하고 '됐다'고 보고한 팀의 6개월 후

파인튜닝 완료 보고서에는 보통 벤치마크 점수, 학습 곡선 그래프, 비용 절감 예상치가 깔끔하게 정리되어 있다. 문제는 그 보고서가 나온 다음 날부터 모델이 늙기 시작한다는 거다.

파인튜닝데이터플라이휠프로덕션

1 / 4 Next →