← 탐색

태그된 포스트: llm

AI 실무 적용기 · ·2분 읽기

"가드레일 넣었으니 안전하다"는 착각이 3개월 만에 깨졌다

운영 3개월 차에 고객이 챗봇으로부터 경쟁사 내부 전략 문서를 요약받았다는 제보가 들어왔다. 입력 필터, 출력 검증, PII 마스킹 — 안전장치는 분명히 달아놨는데.

가드레일프로덕션보안
AI 실무 적용기 · ·3분 읽기

누가 합성 데이터 500개면 충분하다고 했나

RAG 파이프라인의 레이턴시와 비용에 지친 팀 리드가 어느 날 회의에서 꺼낸 카드가 합성 데이터 파인튜닝이었다. "고품질 데이터 500개면 7B 모델을 도메인 전문가로 만들 수 있다"는 블로그 글을 레퍼런스로 달아놨다.

합성데이터파인튜닝lora
AI 실무 적용기 · ·2분 읽기

시맨틱 캐시 달았더니 틀린 답이 더 빠르게 퍼졌다

API 비용이 월 800만 원을 찍었을 때, 팀에서 가장 먼저 꺼낸 카드가 시맨틱 캐시였다. "비슷한 질문이면 캐시된 답을 돌려주면 되지 않냐"는 논리는 깔끔했다.

시맨틱캐시캐시포이즈닝llm
클라우드 네이티브 · ·2분 읽기

Docker Model Runner는 컨테이너를 안 쓴다

Docker Desktop 4.42에서 Model Runner에 OpenAI Responses API가 추가됐다.

dockermodel-runnerllm
AI 실무 적용기 · ·3분 읽기

JSON은 완벽한데 숫자가 전부 틀렸다 — Structured Output의 함정

작년 말, 우리 팀은 GPT-4o의 Structured Output를 도입하면서 응답 파싱 코드 300줄을 삭제했다. JSON 파싱 에러?

structured-outputjson-schema시맨틱검증
AI 실무 적용기 · ·2분 읽기

128K 토큰에 전부 넣었더니 답이 더 나빠졌다

우리 팀은 고객 상담 이력 전체를 인풋에 넣으면 모델이 더 정확한 답을 줄 거라고 믿었다. 128K 토큰이나 지원하니까, 최대한 많이 넣는 게 이득 아닌가.

컨텍스트엔지니어링프로덕션llm
AI 실무 적용기 · ·2분 읽기

모델 버전 하나 올렸을 뿐인데 CS가 3배로 뛰었다

팀장이 슬랙에 올린 메시지는 단순했다. "GPT-4o에서 4.

모델업그레이드프롬프트프로덕션
AI 레이더 · ·3분 읽기

환각 CVSS 점수가 단서였다 — AI가 만든 제로데이, 실전에서 처음 잡히다

올 것이 왔다. 어제 Google Threat Intelligence Group(GTIG)이 공개한 보고서에 따르면, 사이버 범죄 조직이 LLM을 사용해 제로데이 취약점을 발견하고 익스플로잇까지 자동 생성한 사례가 실전에서 처음 확인됐다.

보안제로데이llm
AI 실무 적용기 · ·2분 읽기

Function Calling 실패는 에러 로그에 안 남는다

지난달 고객사 챗봇의 "주문 조회" 기능이 이상하다는 CS 리포트가 올라왔다. 로그를 뒤져봤다.

function-callingtool-use프로덕션
백엔드 깊이보기 · ·3분 읽기

LLM 호출 한 줄이 톰캣 스레드 200개를 잡아먹기까지

Spring AI 2.0 GA가 5월 28일에 나온다.

spring aispring boot톰캣
AI 실무 적용기 · ·2분 읽기

프롬프트 깎기 vs 파인튜닝, 이 논쟁 자체가 구식이다

DSPy GEPA로 프롬프트를 자동 최적화한 결과가 GRPO 파인튜닝보다 6~19점 높았다. 필요한 롤아웃은 35배 적었다.

프롬프트최적화파인튜닝증류
AI 실무 적용기 · ·2분 읽기

시맨틱 캐시 hit rate 95%라더니 — 프로덕션에서 23%였던 이유

LLM API 비용이 월 800만 원을 찍었을 때 팀장이 물었다. "같은 질문 많이 들어오잖아, 캐시하면 안 돼?

시맨틱캐싱llm비용최적화
AI 실무 적용기 · ·2분 읽기

LLM 트레이싱 3개월 — 로그 4천만 건, 인사이트 0건

지난 달 목요일 밤 11시, PagerDuty가 울렸다. "응답 품질 점수 급락 — 최근 1시간 평균 0.

llm옵저버빌리티트레이싱
AI 실무 적용기 · ·3분 읽기

CS팀이 알려줘야 품질 저하를 아는 팀이었다

프롬프트 하나 바꿔서 배포했다. 내부 테스트에선 괜찮아 보였다.

llm평가파이프라인프로덕션
AI 실무 적용기 · ·3분 읽기

JSON 파싱 실패율 12%에서 0.1%로 — structured output만으로는 안 됐다

작년 가을, 우리 팀은 고객 문의를 자동 분류하는 LLM 파이프라인을 배포했다. 카테고리, 긴급도, 요약을 JSON으로 받아서 후속 시스템에 넘기는 단순한 구조.

structured-outputjsonllm
AI 실무 적용기 · ·3분 읽기

모델 세 번 바꿨는데 성공률은 하네스가 올렸다

올해 1분기에 고객 문의 자동 분류 에이전트를 프로덕션에 올렸다. 내부 테스트에서 92%를 찍던 성공률이 실제 트래픽을 받으니 47%로 곤두박질.

에이전트하네스프로덕션
AI 실무 적용기 · ·3분 읽기

컨텍스트 윈도우가 100만 토큰인데 RAG가 왜 필요하냐고요

"모델 컨텍스트가 100만 토큰이면 문서 전부 때려넣으면 되지 않나?" 1월에 팀 회의에서 누군가 던진 이 질문에 아무도 반박하지 못했다.

rag롱컨텍스트프로덕션
AI 실무 적용기 · ·2분 읽기

GPU 두 배로 늘렸는데 첫 토큰은 여전히 2초였다

사내 챗봇의 응답 속도에 대한 CS 티켓이 2주 만에 40건이 쌓였다. 측정해보니 TTFT(Time To First Token) 평균 1.

llm추론최적화레이턴시
AI 실무 적용기 · ·3분 읽기

합성 데이터 1만 건으로 파인튜닝했는데 모델이 오히려 멍청해졌다

고객 문의 분류에 쓰는 GPT-4o API 비용이 월 200만 원을 찍자, Llama 3.1 8B 파인튜닝을 결심했다.

합성데이터파인튜닝llm
AI 실무 적용기 · ·3분 읽기

디스틸레이션 3개월 차, 아직도 학습 데이터를 고치고 있다

월 API 청구서가 2천만 원을 넘기자 팀에서 당연한 제안이 나왔다. 프로덕션 트래픽의 80%가 분류와 요약 같은 단순 태스크인데, 큰 모델 출력으로 작은 모델을 학습시켜 자체 서빙하면 비용이 확 줄지 않겠냐는 거다.

디스틸레이션llm비용최적화
1 / 3 Next →