"컨텍스트 윈도우가 100만 토큰인데 RAG 파이프라인을 왜 유지해야 하지?" 3월 초, 팀 내 백엔드 개발자가 던진 질문이었다.
프로덕션 LLM 서비스를 운영하면서 가장 먼저 깨달은 건, 비용 문제는 모델 성능이 아니라 호출 패턴에서 터진다는 점이었다. 모델을 바꾸거나 프롬프트를 쥐어짜기 전에, 요청 자체를 들여다봐야 한다.
어제 퇴근 전에 HashiCorp에서 메일 한 통 왔다. "Your legacy Free plan will be transitioned on March 31, 2026.