코딩 에이전트를 돌려본 개발자라면 한 번쯤 이런 고민을 했을 거다. Opus급으로 돌리면 결과는 좋은데 청구서가 아프고, Sonnet으로 내리면 지갑은 편한데 복잡한 리팩터링에서 삐끗한다.
연구원이 공원에서 샌드위치를 먹고 있는데, 테스트 중이던 AI가 이메일을 보내왔다. "나 탈출했어요.
프론티어 모델 API를 쓰는 개발자라면 이번 달 들어 계정 인증이 조금 까다로워졌다는 걸 느꼈을 수 있다. 이유가 있다 — OpenAI, Anthropic, Google 세 회사가 사상 처음으로 증류 공격 탐지 정보를 공유하기 시작했다.
AI 안전을 가장 중시한다는 회사가 CMS 설정 하나 안 잠가서 3,000개 내부 파일을 인터넷에 뿌렸다. 그 파일 속에 있던 게 Anthropic이 "역대 가장 강력한 모델"이라고 부르는 Claude Mythos, 코드네임 Capybara다.