새벽 4시 반, 슬랙에 "DB connection pool exhausted" 알림이 쏟아졌다. DB 서버의 CPU 사용률은 15%.
readiness probe 설정할 때 "/actuator/health 쓰면 되죠?"라고 대답하는 개발자가 많다.
운영 중인 서비스에서 Pod가 OOM으로 뻗기 직전이다. 메모리 limit을 올려야 하는데, 지금까지의 정석은 Deployment spec을 수정하고 롤링 업데이트를 기다리는 거였다.
프로덕션 클러스터에서 컨테이너 탈출 CVE가 올라오면 제일 먼저 확인하는 게 뭘까. 해당 Pod가 root로 돌고 있었는지다.
2026년 3월 12일 오후 2시 17분(UTC). PagerDuty가 14,000건의 알림을 동시에 쏟아냈다.
3월에 CNCF TOC가 Tekton을 인큐베이팅 프로젝트로 받아들였다. CD Foundation에서 7년을 보낸 녀석이 쿠버네티스 생태계의 본진으로 옮겨온 셈인데, 솔직히 주변 반응은 "아, 그거 아직 쓰는 데 있어?
누군가 프로덕션에서 kubectl edit를 친다. 12분 뒤에야 Argo가 "어, 뭔가 바뀌었네?
3월 24일, SIG Network과 Security Response Committee가 공식적으로 ingress-nginx 프로젝트를 은퇴시켰다. "은퇴"라는 표현이 부드럽게 들리지만, 실질적 의미는 간단하다 — 오늘 CVE가 터져도 패치 안 나온다.
클러스터 80개를 돌리는 팀에서 모니터링 Helm 차트 values.yaml이 1,500줄을 넘어갔다는 제보를 본 적이 있다.
새벽 2시, PagerDuty 알람에 잠이 깼다. 원인은 금방 찾았고 5분 만에 핫픽스를 커밋했다.
CVE-2020-8554가 처음 보고된 게 2020년 12월이다. 그로부터 5년 넘게, 쿠버네티스 프로젝트는 이 취약점에 "수정 불가" 딱지를 붙여놓고 admission webhook 하나 던져주는 게 전부였다.
새벽 3시 15분에 PagerDuty가 울렸다. API 응답률 0%.
3월 10일 자로 containerd 1.7의 공식 지원이 종료됐다.
운영 환경에 Docker AuthZ 플러그인 걸어놓고 "우리는 됐지"라고 생각했던 팀이 있을 거다. OPA든 Prisma Cloud든, API 요청마다 정책 검사가 돌아가니까 안심이 되긴 한다.
배포할 때마다 502가 몇 건씩 찍힌다. Grafana 봐도 서버 과부하가 아니고, Rolling Update가 돌 때만 나타난다.
금요일 밤 npm에서 시작된 게 일요일 아침엔 Docker Hub까지 번져 있었다. 48시간 동안 세 패키지 레지스트리에서 악성 패키지가 동시에 터졌고, 셋 다 노린 건 같은 거였다 — 크레덴셜.
FinOps 대시보드에 찍힌 숫자 하나가 모든 걸 바꿨다. "쿠버네티스 리소스 활용률 평균 18%.
올해 클라우드 비용 리뷰 미팅에서 GPU 항목 보고 한숨 안 쉰 팀이 있나. AI 워크로드가 프로덕션에 올라가면서 GPU 인스턴스 비용이 전체 클라우드 지출의 40~60%를 차지하는 팀이 늘고 있다.
작년 겨울, 트래픽 피크 때마다 HPA가 Pod를 늘리는데 Spring Boot 앱이 뜨는 데 12초가 걸렸다. 12초면 이미 늦다.