npm 패키지의 provenance 배지를 확인하고 안심했던 적 있는가? 5월 11일, 그 안심이 환상이었음을 증명한 공격이 터졌다.
3월 5일, 아마존 북미 주문량이 99% 증발했다. 장애 원인을 추적한 결과, AI 코딩 도구가 생성한 코드 변경이 지목됐다.
새벽 3시, PagerDuty가 울린다. 런북 열고, 대시보드 확인하고, 슬랙에 타임라인 찍고, 롤백 판단하고 — 이 과정을 AI가 전부 해준다면?
금요일 오후 4시 37분, 배포 전 습관적으로 돌린 terraform plan의 출력이 터미널 한 화면을 가득 채웠다. Plan: 0 to add, 3 to change, 27 to destroy.
2026년 3월 12일 오후 2시 17분(UTC). PagerDuty가 14,000건의 알림을 동시에 쏟아냈다.
누군가 프로덕션에서 kubectl edit를 친다. 12분 뒤에야 Argo가 "어, 뭔가 바뀌었네?
OTEL_TRACES_EXPORTER, OTEL_METRICS_EXPORTER, OTEL_EXPORTER_OTLP_ENDPOINT, OTEL_EXPORTER_OTLP_HEADERS — 프로덕션 서비스 하나 계측하려고 환경변수를 십수 개씩 Helm values.
클러스터 80개를 돌리는 팀에서 모니터링 Helm 차트 values.yaml이 1,500줄을 넘어갔다는 제보를 본 적이 있다.
새벽 2시, PagerDuty 알람에 잠이 깼다. 원인은 금방 찾았고 5분 만에 핫픽스를 커밋했다.
새벽 3시 15분에 PagerDuty가 울렸다. API 응답률 0%.
올해 1분기, GitHub Actions 생태계가 연쇄 공급망 공격에 휘말렸다. tj-actions/changed-files 사고로 23,000개 리포지토리가 피해를 입었고, 3월에는 Trivy 액션 태그 76개 중 75개가 force-push로 오염됐다.
4월 23일, GitHub 머지 큐를 쓰는 팀 수백 곳에 기묘한 일이 벌어졌다. 배포 성공, CI 그린, 슬랙 알림 없음.
3월 19일 새벽, 전 세계 수천 개 CI 파이프라인에서 Trivy가 조용히 돌고 있었다. 코드를 스캔해서 취약점을 잡아주는 도구다.
지난주 GrafanaCON 2026에서 Grafana 13이 공개됐다. 사용자 3,500만 명을 돌파한 Grafana Labs가 이번에 건드린 건 UI 리프레시가 아니라, 관측 스택의 허리인 Loki 아키텍처 그 자체다.
작년 Q4에 커넥션 풀 고갈로 결제 서비스가 70분간 멈춘 적이 있다. 포스트모템 회의는 완벽했다.
서비스에 OpenTelemetry SDK를 심다가 프로덕션이 터진 경험, SRE라면 한 번쯤은 있을 거다. 라이브러리 버전 충돌, 의존성 꼬임, 초기화 코드가 메인 스레드를 블로킹하는 상황.
FinOps 대시보드에 찍힌 숫자 하나가 모든 걸 바꿨다. "쿠버네티스 리소스 활용률 평균 18%.
장애 대응 끝나고 나서 Grafana를 열었는데 커스텀 대시보드 23개가 증발해 있었다. Pod 재시작 중 PV 마운트가 꼬이면서 내부 SQLite가 날아간 거다.