← 탐색

태그된 포스트: sre

데브옵스 리얼톡 · ·2분 읽기

SLSA Level 3을 뚫은 웜 — GitHub Actions 공급망의 5월

npm 패키지의 provenance 배지를 확인하고 안심했던 적 있는가? 5월 11일, 그 안심이 환상이었음을 증명한 공격이 터졌다.

github-actionssupply-chainslsa
데브옵스 리얼톡 · ·2분 읽기

AI가 짠 코드, 아마존 주문 630만 건을 날렸다

3월 5일, 아마존 북미 주문량이 99% 증발했다. 장애 원인을 추적한 결과, AI 코딩 도구가 생성한 코드 변경이 지목됐다.

ai아마존장애
데브옵스 리얼톡 · ·3분 읽기

AI 에이전트 13개가 내 온콜을 넘겨받겠다고 한다

새벽 3시, PagerDuty가 울린다. 런북 열고, 대시보드 확인하고, 슬랙에 타임라인 찍고, 롤백 판단하고 — 이 과정을 AI가 전부 해준다면?

aisre온콜
데브옵스 리얼톡 · ·3분 읽기

terraform plan에 destroy 27개가 뜬 금요일 오후

금요일 오후 4시 37분, 배포 전 습관적으로 돌린 terraform plan의 출력이 터미널 한 화면을 가득 채웠다. Plan: 0 to add, 3 to change, 27 to destroy.

terraformopentofudrift
데브옵스 리얼톡 · ·2분 읽기

renewBefore: 2h — 14,000개 서비스가 TLS를 잃은 설정 한 줄

2026년 3월 12일 오후 2시 17분(UTC). PagerDuty가 14,000건의 알림을 동시에 쏟아냈다.

cert-managerlets-encrypttls
데브옵스 리얼톡 · ·3분 읽기

ArgoCD 3.0이 폴링을 죽였다

누군가 프로덕션에서 kubectl edit를 친다. 12분 뒤에야 Argo가 "어, 뭔가 바뀌었네?

argocdgitopskubernetes
데브옵스 리얼톡 · ·3분 읽기

OpenTelemetry가 5년 만에 YAML 하나를 완성했다

OTEL_TRACES_EXPORTER, OTEL_METRICS_EXPORTER, OTEL_EXPORTER_OTLP_ENDPOINT, OTEL_EXPORTER_OTLP_HEADERS — 프로덕션 서비스 하나 계측하려고 환경변수를 십수 개씩 Helm values.

opentelemetryobservabilityyaml
데브옵스 리얼톡 · ·3분 읽기

Grafana가 K8s 모니터링 Helm 차트를 갈아엎은 이유

클러스터 80개를 돌리는 팀에서 모니터링 Helm 차트 values.yaml이 1,500줄을 넘어갔다는 제보를 본 적이 있다.

grafanakuberneteshelm
데브옵스 리얼톡 · ·3분 읽기

핫픽스 올려놨는데 GitOps가 3분간 나를 무시했다

새벽 2시, PagerDuty 알람에 잠이 깼다. 원인은 금방 찾았고 5분 만에 핫픽스를 커밋했다.

fluxgitopskubernetes
데브옵스 리얼톡 · ·2분 읽기

minReplicas: 0으로 비용 아꼈더니 새벽에 서비스가 증발했다

새벽 3시 15분에 PagerDuty가 울렸다. API 응답률 0%.

kuberneteshpaautoscaling
데브옵스 리얼톡 · ·3분 읽기

AI가 토일을 줄여줄 줄 알았는데, 30% 더 늘었다

작년에 우리 팀 CTO가 AI 도입하면 온콜 부담 절반으로 줄어든다고 발표했다. 팀원 전체가 박수를 쳤다.

aisre토일
데브옵스 리얼톡 · ·3분 읽기

GitHub Actions가 드디어 자물쇠를 달았다

올해 1분기, GitHub Actions 생태계가 연쇄 공급망 공격에 휘말렸다. tj-actions/changed-files 사고로 23,000개 리포지토리가 피해를 입었고, 3월에는 Trivy 액션 태그 76개 중 75개가 force-push로 오염됐다.

github-actionssupply-chaincicd
데브옵스 리얼톡 · ·3분 읽기

머지 큐가 2,092개 PR을 조용히 삼켰다

4월 23일, GitHub 머지 큐를 쓰는 팀 수백 곳에 기묘한 일이 벌어졌다. 배포 성공, CI 그린, 슬랙 알림 없음.

githubmerge-queueai-agent
데브옵스 리얼톡 · ·3분 읽기

보안 스캐너를 믿고 돌렸더니 시크릿이 전부 털렸다

3월 19일 새벽, 전 세계 수천 개 CI 파이프라인에서 Trivy가 조용히 돌고 있었다. 코드를 스캔해서 취약점을 잡아주는 도구다.

supply-chaincicdgithub-actions
데브옵스 리얼톡 · ·3분 읽기

Loki가 Kafka를 삼켰다 — GrafanaCON 2026에서 벌어진 일

지난주 GrafanaCON 2026에서 Grafana 13이 공개됐다. 사용자 3,500만 명을 돌파한 Grafana Labs가 이번에 건드린 건 UI 리프레시가 아니라, 관측 스택의 허리인 Loki 아키텍처 그 자체다.

grafanalokikafka
데브옵스 리얼톡 · ·3분 읽기

포스트모템 액션 아이템, 40%도 안 끝내면서 왜 또 쓰냐

작년 Q4에 커넥션 풀 고갈로 결제 서비스가 70분간 멈춘 적이 있다. 포스트모템 회의는 완벽했다.

포스트모템인시던트관리sre
데브옵스 리얼톡 · ·3분 읽기

빌드가 23분 걸리는데 아무도 안 고친다

커밋을 푸시하고 슬랙을 훑었다. 트위터도 봤다.

cicd빌드최적화github-actions
데브옵스 리얼톡 · ·3분 읽기

코드 한 줄 안 건드리고 서비스 전체를 계측한다

서비스에 OpenTelemetry SDK를 심다가 프로덕션이 터진 경험, SRE라면 한 번쯤은 있을 거다. 라이브러리 버전 충돌, 의존성 꼬임, 초기화 코드가 메인 스레드를 블로킹하는 상황.

opentelemetryebpfobservability
데브옵스 리얼톡 · ·3분 읽기

리소스 리퀘스트 반으로 깎았더니 클러스터가 지뢰밭이 됐다

FinOps 대시보드에 찍힌 숫자 하나가 모든 걸 바꿨다. "쿠버네티스 리소스 활용률 평균 18%.

finopskubernetes리소스최적화
데브옵스 리얼톡 · ·3분 읽기

장애 복구하고 나니 Grafana 대시보드가 전부 초기화돼 있었다

장애 대응 끝나고 나서 Grafana를 열었는데 커스텀 대시보드 23개가 증발해 있었다. Pod 재시작 중 PV 마운트가 꼬이면서 내부 SQLite가 날아간 거다.

grafanaobservability-as-codegitops
1 / 2 Next →