태그된 포스트: 장애대응

백엔드 깊이보기 · 7월 9일 ·3분 읽기

Virtual Threads 켰더니 HikariCP가 먼저 터졌다

Spring Boot 4에서 spring.threads.

virtual-threadsspring-boothikaricp

백엔드 깊이보기 · 7월 6일 ·3분 읽기

StatelessSession이 캐시를 타기 시작한 날, 정산 배치가 조용히 틀어졌다

정산 배치가 3원 차이로 불일치를 내뱉기 시작한 건 Spring Boot 4 올린 지 열흘째 되는 날이었다. API 서버는 멀쩡했다.

hibernatespring-bootbatch

백엔드 깊이보기 · 7월 4일 ·3분 읽기

kotlinx.serialization 스타터 하나 추가했을 뿐인데 클라이언트가 터졌다

Spring Boot 4로 올리면서 kotlinx.serialization 스타터도 같이 넣었다.

kotlinspring-bootkotlinx-serialization

백엔드 깊이보기 · 6월 8일 ·3분 읽기

클라이언트가 끊었는데 코루틴은 계속 돌고 있었다

새벽 2시, Grafana에서 CPU 사용률 경보가 울렸다. 트래픽은 평소의 절반도 안 되는데 서버 파드 4개가 전부 CPU 80%를 넘기고 있었다.

kotlinktorcoroutines

주니어 개발자 생존기 · 6월 3일 ·3분 읽기

Copilot이 코드를 짜주는데 왜 나는 여전히 야근하나

요즘 이상한 현상이 하나 있다. GitHub Copilot, Claude, Cursor — 도구는 전보다 10배는 좋아졌는데, 주니어 개발자들의 야근은 줄지 않았다.

디버깅주니어개발자ai시대

백엔드 깊이보기 · 6월 2일 ·3분 읽기

타임아웃 안 건 RestTemplate 하나가 서버 전체를 멈췄다

새벽 2시 47분, 슬랙에 알림이 쏟아졌다. 결제 API 응답률 0%.

spring bootresttemplate타임아웃

백엔드 깊이보기 · 6월 1일 ·3분 읽기

배치 메일이 8통씩 나가는데 3개월간 아무도 몰랐다

CS팀에서 "고객이 같은 알림 메일을 여러 통 받는다"는 티켓이 올라온 건 금요일 오후였다. 재현도 안 되고, 로그도 깨끗하고, 코드에 버그도 없었다.

spring bootscheduledshedlock

백엔드 깊이보기 · 5월 30일 ·3분 읽기

Kafka consumer group.instance.id 안 넣었을 뿐인데 배포마다 5분씩 메시지가 멈췄다

프로덕션 배포가 끝나면 Grafana를 5분 정도 지켜보는 게 루틴이었다. 그런데 어느 순간부터 배포 직후 consumer lag 그래프가 수직으로 치솟았다가 천천히 내려오는 패턴이 반복됐다.

kafkaspring bootkubernetes

백엔드 깊이보기 · 5월 28일 ·3분 읽기

캐시가 날아간 30초 동안 일어난 일

금요일 밤 11시, PagerDuty가 울렸다. Redis 클러스터 마스터 1대가 메모리 부족으로 eviction을 시작했고, 페일오버가 진행되는 30초 동안 캐시 히트율이 98%에서 0%로 떨어졌다.

redisspring boot캐시

데브옵스 리얼톡 · 5월 26일 ·3분 읽기

포스트모템이 2주 걸리면 그건 고고학이다

장애가 터지면 다들 영웅이 된다. Slack에 불 이모지가 날아다니고, 핫픽스 PR이 올라가고, 누군가 "resolved" 상태를 찍으면 팀 채널에 박수 이모지가 쏟아진다.

포스트모템야놀자aiops

백엔드 깊이보기 · 5월 23일 ·3분 읽기

@Timed 태그에 userId 넣었을 뿐인데 Prometheus가 OOM으로 죽었다

커스텀 메트릭 하나 추가한 게 전부였다. "사용자별 API 응답 시간 추적하면 좋겠다"는 PM의 요청에 @Timed 어노테이션에 userId 태그를 하나 끼워 넣었고, 스테이징에서 잘 돌았고, 배포했다.

micrometerprometheusspring boot

백엔드 깊이보기 · 5월 21일 ·3분 읽기

@Version 하나 붙였을 뿐인데 발급 요청 절반이 실패했다

쿠폰 발급 테이블에 동시 수정이 가능하다는 코드 리뷰가 달렸고, 다음 날 PR에 @Version 필드가 추가됐다. 낙관적 락을 걸면 충돌 시 예외가 터지니까 안전하다 — 이론적으로는 맞다.

jpaoptimistic locking동시성

데브옵스 리얼톡 · 5월 18일 ·3분 읽기

AI 에이전트 13개가 내 온콜을 넘겨받겠다고 한다

새벽 3시, PagerDuty가 울린다. 런북 열고, 대시보드 확인하고, 슬랙에 타임라인 찍고, 롤백 판단하고 — 이 과정을 AI가 전부 해준다면?

aisre온콜

백엔드 깊이보기 · 5월 18일 ·3분 읽기

Actuator health 엔드포인트가 파드 12개를 연쇄로 죽인 밤

readiness probe 설정할 때 "/actuator/health 쓰면 되죠?"라고 대답하는 개발자가 많다.

spring bootkubernetesactuator

백엔드 깊이보기 · 5월 16일 ·3분 읽기

Virtual Thread 켰더니 오히려 처리량이 반토막 났다

Spring Boot 4에서 spring.threads.

spring bootvirtual threadpinning

백엔드 깊이보기 · 5월 14일 ·3분 읽기

응답은 200인데 보안 헤더가 통째로 빠져 있었다

보안팀에서 슬랙이 왔다. "API 응답에 보안 헤더가 하나도 없는데요?

spring securitycve보안

백엔드 깊이보기 · 5월 12일 ·3분 읽기

SELECT FOR UPDATE 안 걸었을 뿐인데 포인트가 두 배로 지급됐다

동시에 두 명이 포인트를 사용하면 잔액이 마이너스가 되지 않는 게 당연하다고 생각했다. 그 생각이 틀렸다는 걸 화요일 오후 CS 인입량이 알려줬다.

spring bootjpa동시성

백엔드 깊이보기 · 5월 9일 ·3분 읽기

캐시 TTL을 전부 10분으로 맞춘 그날 새벽

캐시 정리의 최적화라고 생각했다. 서비스 전체에 흩어진 @Cacheable 설정을 보니 TTL이 3분, 7분, 15분, 30분 — 제각각이었다.

spring bootrediscache stampede

백엔드 깊이보기 · 5월 7일 ·3분 읽기

launch { } 안에서 터진 예외는 어디로 가는가

새벽 2시, 슬랙 알림이 울린다. 결제 완료 후 포인트 적립이 안 됐다는 CS가 3건 들어왔다.

kotlincoroutinesspring boot

백엔드 깊이보기 · 5월 5일 ·2분 읽기

Spring Boot 4 올렸더니 결제 응답이 조용히 깨졌다

지난달 팀에서 Spring Boot 4로 올리면서 "Jackson 3? 패키지명만 바뀌었겠지"라고 생각했다.

spring bootjacksonmigration

1 / 2 Next →