Created: 2026, 04 01 >Updated: 2026, 04 01

운영

대응 후 회고

DevOps gonna make fast to deploy SRE gonna maintaining production to reliability

To upgrade site reliability

Quick recovery scenario

Check error 5xx, when error occurred rollback to prev version. And reporting error situation. Which are link, behavior, data, code line, build package, (commit source)

되돌릴 수 있는가 복구할 수 있는가 관리할 사람을 구할 수 있는가 버전관리

보안, 개별 설정을 유연하게 하는 것, 관측성

load average 확인 후 cpu bound인지 memory bound인지 disk i/o문제인지 확인하는 것처럼 문제 감지되면 확인된 기록들을 캡처해서 리포트로 보내주고 재부팅하도록 설정 소프트웨어 로그, 시스템로그도 같이 캡처

설정을 일일이 하기보다 관습적으로 따르게 하고, 설정이 필요할 때만 설정을 하는 방식

같은 약자로 Code of Conduct(행동 규범)이 있어 헷갈릴 수 있다.

load average를 확인하고 sar을 통해 cpu 문제인지 io문제인지 확인한다

WAS에서 문제가 생길 때 다중화로 해결이 힘든 이유

데이터베이스 다중화 힘든 이유