반응형
지표 설정
- 서비스나 시스템에 있어 중요한 지표를 판단하는 근거가 있어야함
- 적절한 SLI(서비스 수준 판단을 위해 정량적으로 측정한 값)의 선정은 시스템의 분류에 따라 달라질 수 있음
1. 사용자가 직접 대면하는 시스템
=> 보통 프론트엔드에 해당 / 이경우 가용성, 응답시간, 처리량이 중요
2. 저장소 시스템
=> 응답 시간, 가용성, 내구성이 중요
3. 빅데이터 시스템
=> 데이터 파이프라인이 이에 해당하며 처리량, 엔드포인트 간 응답 시간이 중요
척도 수집
- 측정 원본 합산 or 평균을 내는 방법이 있겠지만 대부분의 경우 분포가 중요
- 일부 요청이 빠르게 처리되어도 나머지 요청이 균일하게 느리다면 실제로 서비스는 느린것
- 평균은 이러한 흐름의 변화를 감지하기 어려움
척도의 표준화
- SLO를 설정할 때, 주요 SLI의 정의를 표준화시키면 편리함
ex)
집계 간격 : 1분
집계 범위 : 하나의 클러스터에서 수행되는 모든 태스크
측정 빈도 : 매 10분
집계에 포함할 요청 : 전체 HTTP GET 요청
목표 설정하기
- 성능에 중점을 둔 SLO를 아래와 같은 목표로 설정할 수 있음
1. GET 호출의 90% 는 1ms 이내에 수행되어야 한다.
2. GET 호출의 99% 는 10ms 이내에 수행되어야 한다.
3. GET 호출의 99.9% 는 100ms 이내에 수행되어야 한다.
Q. 어떤 조직의 SLO가 다음과 같습니다. "GET 호출의 99%는 10ms 이내에 수행되어야 한다" 그렇다면, 이러한 SLO를 달성하려면 어떤 메트릭을 수집하고 어떻게 계산해야 할까요? (척도는 표준화된 범용 지표를 사용합니다)
반응형
'모니터링 > 서비스 모니터링' 카테고리의 다른 글
서비스 수준 관련 용어 (SLI, SLO, SLA ) (0) | 2023.02.28 |
---|---|
Auto Scaling과 CloudWatch를 이용한 알림 서비스 (0) | 2023.02.23 |
모니터링의 목표와 측정 항목 (0) | 2023.02.23 |