모니터링/서비스 모니터링

지표 설정과 주요 목표 설정

chanstory 2023. 2. 28. 11:55
반응형


지표 설정

- 서비스나 시스템에 있어 중요한 지표를 판단하는 근거가 있어야함

- 적절한 SLI(서비스 수준 판단을 위해 정량적으로 측정한 값)의 선정은 시스템의 분류에 따라 달라질 수 있음

1. 사용자가 직접 대면하는 시스템
   => 보통 프론트엔드에 해당 / 이경우 가용성, 응답시간, 처리량이 중요
2. 저장소 시스템
   => 응답 시간, 가용성, 내구성이 중요
3. 빅데이터 시스템
   => 데이터 파이프라인이 이에 해당하며 처리량, 엔드포인트 간 응답 시간이 중요

 

 


척도 수집

- 측정 원본 합산 or 평균을 내는 방법이 있겠지만 대부분의 경우 분포가 중요

- 일부 요청이 빠르게 처리되어도 나머지 요청이 균일하게 느리다면 실제로 서비스는 느린것

- 평균은 이러한 흐름의 변화를 감지하기 어려움

 

 


척도의 표준화

- SLO를 설정할 때, 주요 SLI의 정의를 표준화시키면 편리함

ex)
집계 간격 : 1분
집계 범위 : 하나의 클러스터에서 수행되는 모든 태스크
측정 빈도 : 매 10분
집계에 포함할 요청 : 전체 HTTP GET 요청

 

 


목표 설정하기

- 성능에 중점을 둔 SLO를 아래와 같은 목표로 설정할 수 있음

1. GET 호출의 90% 는 1ms 이내에 수행되어야 한다.
2. GET 호출의 99% 는 10ms 이내에 수행되어야 한다.
3. GET 호출의 99.9% 는 100ms 이내에 수행되어야 한다.

 

 

Q. 어떤 조직의 SLO가 다음과 같습니다. "GET 호출의 99%는 10ms 이내에 수행되어야 한다" 그렇다면, 이러한 SLO를 달성하려면 어떤 메트릭을 수집하고 어떻게 계산해야 할까요? (척도는 표준화된 범용 지표를 사용합니다)

 

반응형