모니터링으로 성능 개선점 찾기 (with Prometheus, Grafana, Loki, Promtail)

들어가면서..

Maru-egg (입시 정보 안내 RAG 챗봇) 프로젝트를 실제 운영 환경에 배포하면서 모니터링 시스템 구축에 대한 필요성을 느끼게 되었습니다. 학교 입학 홈페이지가 공개되고 실제 입시생들이 사용하기 시작하면서, 예상치 못한 트래픽과 시스템 부하에 어떻게 대응할지 고민하게 되었습니다.

처음에는 단순히 서버가 잘 돌아가는지 확인하는 정도로만 생각했지만, 실제 사용자들이 늘어나면서 서버의 상태를 실시간으로 파악하고 잠재적인 성능 병목이나 오류를 조기에 발견하는 것이 얼마나 중요한지 깨닫게 되었습니다.

이에 Prometheus를 활용해 메트릭을 수집하고, Loki와 Promtail로 로그를 집계한 다음, Grafana를 통해 이를 시각화하는 모니터링 환경을 구축했습니다.

특히 CPU 사용률, DB Connection Pools, HTTP 네트워크 상태를 중점적으로 모니터링하며, 임계값을 설정하여 특정 상황에서 Discord로 알림이 가도록 구성했으며, 특정 로그에 대해 별도로 수집해서 운영에 용이하도록 구성했습니다.

또한 처음엔 프로덕트 서버에 함께 모니터링 시스템을 두었지만, 모니터링 서버가 프로덕트 서버와 독립되어야 모니터링의 필요 시점에 정상 작동할 수 있다는 것을 깨닫고 분리하기도 했습니다.

이 과정에서 모니터링 데이터를 바탕으로 "DB Connection 점유 줄이기: OSIV와 단계적 CQRS 그리고 트랜잭션 설계" 같은 글을 작성하게 되었고, 모니터링을 통해 얻은 인사이트를 실제 성능 개선으로 연결하는 경험을 하게 되었습니다.

이 글에서는 제가 Maru-egg 프로젝트에서 구축한 모니터링 시스템과 수집된 데이터를 바탕으로 어떻게 성능 최적화 포인트를 찾고 개선하고자 했는지, 공부했던 내용과 그 경험을 공유하고자 합니다.

사용된 Grafana 템플릿

- ID:19004

더 많은 템플릿은 아래의 링크에서 확인할 수 있습니다.

https://grafana.com/grafana/dashboards/

모니터링 지표와 그 의미

우선 각 지표가 의미하는 부분을 정리해보겠습니다.

시스템 가용성 지표

Uptime/Start time

Uptime: 서버가 얼마나 오래 동작했는지 나타내는 지표로, 갑작스러운 감소는 예기치 않은 재시작을 의미합니다.
Start time: 서버의 마지막 시작 시간으로, 변경 사항은 시스템 재시작이 있었음을 알려줍니다.

중요성: 안정적인 서비스 운영을 위한 기본 지표로, 재시작 빈도가 높다면 근본적인 안정성 문제가 있을 수 있습니다.

리소스 사용 지표

CPU Usage & Load Average

CPU 사용률: 프로세스가 CPU를 얼마나 사용하는지 나타내며, 70% 이상은 높은 부하 상태입니다.
Load Average: 시스템 전체의 부하를 나타내는 지표로, CPU 코어 수보다 높으면 과부하 상태입니다.

중요성: CPU 리소스 부족은 응답 시간 지연과 처리량 감소의 직접적인 원인이 됩니다.

Process Open Files

파일 핸들 수: 프로세스가 열어둔 파일/소켓의 수로, 지속적 증가는 리소스 누수를 의미합니다.

중요성: 파일 핸들 한계에 도달하면 새로운 연결을 맺지 못해 서비스 불능 상태가 될 수 있습니다.

메모리 관리 지표

Heap/Non-Heap Memory

Heap: 자바 객체가 저장되는 공간으로, 사용률이 지속적으로 증가하면 메모리 누수를 의심해볼 수 있습니다.
Non-Heap: 클래스 메타데이터, 코드 캐시 등이 저장되는 공간으로, 동적 클래스 로딩이 많은 환경에서 중요합니다.

중요성: 메모리 부족은 애플리케이션 성능 저하와 `OutOfMemoryError`의 주요 원인입니다.

JVM 세대별 메모리 (Eden, Survivor, Old Gen)

Eden Space: 새로 생성된 객체가 저장되는 공간으로, 톱니 모양 패턴은 객체 생성과 Minor GC 사이클을 나타냅니다.
Survivor Space: Minor GC 후 살아남은 객체가 이동하는 공간으로, 과도한 증가는 객체 수명 관리 문제를 나타냅니다.
Old Gen: 오래 살아남은 객체가 저장되는 공간으로, 지속적 증가는 메모리 누수 가능성을 시사합니다.

중요성: 각 세대별 메모리 사용 패턴은 GC 효율성과 직결되며, 애플리케이션의 객체 생성 패턴을 이해하는 데 중요합니다.

스레드 관리 지표

Thread Counts

활성 스레드 수: 현재 실행 중인 스레드 수로, 급증은 병렬 작업 증가를 의미합니다.
데몬 스레드 수: 백그라운드 작업을 수행하는 스레드 수입니다.
스레드 대기 상태: 블로킹 상태의 스레드 수로, 높으면 I/O 또는 동기화 병목을 의미합니다.

중요성: 스레드 관리 상태는 동시성 처리 능력과 리소스 효율성을 결정합니다.

GC(Garbage Collection) 지표

GC Count & Duration

Minor GC: `Eden 영역`의 가비지 컬렉션으로, 빈도가 높으면 단기 객체 생성이 많음을 의미합니다.
Major GC: `Old 영역`의 가비지 컬렉션으로, 빈도가 높으면 메모리 압박이 심함을 의미합니다.
STW(Stop-The-World) 시간: GC로 인해 애플리케이션이 일시 정지된 시간으로, 길면 응답성이 저하됩니다.

중요성: GC 패턴은 애플리케이션의 메모리 사용 특성과 성능에 직접적 영향을 미칩니다.

데이터베이스 연결 지표

Connection Pool Statistics

활성 연결 수: 현재 사용 중인 DB 연결 수로, 풀 크기의 70% 이상이면 병목 가능성이 있습니다.
대기 연결 수: 연결을 기다리는 요청 수로, 0보다 크면 풀 크기가 부족함을 의미합니다.
연결 획득 시간: DB 연결을 얻는 데 걸린 시간으로, 30ms 이상이면 일반적으로 병목입니다.

중요성: DB 연결 관리는 백엔드 성능의 핵심 요소로, 연결 풀 고갈은 전체 서비스 응답성을 크게 저하시킵니다.

HTTP 통신 지표

Request Count & Response Time

요청 수: 초당 처리된 HTTP 요청 수로, 갑작스런 증가는 트래픽 폭주를 의미합니다.
응답 시간: 요청 처리에 걸린 시간으로, 어떤 API에서 응답이 지연되는지 확인할 수 있습니다.

중요성: 사용자 경험에 직접적 영향을 미치는 지표로, SLA 준수 여부를 결정합니다.

로그 분석 지표

Log Levels & Patterns

INFO 로그: 일반적인 애플리케이션 상태 정보로, 과도하면 I/O 부하를 유발합니다.
WARN 로그: 잠재적 문제를 나타내며, 급증은 성능 저하의 전조일 수 있습니다.
ERROR 로그: 실제 오류 상황으로, 발생 즉시 확인이 필요합니다.

중요성: 로그 패턴 분석은 이상 징후 조기 발견과 근본 원인 분석에 필수적입니다.

모니터링 시점과 해석 & 조치

각 지표가 어떤 의미를 가지는지 알았다면, 언제 해당 지표를 참고하면 좋고, 각 지표의 변화가 의미하는 바와 어떤 조치를 해야하는지 정리해보겠습니다.