Search

실무에서 사용하는 모니터링 구성 세 가지

태그
Monitoring
Grafana
Zabbix
Telegraf
Prometheus
게시일
2025/05/08

실무에서 사용하는 모니터링 구성 세 가지

DevOps 환경에서 모니터링 시스템은 단순한 시각화를 넘어서
운영 안정성과 장애 대응의 핵심 도구가 됩니다.
저는 실무에서 다음 세 가지 모니터링 구성을 현재도 병행하여 사용 중이며,
각 조합은 목적과 성격, 강점이 명확하게 다릅니다:
Prometheus + Node Exporter
InfluxDB + Telegraf
Zabbix (with PostgreSQL)
이 글에서는 구성 방식, 시각화 흐름, 실사용 중 느낀 장단점까지 정리해 보았습니다.

1. Prometheus + Node Exporter

1. Prometheus + Node Exporter

Prometheus 웹 UI의 Targets 탭 – Node Exporter가 등록된 모습
Grafana에서 Prometheus 데이터를 시각화한 실사용 대시보드 (System metric 위주)

구성 설명

수집 방식: Prometheus가 각 Node Exporter로부터 Pull 방식으로 메트릭 수집
대상 메트릭: CPU, Memory, Disk, Network 등 기본 시스템 리소스
시각화 도구: Grafana
알림 연동: Alertmanager 가능

장점

매우 경량이며 설치와 설정이 간단함
라벨 기반 쿼리(PromQL)를 통한 유연한 데이터 탐색
중앙 집중식 수집 구조로 다수 호스트 관리에 적합

단점

기본 수집 항목 외 커스텀 수집은 다소 번거로움
장기 보존을 위해선 별도의 설정 또는 외부 스토리지가 필요함
규모가 커질수록 Exporter 관리 부담이 커질 수 있음

실무 사용 맥락

서버 상태를 가볍고 빠르게 확인하는 용도로 가장 잘 맞는 구조입니다.
운영 중인 서버의 기본 메트릭을 저부담으로 수집할 수 있어,
보조적 모니터링 도구로 매우 유용하게 사용하고 있습니다.

2. InfluxDB + Telegraf

Grafana에서 InfluxDB 기반 대시보드
Telegraf는 [[inputs.cpu]], [[inputs.disk]], [[outputs.influxdb]]와 같이
플러그인 형태로 다양한 데이터를 수집하고 InfluxDB로 전송합니다.
이 설정 파일은 텍스트 기반이라, 원하는 수집 항목을 쉽게 추가하거나 제외할 수 있습니다.

구성 설명

수집 방식: Telegraf가 다양한 플러그인을 통해 메트릭을 수집하고 InfluxDB에 Push
대상 메트릭: 시스템 리소스, 애플리케이션, 네트워크 등 (플러그인 기반 확장)
시각화 도구: Grafana

장점

다양한 플러그인을 통한 유연한 수집 가능
설정이 비교적 단순하고, 환경 구성도 부담이 적음
Push 기반 수집으로 네트워크 제약이 적음

단점

PromQL에 비해 쿼리 언어(InfluxQL, Flux)의 사용성이 떨어짐
데이터 보존 정책 및 백업 구조 설계가 필요함
자체 알림 기능이 없어 외부 연동이 필수

실무 사용 맥락

특정 서비스나 애플리케이션의 메트릭을 커스텀 수집할 때 활용 중입니다.
특히 단일 서버 또는 한정된 영역의 자원 모니터링에 적합해서,
보조적인 세부 모니터링 시스템으로 쓰고 있습니다.

3. Zabbix (with PostgreSQL)

Zabbix 웹 UI – 호스트 목록, 템플릿 적용 화면
Slack 알림 연동 예시
Grafana에서 Zabbix 데이터를 시각화한 대시보드

구성 설명

수집 방식: Zabbix Agent, SNMP, 외부 스크립트 등 다양한 방식 지원
데이터 저장: PostgreSQL에 메트릭 저장
기능: 수집, 시각화, 경보, 자동화까지 포함된 통합 관제 도구
시각화 도구: Zabbix 자체 UI 또는 Grafana 연동

장점

통합 관제 플랫폼으로서의 완성도가 높음
템플릿 기반 구조로 확장성과 유지보수 효율성 확보
트리거 기반 알림과 조건 기반 자동화 실행 지원
다양한 외부 알림 채널(Slack, Email 등) 연동 용이

단점

설정 항목이 많고 러닝 커브가 있음
자체 UI는 시각화 한계가 있어 Grafana 연동이 사실상 필요함
대규모 환경에서는 유지·운영 부담이 커질 수 있음

실무 사용 맥락

현재 인프라 전체를 총괄하는 메인 관제 시스템으로 사용 중입니다.
다양한 대상에 대한 통합 정책 관리와 트리거 기반 자동화를 구현하기에 적합하며,
운영팀의 중심 툴로 자리 잡고 있습니다.

4. 구성별 요약 비교

구성
수집 방식
장점
단점
추천 상황
Prometheus + Node Exporter
Pull
경량, 빠름, 라벨 쿼리
커스텀 수집 어려움, 장기 저장 약함
단순 시스템 상태 수집용
InfluxDB + Telegraf
Push
플러그인 다양, 구성 단순
쿼리 불편, 알림 미비
커스텀 메트릭 수집 중심
Zabbix (PostgreSQL)
Agent/SNMP 등 다양
통합 관제, 트리거 기반 경보
설정 복잡, 유지 관리 부담
전체 인프라 통합 모니터링용

5. 마무리하며

이 세 가지 구성은 현재 실무에서 병행하여 사용 중이며,
각 조합은 서로 다른 목적을 충실히 담당하고 있습니다.
Prometheus는 가볍고 빠른 시스템 상태 확인
InfluxDB는 커스텀 중심의 메트릭 수집
Zabbix는 복합 환경의 통합 관제와 자동화 대응
모니터링 시스템은 환경에 따라 달라져야 한다고 생각합니다.
특정 도구 하나로 해결하기보다, 용도에 맞는 조합이 더 현실적이고 안정적입니다.
이 글이 비슷한 고민을 하고 계신 분들에게
하나의 실용적인 참고가 되었기를 바랍니다.