실무에서 사용하는 모니터링 구성 세 가지
DevOps 환경에서 모니터링 시스템은 단순한 시각화를 넘어서
운영 안정성과 장애 대응의 핵심 도구가 됩니다.
저는 실무에서 다음 세 가지 모니터링 구성을 현재도 병행하여 사용 중이며,
각 조합은 목적과 성격, 강점이 명확하게 다릅니다:
•
Prometheus + Node Exporter
•
InfluxDB + Telegraf
•
Zabbix (with PostgreSQL)
이 글에서는 구성 방식, 시각화 흐름, 실사용 중 느낀 장단점까지 정리해 보았습니다.
1. Prometheus + Node Exporter
1. Prometheus + Node Exporter
Prometheus 웹 UI의 Targets 탭 – Node Exporter가 등록된 모습
Grafana에서 Prometheus 데이터를 시각화한 실사용 대시보드 (System metric 위주)
구성 설명
•
수집 방식: Prometheus가 각 Node Exporter로부터 Pull 방식으로 메트릭 수집
•
대상 메트릭: CPU, Memory, Disk, Network 등 기본 시스템 리소스
•
시각화 도구: Grafana
•
알림 연동: Alertmanager 가능
장점
•
매우 경량이며 설치와 설정이 간단함
•
라벨 기반 쿼리(PromQL)를 통한 유연한 데이터 탐색
•
중앙 집중식 수집 구조로 다수 호스트 관리에 적합
단점
•
기본 수집 항목 외 커스텀 수집은 다소 번거로움
•
장기 보존을 위해선 별도의 설정 또는 외부 스토리지가 필요함
•
규모가 커질수록 Exporter 관리 부담이 커질 수 있음
실무 사용 맥락
서버 상태를 가볍고 빠르게 확인하는 용도로 가장 잘 맞는 구조입니다.
운영 중인 서버의 기본 메트릭을 저부담으로 수집할 수 있어,
보조적 모니터링 도구로 매우 유용하게 사용하고 있습니다.
2. InfluxDB + Telegraf
Grafana에서 InfluxDB 기반 대시보드
Telegraf는 [[inputs.cpu]], [[inputs.disk]], [[outputs.influxdb]]와 같이
플러그인 형태로 다양한 데이터를 수집하고 InfluxDB로 전송합니다.
이 설정 파일은 텍스트 기반이라, 원하는 수집 항목을 쉽게 추가하거나 제외할 수 있습니다.
구성 설명
•
수집 방식: Telegraf가 다양한 플러그인을 통해 메트릭을 수집하고 InfluxDB에 Push
•
대상 메트릭: 시스템 리소스, 애플리케이션, 네트워크 등 (플러그인 기반 확장)
•
시각화 도구: Grafana
장점
•
다양한 플러그인을 통한 유연한 수집 가능
•
설정이 비교적 단순하고, 환경 구성도 부담이 적음
•
Push 기반 수집으로 네트워크 제약이 적음
단점
•
PromQL에 비해 쿼리 언어(InfluxQL, Flux)의 사용성이 떨어짐
•
데이터 보존 정책 및 백업 구조 설계가 필요함
•
자체 알림 기능이 없어 외부 연동이 필수
실무 사용 맥락
특정 서비스나 애플리케이션의 메트릭을 커스텀 수집할 때 활용 중입니다.
특히 단일 서버 또는 한정된 영역의 자원 모니터링에 적합해서,
보조적인 세부 모니터링 시스템으로 쓰고 있습니다.
3. Zabbix (with PostgreSQL)
Zabbix 웹 UI – 호스트 목록, 템플릿 적용 화면
Slack 알림 연동 예시
Grafana에서 Zabbix 데이터를 시각화한 대시보드
구성 설명
•
수집 방식: Zabbix Agent, SNMP, 외부 스크립트 등 다양한 방식 지원
•
데이터 저장: PostgreSQL에 메트릭 저장
•
기능: 수집, 시각화, 경보, 자동화까지 포함된 통합 관제 도구
•
시각화 도구: Zabbix 자체 UI 또는 Grafana 연동
장점
•
통합 관제 플랫폼으로서의 완성도가 높음
•
템플릿 기반 구조로 확장성과 유지보수 효율성 확보
•
트리거 기반 알림과 조건 기반 자동화 실행 지원
•
다양한 외부 알림 채널(Slack, Email 등) 연동 용이
단점
•
설정 항목이 많고 러닝 커브가 있음
•
자체 UI는 시각화 한계가 있어 Grafana 연동이 사실상 필요함
•
대규모 환경에서는 유지·운영 부담이 커질 수 있음
실무 사용 맥락
현재 인프라 전체를 총괄하는 메인 관제 시스템으로 사용 중입니다.
다양한 대상에 대한 통합 정책 관리와 트리거 기반 자동화를 구현하기에 적합하며,
운영팀의 중심 툴로 자리 잡고 있습니다.
4. 구성별 요약 비교
구성 | 수집 방식 | 장점 | 단점 | 추천 상황 |
Prometheus + Node Exporter | Pull | 경량, 빠름, 라벨 쿼리 | 커스텀 수집 어려움, 장기 저장 약함 | 단순 시스템 상태 수집용 |
InfluxDB + Telegraf | Push | 플러그인 다양, 구성 단순 | 쿼리 불편, 알림 미비 | 커스텀 메트릭 수집 중심 |
Zabbix (PostgreSQL) | Agent/SNMP 등 다양 | 통합 관제, 트리거 기반 경보 | 설정 복잡, 유지 관리 부담 | 전체 인프라 통합 모니터링용 |
5. 마무리하며
이 세 가지 구성은 현재 실무에서 병행하여 사용 중이며,
각 조합은 서로 다른 목적을 충실히 담당하고 있습니다.
•
Prometheus는 가볍고 빠른 시스템 상태 확인
•
InfluxDB는 커스텀 중심의 메트릭 수집
•
Zabbix는 복합 환경의 통합 관제와 자동화 대응
모니터링 시스템은 환경에 따라 달라져야 한다고 생각합니다.
특정 도구 하나로 해결하기보다, 용도에 맞는 조합이 더 현실적이고 안정적입니다.
이 글이 비슷한 고민을 하고 계신 분들에게
하나의 실용적인 참고가 되었기를 바랍니다.