실무에서 사용하는 모니터링 구성 세 가지

태그

Monitoring

Grafana

Zabbix

Telegraf

Prometheus

게시일

2025/05/08

실무에서 사용하는 모니터링 구성 세 가지

DevOps 환경에서 모니터링 시스템은 단순한 시각화를 넘어서

운영 안정성과 장애 대응의 핵심 도구가 됩니다.

저는 실무에서 다음 세 가지 모니터링 구성을 현재도 병행하여 사용 중이며,

각 조합은 목적과 성격, 강점이 명확하게 다릅니다:

•

Prometheus + Node Exporter

•

InfluxDB + Telegraf

•

Zabbix (with PostgreSQL)

이 글에서는 구성 방식, 시각화 흐름, 실사용 중 느낀 장단점까지 정리해 보았습니다.

1. Prometheus + Node Exporter

Prometheus 웹 UI의 Targets 탭 – Node Exporter가 등록된 모습

Grafana에서 Prometheus 데이터를 시각화한 실사용 대시보드 (System metric 위주)

구성 설명

•

수집 방식: Prometheus가 각 Node Exporter로부터 Pull 방식으로 메트릭 수집

•

대상 메트릭: CPU, Memory, Disk, Network 등 기본 시스템 리소스

•

시각화 도구: Grafana

•

알림 연동: Alertmanager 가능

장점

•

매우 경량이며 설치와 설정이 간단함

•

라벨 기반 쿼리(PromQL)를 통한 유연한 데이터 탐색

•

중앙 집중식 수집 구조로 다수 호스트 관리에 적합

단점

•

기본 수집 항목 외 커스텀 수집은 다소 번거로움

•

장기 보존을 위해선 별도의 설정 또는 외부 스토리지가 필요함

•

규모가 커질수록 Exporter 관리 부담이 커질 수 있음

실무 사용 맥락

서버 상태를 가볍고 빠르게 확인하는 용도로 가장 잘 맞는 구조입니다.

운영 중인 서버의 기본 메트릭을 저부담으로 수집할 수 있어,

보조적 모니터링 도구로 매우 유용하게 사용하고 있습니다.

2. InfluxDB + Telegraf

Grafana에서 InfluxDB 기반 대시보드

Telegraf는 [[inputs.cpu]], [[inputs.disk]], [[outputs.influxdb]]와 같이

플러그인 형태로 다양한 데이터를 수집하고 InfluxDB로 전송합니다.

이 설정 파일은 텍스트 기반이라, 원하는 수집 항목을 쉽게 추가하거나 제외할 수 있습니다.

구성 설명

•

수집 방식: Telegraf가 다양한 플러그인을 통해 메트릭을 수집하고 InfluxDB에 Push

•

대상 메트릭: 시스템 리소스, 애플리케이션, 네트워크 등 (플러그인 기반 확장)

•

시각화 도구: Grafana

장점

•

다양한 플러그인을 통한 유연한 수집 가능

•

설정이 비교적 단순하고, 환경 구성도 부담이 적음

•

Push 기반 수집으로 네트워크 제약이 적음

단점

•

PromQL에 비해 쿼리 언어(InfluxQL, Flux)의 사용성이 떨어짐

•

데이터 보존 정책 및 백업 구조 설계가 필요함

•

자체 알림 기능이 없어 외부 연동이 필수

실무 사용 맥락

특정 서비스나 애플리케이션의 메트릭을 커스텀 수집할 때 활용 중입니다.

특히 단일 서버 또는 한정된 영역의 자원 모니터링에 적합해서,

보조적인 세부 모니터링 시스템으로 쓰고 있습니다.

3. Zabbix (with PostgreSQL)

Zabbix 웹 UI – 호스트 목록, 템플릿 적용 화면

Slack 알림 연동 예시

Grafana에서 Zabbix 데이터를 시각화한 대시보드

구성 설명

•

수집 방식: Zabbix Agent, SNMP, 외부 스크립트 등 다양한 방식 지원

•

데이터 저장: PostgreSQL에 메트릭 저장

•

기능: 수집, 시각화, 경보, 자동화까지 포함된 통합 관제 도구

•

시각화 도구: Zabbix 자체 UI 또는 Grafana 연동

장점

•

통합 관제 플랫폼으로서의 완성도가 높음

•

템플릿 기반 구조로 확장성과 유지보수 효율성 확보

•

트리거 기반 알림과 조건 기반 자동화 실행 지원

•

다양한 외부 알림 채널(Slack, Email 등) 연동 용이

단점

•

설정 항목이 많고 러닝 커브가 있음

•

자체 UI는 시각화 한계가 있어 Grafana 연동이 사실상 필요함

•

대규모 환경에서는 유지·운영 부담이 커질 수 있음

실무 사용 맥락

현재 인프라 전체를 총괄하는 메인 관제 시스템으로 사용 중입니다.

다양한 대상에 대한 통합 정책 관리와 트리거 기반 자동화를 구현하기에 적합하며,

운영팀의 중심 툴로 자리 잡고 있습니다.

4. 구성별 요약 비교

구성	수집 방식	장점	단점	추천 상황
Prometheus + Node Exporter	Pull	경량, 빠름, 라벨 쿼리	커스텀 수집 어려움, 장기 저장 약함	단순 시스템 상태 수집용
InfluxDB + Telegraf	Push	플러그인 다양, 구성 단순	쿼리 불편, 알림 미비	커스텀 메트릭 수집 중심
Zabbix (PostgreSQL)	Agent/SNMP 등 다양	통합 관제, 트리거 기반 경보	설정 복잡, 유지 관리 부담	전체 인프라 통합 모니터링용

5. 마무리하며

이 세 가지 구성은 현재 실무에서 병행하여 사용 중이며,

각 조합은 서로 다른 목적을 충실히 담당하고 있습니다.

•

Prometheus는 가볍고 빠른 시스템 상태 확인

•

InfluxDB는 커스텀 중심의 메트릭 수집

•

Zabbix는 복합 환경의 통합 관제와 자동화 대응

모니터링 시스템은 환경에 따라 달라져야 한다고 생각합니다.

특정 도구 하나로 해결하기보다, 용도에 맞는 조합이 더 현실적이고 안정적입니다.

이 글이 비슷한 고민을 하고 계신 분들에게

하나의 실용적인 참고가 되었기를 바랍니다.