Notice
Recent Posts
Recent Comments
Link
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

ssuperjun 님의 블로그

[스터디2] [인프라 엔지니어의 교과서] 11장 인프라 운영 본문

인턴

[스터디2] [인프라 엔지니어의 교과서] 11장 인프라 운영

ssuperjun 2026. 2. 9. 13:51

11장: 인프라 운영

인프라 운영의 종류에는 장애 모니터링과 대응, 수용량 최적화, 장애 예방 등이 있다.


11-1. 모니터링

모니터링 종류 5가지(5개 중 하나만 고르는 것이 아니라 모두 활용 가능)

  • 하트비트 모니터링: 모니터링 대상에 주기적으로 ping 등을 전송, 응답이 돌아오는지 모니터링
  • 서비스 모니터링: 모니터링 대상에 주기적으로 HTTPS 등을 전송해 응답이 돌아오는지 모니터링
  • 리소스 모니터링: 리소스(CPU, 메모리, 디스크 등) 사용률 모니터링
  • 프로세스 모니터링: OS상 프로세스(DB 등 주요 애플리케이션) 정상 동작 모니터링
  • 로그 모니터링: 로그 중 특정 키워드 모니터링 등

 

모니터링 솔루션을 오픈 소스를 활용할 것인가, SaaS 서비스를 이용할 것인가

=> SaaS 이용은 운영 비용 측면에서 소규모 모니터링에 적합. 문제 발생 시 SaaS 업체가 지원. 다만 SaaS에 의존하면 요금 올라도 다른 환경으로 전환하기 어려움


풀 방식 모니터링

- 모니터링 서버가 감시 대상에 접속해서 주기적으로 정보(리소스 사용량, 로그 등) 수집

- 수집된 정보는 모니터링 서버 측에 저장

- 각 호스트(감시 대상)별 네트워크에서 모니터링 서버의 요청만 허용하도록 방화벽 설정 필요

 

푸시 방식 모니터링

- 감시 대상이 데이터를 수집해서 모니터링 서버로 보냄

- 감시 대상 네트워크 내부에서 외부로 나가는 outbound 트래픽은 허용되므로 방화벽 신경 덜 써도 됨

- 모니터링 서버로 데이터가 한꺼번에 몰릴 수 있음


모니터링 솔루션 예시: Nagios, Zabbix, 프로메테우스, New Reclic, 데이터도그 등

 

*프로메테우스 특징

- 무료 오픈 소스

- 풀 방식

- 데이터 수집: 모니터링 대상(서버, DB 등)은 자신의 상태를 프로메테우스가 가져가도록 Exporter(ex. Node Exporter: 리눅스 서버의 CPU, 메모리, 디스크 정보 노출) 형식으로 보여줌

- 시계열 데이터 저장: Tsdb 스토리지(시계열 데이터베이스)

- 시계열 데이터 시각화: Grafana(시각화 도구)

 

*오토 디스커버리: 모니터링 대상을 관리자가 IP주소 하나하나 입력해 등록할 필요 없이, 지정된 규칙에 따라 네트워크 장비가 새로 발견되면 자동으로 모니터링 목록에 추가

*폴링: 모니터링 서버가 장비에게 주기적으로 상태 정보 묻는 것

*트래핑: 장비가 장애 발생 즉시 서버에게 보고하는 것

*트레이싱: 하나의 요청이 시스템에 들어와서, 여러 서비스(서버, DB 등)를 거쳐 처리가 완료될 때까지의 전체 이동 경로를 추적(병목 및 에러 파악 용도)


11-2. 장애 대응

장애 대응의 목적: 가용성

하드웨어가 고장나도 서비스는 중단되지 않아야 한다.

  • 핫스왑 기술: 실행 중인 서비스에서 고장 난 부품 교체
  • 메모리 ECC 기능: 1bit 이상증상 자동 수정
  • 사용자의 문의나 모니터링 시스템을 통해 문제 인지

11-3. 병목 현상 해결하기

병목 현상 원인 후보군

 

접속자 급증을 예상하면

  • 시스템 전체 관점에서 병목 현상 원인 조사
  • 단계적으로 시스템 확장 계획 수립
  • 병목 현상 대책 수립

서버 장비의 병목 현상 해결 예시

- 가설: 프론트엔드 서버의 응답이 저하됐나?

- 조사: 각 서버의 응답 시간을 정기적으로 가져오기, 사용자로부터 응답 속도 문의가 들어왔는지 확인

- 문제 파악: 프론트엔드 서버 문제인지, 백엔드 서버 문제인지 파악. 리소스(CPU, 메모리, 네트워크, 디스크 등) 사용 현황 살펴보기

- 대책(디스크 I/O가 문제였다면)

  • 더 빠른 스토리지 도입
  • 하드디스크를 SSD 등 고속 디스크로 교체
  • 부하를 서버 여러 대로 분산
  • 불량 하드디스크 교체

11-4. IT 인프라 운영 관리 대행업체 이용

IT 인프라 운영 관리 대행업체 = MSP(Managed Service Provider)

업체 선택 시 고려사항: 기업의 신뢰성, 커뮤니케이션 능력, 유연성, 기술력, 가성비

IT 인프라를 24시간 직접 관리할 인건비만 1년에 4억 원이므로, 외주 비용과 비교해 합리적 의사결정 필요


11-5. 펌웨어

펌웨어 = 하드웨어를 제어하는 프로그램

펌웨어가 사용되는 장소: 서버(BIOS), RAID 보드, 하드디스크/SSD, 네트워크 기기, 스토리지

펌웨어 버전을 항상 최신으로 업데이트할 필요는 없지만, 필수 수준의 버전 정도는 업데이트

펌웨어 업데이트 시 시스템 재부팅이 일반적


11-6. 하드웨어 보수

하드웨어 유지보수 방식 2가지

  • 센드백(send back): 고장 난 하드웨어를 벤더에 보내 수리 받음
  • 온사이트: 수리 담당자가 방문 수리

유지보수 지원 기간(1년~5년) 존재