ssuperjun 님의 블로그
[스터디2] [인프라 엔지니어의 교과서] 11장 인프라 운영 본문
11장: 인프라 운영
인프라 운영의 종류에는 장애 모니터링과 대응, 수용량 최적화, 장애 예방 등이 있다.
11-1. 모니터링
모니터링 종류 5가지(5개 중 하나만 고르는 것이 아니라 모두 활용 가능)
- 하트비트 모니터링: 모니터링 대상에 주기적으로 ping 등을 전송, 응답이 돌아오는지 모니터링
- 서비스 모니터링: 모니터링 대상에 주기적으로 HTTPS 등을 전송해 응답이 돌아오는지 모니터링
- 리소스 모니터링: 리소스(CPU, 메모리, 디스크 등) 사용률 모니터링
- 프로세스 모니터링: OS상 프로세스(DB 등 주요 애플리케이션) 정상 동작 모니터링
- 로그 모니터링: 로그 중 특정 키워드 모니터링 등
모니터링 솔루션을 오픈 소스를 활용할 것인가, SaaS 서비스를 이용할 것인가
=> SaaS 이용은 운영 비용 측면에서 소규모 모니터링에 적합. 문제 발생 시 SaaS 업체가 지원. 다만 SaaS에 의존하면 요금 올라도 다른 환경으로 전환하기 어려움
풀 방식 모니터링
- 모니터링 서버가 감시 대상에 접속해서 주기적으로 정보(리소스 사용량, 로그 등) 수집
- 수집된 정보는 모니터링 서버 측에 저장
- 각 호스트(감시 대상)별 네트워크에서 모니터링 서버의 요청만 허용하도록 방화벽 설정 필요
푸시 방식 모니터링
- 감시 대상이 데이터를 수집해서 모니터링 서버로 보냄
- 감시 대상 네트워크 내부에서 외부로 나가는 outbound 트래픽은 허용되므로 방화벽 신경 덜 써도 됨
- 모니터링 서버로 데이터가 한꺼번에 몰릴 수 있음
모니터링 솔루션 예시: Nagios, Zabbix, 프로메테우스, New Reclic, 데이터도그 등
*프로메테우스 특징
- 무료 오픈 소스
- 풀 방식
- 데이터 수집: 모니터링 대상(서버, DB 등)은 자신의 상태를 프로메테우스가 가져가도록 Exporter(ex. Node Exporter: 리눅스 서버의 CPU, 메모리, 디스크 정보 노출) 형식으로 보여줌
- 시계열 데이터 저장: Tsdb 스토리지(시계열 데이터베이스)
- 시계열 데이터 시각화: Grafana(시각화 도구)
*오토 디스커버리: 모니터링 대상을 관리자가 IP주소 하나하나 입력해 등록할 필요 없이, 지정된 규칙에 따라 네트워크 장비가 새로 발견되면 자동으로 모니터링 목록에 추가
*폴링: 모니터링 서버가 장비에게 주기적으로 상태 정보 묻는 것
*트래핑: 장비가 장애 발생 즉시 서버에게 보고하는 것
*트레이싱: 하나의 요청이 시스템에 들어와서, 여러 서비스(서버, DB 등)를 거쳐 처리가 완료될 때까지의 전체 이동 경로를 추적(병목 및 에러 파악 용도)
11-2. 장애 대응
장애 대응의 목적: 가용성
하드웨어가 고장나도 서비스는 중단되지 않아야 한다.
- 핫스왑 기술: 실행 중인 서비스에서 고장 난 부품 교체
- 메모리 ECC 기능: 1bit 이상증상 자동 수정
- 사용자의 문의나 모니터링 시스템을 통해 문제 인지
11-3. 병목 현상 해결하기
병목 현상 원인 후보군

접속자 급증을 예상하면
- 시스템 전체 관점에서 병목 현상 원인 조사
- 단계적으로 시스템 확장 계획 수립
- 병목 현상 대책 수립
서버 장비의 병목 현상 해결 예시
- 가설: 프론트엔드 서버의 응답이 저하됐나?
- 조사: 각 서버의 응답 시간을 정기적으로 가져오기, 사용자로부터 응답 속도 문의가 들어왔는지 확인
- 문제 파악: 프론트엔드 서버 문제인지, 백엔드 서버 문제인지 파악. 리소스(CPU, 메모리, 네트워크, 디스크 등) 사용 현황 살펴보기
- 대책(디스크 I/O가 문제였다면)
- 더 빠른 스토리지 도입
- 하드디스크를 SSD 등 고속 디스크로 교체
- 부하를 서버 여러 대로 분산
- 불량 하드디스크 교체
11-4. IT 인프라 운영 관리 대행업체 이용
IT 인프라 운영 관리 대행업체 = MSP(Managed Service Provider)
업체 선택 시 고려사항: 기업의 신뢰성, 커뮤니케이션 능력, 유연성, 기술력, 가성비
IT 인프라를 24시간 직접 관리할 인건비만 1년에 4억 원이므로, 외주 비용과 비교해 합리적 의사결정 필요
11-5. 펌웨어
펌웨어 = 하드웨어를 제어하는 프로그램
펌웨어가 사용되는 장소: 서버(BIOS), RAID 보드, 하드디스크/SSD, 네트워크 기기, 스토리지
펌웨어 버전을 항상 최신으로 업데이트할 필요는 없지만, 필수 수준의 버전 정도는 업데이트
펌웨어 업데이트 시 시스템 재부팅이 일반적
11-6. 하드웨어 보수
하드웨어 유지보수 방식 2가지
- 센드백(send back): 고장 난 하드웨어를 벤더에 보내 수리 받음
- 온사이트: 수리 담당자가 방문 수리
유지보수 지원 기간(1년~5년) 존재
'인턴' 카테고리의 다른 글
| [스터디3] [데이터베이스 시스템 개론과 MySQL 실습] 10,12,14장 스터디 (0) | 2026.02.10 |
|---|---|
| [스터디3] [데이터베이스 시스템 개론과 MySQL 실습] 2,4,6,8장 스터디 (0) | 2026.02.10 |
| [스터디2] [인프라 엔지니어의 교과서] 10장 솔루션 및 보안 (0) | 2026.02.09 |
| [과제6-7] 발표자료 최종 - 도커를 이용한 DB 운영툴 환경 구축 자동화 (0) | 2026.02.06 |
| [스터디2] [인프라 엔지니어의 교과서] 2장 서버 발표용 (1) | 2026.02.06 |