Known Error DataBase(KEDB) 개념과 활용법

와치텍

IT 인프라 관리자라면, 장애 관리를 위한

Known Error DataBase(KEDB)를 관리를 빼놓을 수 없습니다.

KEDB란 무엇이고,

어떻게 관리하고 활용해야 하는지 소개합니다.

 

1. Known Error DataBase(KEDB)의 개념과 필요성

 

KEDB란 '원인과 임시 해결방안이 밝혀진 오류의 데이터베이스'라는 뜻으로 장애를 빠르게 조치할 때 활용한다.​

 

Known Error DataBase(KEDB)의 사전적인 뜻은 'Known Error(알려진 오류)의 DataBase'입니다. Known Error(알려진 오류)란 '원인과 해결 방안'이 알려진 오류를 의미하는데, 다시 말하면 '오류의 원인과 해결 방안'에 대한 DB라 할 수 있습니다.

KEDB가 있다면 관리자가 오류의 원인을 분석하고, 해결 방안을 찾을 필요 없이 바로 조치할 수 있기 때문에 IT 인프라 장애 시간을 줄이는 효과를 얻을 수 있습니다.

 

 

 

 

2. Known Error DataBase(KEDB) 구축과정

 

IT 장애가 발생하게 된 문제를 정의하고 문제의 원인과 임시 해결 방안까지 찾으면, 하나의 Known Error Data를 확보하게 된다. 

'KEDB가 있으면 장애에 빨리 대응할 수 있으니 KEDB를 만들고 관리하자!'라고 결정했다면, 어떤 과정을 거치게 되는지 예시를 통해 설명해 드리도록 하겠습니다.

 

 

 

장애의 원인을 찾는 것에서부터 KEDB 구축은 시작됩니다. (출처 : KBS)

 

 

 

[1단계] 장애 인지 : 예시-사내 ERP 접속이 안된다

[2단계] 장애 원인(문제) 정의 : 예시-ERP 서비스의 가용 메모리 부족


장애사내 ERP 접속이 안 되는 현상 등을 이야기합니다. 장애의 원인을 '문제'라고 하는데, 예를 들어 ERP 접속 장애의 원인이 ERP 서비스 가용 메모리 부족 때문이라면, 이것을 장애의 원인 즉 '문제'라고 정의합니다. 중요한 것은 장애의 원인이 되는 문제가 무엇인지 찾는 것입니다.

 

 

[3단계] 문제에 대한 임시 해결 방안 : 힙(heap) 메모리 확장

[4단계] 문제의 원인 추적 : APM을 통해 메모리 미반환 현상 발견

            문제에 대한 영구 해결 방안 : APM의 히스토그램과 힙 덤프 기능을 활용해 메모리 미반환을 일으키는 소스코드를 찾아 수정

 

장애사내 ERP 접속이 안 되는 현상 등을 이야기합니다. 장애의 원인을 '문제'라고 하는데, 예를 들어 ERP 접속 장애의 원인이 ERP 서비스 가용 메모리 부족 때문이라면, 이것을 장애의 원인 즉 '문제'라고 정의합니다. 중요한 것은 장애의 원인이 되는 문제가 무엇인지 찾는 것입니다.

메모리 부족 현상(Out of memory)은 일반적으로 힙 메모리 영역의 문제인 경우가 많기 때문에 임시 해결 방안으로 힙 메모리를 확장합니다.

그리고 '메모리 부족'이라는 문제의 원인 추적이 필요합니다. 장애 발생 하루 전, 와치올 APM에서 메모리 미반환 경보 알람을 제공했다면, 이것을 단서로 하여 메모리 미반환으로 인해 메모리 누수가 일어났고, 그래서 메모리 부족 현상이 발생했다는 것을 추적할 수 있습니다.

 

 

 

이제 메모리 미반환이 일어나지 않도록 영구 해결 방안을 수행해야 합니다. 와치올 APM의 히스토그램과 힙 덤프 기능은 메모리 미반환을 일으키는 소스코드를 찾아 수정할 수 있도록 지원합니다.

이렇게 문제의 원인과 해결 방안까지 나오면, 이 문제는 앞에서 KEDB의 개념을 설명할 때 나왔던 Known Error, 원인과 임시 해결 방안이 알려진 오류가 됩니다.

이제 KEDB를 구축할 수 있는 한 개의 데이터를 확보한 것입니다.

 

KEDB를 만들기 위한 Known Error 데이터는 '장애 인지 > 문제 정의 > 문제의 원인 규명 및 임시 해결 방안 도출'의 과정을 거쳐 얻을 수 있다보니, KEDB를 구축하고 관리하는 것보다, 그 전의 과정이 더 길고 중요하다는 생각이 드실 텐데요.

그래서 KEDB 뿐만 아니라 장애 발생부터 KEDB 구축까지 모든 과정을 관리하는 것을 지식 관리(KMDB, Knowledge Management DataBase)라는 개념으로 관리하기도 합니다. 장애와 관련된 모든 이력 정보가 조직의 지식 자산이기 때문입니다.

 

 

 

3. Known Error DataBase(KEDB) 구축부터 장애 조치까지 쉽게 하는 방법

 

와치올 하나로 장애 원인 분석부터 KEDB 관리까지 하나의 솔루션으로! 장애 대응도 빠르게!

 

 

애의 원인이 되는 문제를 빨리 간편하게 찾고 KEDB 관리까지 한번에 할 수 있는 와치올 (WatchAll)

 

 

 

 

EMS(Enterprise Management System)라고도 불리는 IT 통합운영관리 솔루션은 관리자가 장애의 원인을 찾기 쉽도록 장애의 원인이 되는 문제를 간편하게 찾아주는 역할을 합니다. 예를 들어, 서버의 가용 메모리 부족과 같은 문제를 알람을 통해 관리자에게 알려줍니다. 성능 정보를 확인할 수도 있고, 이력 데이터도 보관하기 때문에 분석 시에도 활용할 수 있습니다. 또한 문제의 원인과 임시 해결 방안까지 이력화할 수 있는 기능을 통해 KEDB로 활용할 수 있는 솔루션입니다.

KEDB의 목적이 장애를 빠르게 처리하기 위한 것이기 때문에 하나의 솔루션에서 장애의 원인을 인지하고, 해결 방안까지 확인하는 것은 매우 중요한 기능이라 할 수 있습니다.

 

 

 

 

와치올 하나로 장애 대응도 빠르게

 

 

와치올 EMS는 문제(이벤트)에 대한 선제적인 인지부터 KEDB까지 통합 관리합니다. 머신러닝을 통해 문제를 사전 감지하여 알람을 제공하기 때문에 관리자는 문제를 선제적으로 인지하고 조치할 수 있습니다. 문제를 조치한 임시 해결 방안이나 영구 해결 방안을 기록하여 문제 발생 이력부터 조치 이력까지 하나의 데이터로 관리합니다. 여러 개의 문제가 장애의 원인인 경우에는 여러 개의 문제를 묶어 하나의 장애에 대한 기록으로 관리할 수 있습니다.

KEDB는 장애를 빠르게 조치하기 위해 필요하다고 설명 드렸는데요. 와치올은 장애의 원인, 문제(이벤트)가 발생하면 알람을 통해 관리자에게 알려주는 것과 동시에 그 문제와 연관된 KEDB도 함께 볼 수 있도록 제공합니다. 문제와 KEDB를 통합 관리하고 있기 때문에 관리자가 따로 KEDB를 찾을 필요 없이 바로 KEDB를 확인하여 신속하게 장애에 대응할 수 있습니다.

또한 와치올 EMS는 20년 간 IT 통합운영관리 전문기업으로 쌓은 노하우를 활용한 자체 KEDB를 함께 제공하여 고객사의 IT 인프라 안정성을 강화하는 데에 기여하도록 하고 있습니다.

목록
KR · EN