안녕하세요 와치텍입니다. 저번 콘텐츠를 통해 로그 관리에 적용된 AI에 기술에 대해 설명드렸는데요. 이번 시간에는 IT 통합 운영 관리를 위한 와치텍만의 AI 기술을 소개 드리려고 합니다.
현재 AI는 IT 영역에서뿐만 아니라 직장인, 일반인, 학생 등 모든 영역에서 활발하게 사용 중에 있습니다. ChatGPT나 Bard와 같은 생성형 AI를 통해 인터넷 검색보다 빠르게 데이터를 수집하고, 필요한 이미지를 간단한 텍스트 입력만으로 생성하기도 합니다.
그렇다면, IT 통합 운영 관리에서는 왜 AI 도입이 중요할까요?
기존 레거시(물리적인 인프라) 환경에서 벗어난지도 이제 오랜 시간이 지났습니다. 클라우드를 중심으로 많은 기업들이 서비스를 제공하고 있고, 더 나아가 MSA 기술을 통해 하나의 서비스를 여러 개의 애플리케이션으로 분산해서 운영 중에 있습니다.
관리자의 입장에서는 한정된 인력으로 관리해야 하는 범위와 대상들이 실시간으로 변화하고 복잡해지기 때문에, 업무 부하나 휴먼 에러와 같은 문제들이 지속적으로 발생합니다. 이를 해결하기 위해 IT 통합 운영 관리 시장에서도 AI 기술이 빠르게 도입되고 있습니다.
과거 AI라고 불리던 기술들은 단순한 머신러닝 모델을 활용해 로그와 이벤트를 예측하고 임계치를 기반으로 이상 상황을 탐지하는 정도에 그쳤습니다. 이러한 방식은 일부 패턴을 탐지하고 기본적인 경고를 제공하는 데 유용했지만, 복잡한 서비스 운영 환경에서 정확한 문제 원인을 파악하거나 신속한 대응에는 한계가 있습니다.
와치올 AIOps는 Chat GPT와 다양한 AI 기술에 사용되는 Transformer 모델을 기반으로 심층 데이터 분석과 장비들에서 발생하는 데이터의 상관관계를 파악합니다. 이를 통해, 단순한 이상 탐지를 넘어 복잡한 인프라 내 다양한 요소 간의 관계와 패턴을 더욱 정밀하게 분석합니다.
Transformer 모델의 Self-Attention 메커니즘을 활용하여 시스템 이벤트와 로그 데이터를 다차원으로 분석하고, 숨겨진 패턴까지 파악하여 잠재적인 문제를 사전에 감지합니다.
와치올에서도 로그 분석을 진행할 때 Transformer 모델을 활용하여, 발생한 로그를 순차적으로 학습하고 단어 간의 위치와 상관관계를 파악해 로그의 장애를 판단합니다. 단순 로그 내에 포함되어 있는 단어를 통해 장애를 감지하는 것이 아니라 문장을 이해하기 때문에 기존보다 복잡한 로그도 효율적으로 탐지할 수 있습니다.
과거의 AI 기술이 제한된 범위에서 단순한 예측과 분석을 수행했다면, 와치올 AIOps는 최신 기술을 바탕으로 고도화된 자동화와 장애에 대한 실시간 대응 환경을 제공하고 있습니다.
" 와치올 AIOps 특화 기능 "
다양한 네트워크 장비의 벤더 별로 필요한 스크립트를 자동으로 생성합니다. 간단한 설정과 조건 입력만으로 각 장비들의 특성과 벤더별 요구 사항에 맞게 최적화된 스크립트를 자동으로 생성하여, 관리자가 개별적으로 스크립트를 작성해야 하는 번거로움을 최소화합니다.
또한, 스크립트 작성 중에 발생할 수 있는 오류들을 최소화하고, 생성 즉시 테스트를 진행하여 운영 중에 나타날 수 있는 오류들을 사전에 방지합니다. 이를 통해 운영자는 벤더별 특성을 하나하나 고민할 필요 없이, 장비 관리에 소요되는 시간을 줄이고 운영 효율성을 큰 폭으로 향상시킬 수 있습니다.
운영 서비스의 전반적인 성능, 자원 사용량, 이벤트 발생 가능성을 사전에 예측합니다. 와치올 AI 예측 모델을 활용하여 서버 과부하, 네트워크 병목, 자원 부족 등의 다양한 문제를 사전에 파악하고 대비합니다.
과거에 발생한 데이터를 학습하여 장애 발생 원인 간의 상관관계를 파악하고 데이터의 단위, 학습 기간, 예측 기간에 따라 적절한 모델을 자동 선택하여 최적의 예측 데이터를 제공합니다. 이러한 예측 기능은 사용 및 학습 기간에 따라 업데이트되기 때문에 환경 변화에 신속하게 대응하며 자원의 효율적인 사용과 운영 비용 절감에 긍정적인 영향을 미칩니다.
와치올 AIOps의 튜닝 기능은 서비스에서 발생하는 모든 쿼리에 대한 상세 정보를 제공하고, 발생한 슬로우 쿼리를 최적화합니다. 트랜잭션 정보에 포함된 슬로우 쿼리에 대한 SQL 및 인덱스 정보를 바탕으로 문제가 되는 부분을 식별하고 최적의 튜닝 포인트를 추천합니다.
데이터베이스의 쿼리 성능을 최적화하여, 서비스의 응답 속도를 높이고 리소스를 효율적으로 절감합니다. 관리자는 수많은 쿼리를 수동으로 최적화할 필요 없이 자동 튜닝 기능으로 개선점을 즉각적으로 도출하고 실시간으로 적용할 수 있습니다. 이를 통해 복잡한 서비스 구성 속에서 효율적인 데이터베이스 관리 환경을 제공하며, 성능 저하로 인한 문제 발생을 사전에 예방합니다.
학습된 과거 장애 및 해결 이력을 바탕으로 문제 발생 시 즉각적으로 최적의 대응 방안을 추천합니다. 솔루션 내 탑재된 KEDB를 기반으로 기존에 발생하고 처리됐던 장애에 대한 이력들을 체계적으로 관리하고, AI가 자동으로 학습합니다. 기존에 실제 발생했던 데이터를 지속적으로 학습하기 때문에, 장애가 발생한 즉시 반영하고 신속하게 처리할 수 있습니다.
이를 통해, 실제 장애 발생 시에 관리자는 장애 처리에 대한 시간 낭비 없이, 추천된 데이터를 조합하여 최적의 결정을 내립니다. 반복적인 장애 대응 업무에서 벗어나 보다 중요한 작업에 집중할 수 있으며, 문제 해결에 소요되는 시간을 대폭 줄일 수 있습니다.
IT 통합 운영 관리 시장에서 AI는 지속적으로 영향력을 확대하고 있습니다. 와치올은 최신 AI 기술을 통해 IT 인프라 환경에서의 자동화와 지능화를 구현하고, 안정적인 서비스 운영 환경을 구축합니다.
지금까지 통합 운영 관리 내 도입되는 AIOps로 수행할 수 있는 다양한 역할에 대해 설명드렸습니다. 다음 콘텐츠에서도 최신 기술을 통해 서비스 인프라 환경을 더욱 효율적으로 관리할 수 있는 다양한 방법들을 소개 드리도록 하겠습니다.