뉴스룸

테크

AI·HPC 시대의 핵심 요소, InfiniBand와 GPU 모니터링

와치텍

2024.11.29

데이터센터는 다양한 사용자 IT 서비스를 지속적으로 제공하기 위한 수많은 인프라를 기반으로 구성되어 있습니다.특히 최근 AI(인공지능) 서비스 수요가 급증함에 따라 GPU, InfiniBand, 고성능 컴퓨팅 클러스터(HPC)와 같은 첨단 인프라 기술이 적용되고 이로 인한 높은 전력과 고도화된 공조 시스템의 도입으로 데이터센터의 환경은 더욱 복잡해지고 있습니다. 이로 인해 높은 전력 소비와 정교한 공조 시스템이 필수적이며, 운영 관리의 복잡성 또한 증가하고 있습니다.

[그림1] 데이터센터 이미지 예시

이처럼 방대하고 복잡한 환경의 데이터센터를 효율적이고 안정적으로 운영하기 위해서는 섬세한 관리가 필수적입니다. 고가의 설비 및 시스템이 집약되어 있기 때문에 예기치 못한 재난이나 설비 장애가 서비스 중단으로 이어질 수 있으며, 복구 비용 또한 막대합니다. 특히 InfiniBand와 GPU는 AI, 게임 산업, 금융 데이터 분석 등 다양한 분야에서 핵심적인 역할을 수행하며, 고성능 연산과 데이터 전송이 중요한 슈퍼컴퓨터 및 HPC 클러스터 환경에서 필수적인 인프라로 자리 잡고 있습니다.

그렇다면 InfiniBand란 무엇일까요?

[그림2] InfiniBand Switch 이미 예시 (NVIDIA)

고속, 저지연, 고신뢰성의 통신을 제공하는 통신 프로토콜로 주로 슈퍼컴퓨터, 데이터 센터, 대규모 HPC 환경에서 서버 간 데이터 전송 속도와 효율성을 극대화하는 데 사용됩니다. 데이터 전송 속도(최대 수백 Gbps)와 효율성 면에서 Ethernet보다 뛰어난 성능을 제공합니다.

고성능 네트워크 환경에서 시스템의 안정성과 효율성을 유지하기 위해서는 InfiniBand 네크워크의 상태와 성능을 실시간으로 감시하고 잠재적인 문제를 조기에 발견해 대응해야 합니다. 특히 대규모의 슈퍼컴 클러스터에서의 연구 작업, 데이터센터 내 서버 간 데이터 전송 최적화, 고성능 애플리케이션 동작을 위해서는 InfiniBand의 성능을 지속적으로 모니터링 하여야 합니다.

[그림3] 와치올 InfiniBand 모니터링 화면 예시

InfiniBand 모니터링을 위한 주요 지표는 다음과 같습니다.

1. 대역폭 (Bandwidth)

• 네트워크 링크에서 사용 중인 실시간 사용량을 나타내는 지표입니다.

• Infiniband 네트워크의 최대 전송 속도를 모니터링하여 네트워크의 용량을 관리합니다.

2. 전송 지연 (Latency)

• 패킷이 발신지에서 수신지까지 도달하는 데 걸리는 시간을 나타냅니다.

• Infiniband는 마이크로초(μs) 단위의 초저지연을 목표로 데이터 지연 시간을 측정하여 애플리케이션 성능에 미치는 영향을 파악합니다.

3. 패킷 손실률 (Packet Loss Rate)

• 네트워크에서 전송 시 손실되거나 손상된 패킷 오류 발생 비율을 나타냅니다.

• 패킷 손실을 모니터링하여 네트워크의 품질 안정성을 평가합니다.

4. 포트 상태 (Port Status)

• Infiniband 스위치나 노드의 각 포트가 활성화 상태인지, 어떤 속도로 동작하는지를 나타내는 지표입니다.

• 각 Infiniband 포트의 활성화 여부를 실시간으로 확인하여 장애를 조기에 발견하고 속도 저하 문제를 파악합니다.

5. 트래픽 (Traffic)

• 일정 시간동안 송수신한 데이터의 총 바이트 수를 나타냅니다.

• 송수신된 데이터의 양을 분석하여 네트워크 사용 패턴을 이해하고, 용량 계획을 수립합니다.

6. 에러 카운트 (Error Count)

• 송수신된 패킷 중 에러가 발생한 패킷의 수, 재전송된 패킷의 수를 나타냅니다.

• 네트워크 에러 발생 횟수를 모니터링하여 문제의 원인을 파악하고 대응합니다.

GPU란 무엇일까요?

[그림4] GPU 이미지 예시

컴퓨터 시스템에서 대량의 그래픽 연산을 빠르게 처리하여 결과값을 모니터에 출력하는 중앙처리장치로, 복잡한 수학적 계산을 병렬로 수행하는 데 강점이 있습니다. 주로 게임 그래픽과 비주얼 연산에 활용되었으나 최근에는 인공지능, 머신러닝, 데이터 과학, 자율주행 등 다양한 고성능 연산 영역에서 사용됩니다.

특히 고성능 컴퓨팅(HPC), 인공지능 학습, 그래픽 디자인 등의 작업에서는 GPU 사용률이 높은 상태에서 장시간 작동하므로 주의 깊게 관리해야 합니다. 과부하 시 성능 저하 및 오류가 발생할 수 있고, 전력 소비 및 온도를 제어하지 않으면 시스템이 비정상 종료되거나 손상될 위험이 있습니다. 따라서 시스템 성능, 안정성 및 자원 효율성을 보장하기 위해서는 GPU 모니터링은 필수적입니다.

[그림5] 와치올 GPU 모니터링 화면 예시

GPU 모니터링에서 주로 확인해야 할 주요 지표는 다음과 같습니다.

1. GPU 사용률 (Uilization)

• GPU가 작업 중 얼마나 사용되는지를 나타내는 지표입니다.

• 학습 모델의 효율성을 확인하거나 병목 현상을 파악하는 데 사용됩니다.

2. 메모리 사용량 (Memory Usage)

• GPU 메모리(VRAM)의 현재 사용량을 나타냅니다.

• 인공지능 학습에서는 대규모 데이터셋 및 모델 파라미터를 처리할 때 메모리 관리가 중요합니다.

3. GPU 온도 (Temperature)

• GPU 코어의 온도를 나타내며, 과열은 성능 저하를 유발할 수 있습니다.

• 일반적으로 GPU 온도가 80~85도를 넘으면 위험 신호입니다.

4. 전력 소비량 (Power Consumption)

• GPU가 사용하는 전력량을 나타내며, 서버 환경에서 에너지 관리와 직결됩니다.

• 전력 한계를 초과할 경우 시스템 손상을 초래할 수 있습니다.

5. 클럭 속도 (Clock Speed)

• GPU의 코어 및 메모리 클럭 속도를 측정합니다.

• 오버클럭으로 성능을 높일 때 안정성을 위해 클럭 속도와 온도 변화를 모니터링 해야 합니다.

6. 팬 속도 (Fan Speed)

• GPU 팬이 얼마나 빠르게 작동하고 있는지 측정합니다.

• 온도와 직접적인 연관이 있으며 고온에서는 더 빠른 속도로 작동합니다.

AI연구소 및 데이터센터에서 대규모 딥러닝 모델을 학습할 때 InfiniBand를 통해 GPU클러스터 간 대용량 데이터를 빠르게 전송해야 하는데 InfiniBand는 이러한 데이터를 GPU 메모리로 즉시 전송해 병목을 방지합니다. 그렇기 때문에 병목을 해소하고 성능을 극대화하기 위해서는 InfiniBand와 GPU를 통합하여 모니터링 해야 합니다.

InfiniBand와 GPU 통합 모니터링의 장점

• 성능 최적화 : GPU 연산 및 데이터 전송 성능을 극대화하기 위한 네트워크 상태 실시간 파악합니다.

• 자원 효율화 : GPU와 네트워크 사용 패턴을 분석해 자원 낭비를 방지합니다.

• 장애 예방 : 네트워크 지연과 GPU 자원 사용률을 실시간으로 모니터링 해 문제를 조기에 발견합니다.

• 비용 절감 : 전력 소비와 네트워크 과부하를 줄여 운영 비용을 절감합니다.

이 밖에도 InfiniBand와 GPU는 금융 데이터 분석, 자율주행차 시뮬레이션 등 다음과 같이 다양한 분야에서 활용되고 있습니다.

1. 대규모 슈퍼컴퓨터 클러스터 연구

• 대용량 GPU를 필요로 하는 슈퍼컴퓨터 클러스터에서 Infiniband 네트워크의 성능을 실시간으로 모니터링 하여 연구 작업의 효율성 향상

• Infiniband는 초당 최대 400Gbps 대역폭과 마이크로초 단위의 지연 시간을 제공해 GPU 클러스터의 성능을 극대화

2. 금융 데이터 분석

• GPU를 활용한 고빈도 거래 시스템에서 Infiniband의 저지연 네트워크로 실시간 데이터 처리

• GPU 및 네트워크 사용 패턴을 모니터링 하여 성능 최적화 및 비용 절감

3. 자율주행차 시뮬레이션

• 대규모 시뮬레이션 환경에서 Infiniband를 통해 GPU 간 데이터를 신속히 전송

• GPU와 네트워크 상태를 실시간 모니터링 하여 시뮬레이션 중단 없이 연속성 보장

앞으로의 데이터센터는 고도화된 AI와 HPC 기술 수요 증가에 따라 더욱 정교한 인프라와 운영 방식을 필요로 할 것입니다. GPU와 InfiniBand 같이 고성능 컴퓨팅 및 네트워크 장비는 필수 요소가 되며, 이를 안정적이고 효율적으로 운영하기 위해서는 실시간 모니터링 솔루션의 중요성이 더욱 커질 것입니다.

장애와 성능 저하를 사전에 감지하고 최적의 상태를 유지하는 관리 체계가 구축되지 않으면 비즈니스 연속성에 큰 위협이 될 수 있습니다. 따라서 데이터센터 운영자는 이러한 변화에 발맞춰 GPU와 InfiniBand 모니터링을 포함한 통합 모니터링 시스템을 적극 도입해 서비스 안정성과 운영 효율성을 극대화해야 할 것입니다.

다음 콘텐츠에서도 현재 시장에서 주목할 만한 IT 트렌드를 여러분들께 공유 드리겠습니다. 많은 관심 부탁드립니다. 감사합니다.