AI 학습(Training)-추론(Inference) 그리고 데이터센터

작성일

2024/06/05 04:24

▲ Generative AI 로 생성한 이미지

AI의 영향으로 전세계적으로 데이터센터의 수요가 증가하면서, 데이터의 안정적인 저장을 위한 물리적 공간은 물론이고 AI 고유의 영역인 학습(Training)과 추론(Inference)의 영역을 충분히 수용할 수 있는 데이터센터의 역할이 점점 더 중요한 요소로 부각되기 시작하였습니다.

실제로 AI는 자연어처리, 컴퓨터비전 등 더 높은 밀도의 워크로드를 수용하기 위한 엄청난 수의 서버를 호스팅하는 물리적 영향을 고려해야 할 뿐만 아니라, 연산 중 발생하는 막대한 열에 대처하기 위한 액체 냉각 및 몰입형 냉각과 같은 새로운 기술 개발에 노력을 기울이고 있습니다. 과거 균일하고 일관된 부하를 유지하여 안정적인 저장 공간을 제공하였던 데이터센터는 이제 갑자기 늘어날 수 있는 엄청난 양의 부하를 감당하며 AI의 진화에 함께 발전할 수 있는 모습을 기대하고 있습니다.

이처럼 AI가 데이터센터에 미치는 영향을 이해하려면, 무엇보다 먼저 AI의 근간을 이루는 학습(Training)과 추론(Inference)에 대해 살펴볼 필요가 있습니다.

AI 학습(Training)단계에서의 데이터센터 요구사항

학습(Training)은 AI 모델의 첫번째 단계입니다. 그리고 학습을 위해서는 많은 데이터들이 필요합니다. 이들 대량의 데이터는 딥러닝 신경망(Neural Network) 내 순방향 전파를 통해 각 신경 레이어를 거쳐가며 Loss Function 을 통해 에러율이 연산됩니다. 그리고 이 에러율을 줄이기 위해 역방향 전파로 다시 신경망 반대로 지나가면서 초기에 설정하였던 신경망 내 가중치(Weigh)가 수정되며, 점점 더 정답에 가까운 모델이 만들어지게 됩니다. 쉬운 예로, 고양이의 이미지 식별을 들어보겠습니다. 신경망은 고양이 같은(?) 모든 훈련 이미지를 가져오고 가중치를 적용한 후, 고양이 여부에 대해 판단 합니다. 알고리즘이 신경망에 그것이 틀렸다고 알리면, 네트워크 계층을 통해 역전파되어 올바른 답(즉, 고양이)을 얻을때까지 다시 추측하고 가중치를 두는 작업을 반복적으로 하게 됩니다.

▲ Generative AI 로 생성한 이미지

이와 같은 학습(Training)은 대량의 이미지 데이터가 수많은 레이어 내 반복적인 연산을 통해 올바른 답을 찾는 과정이므로, 데이터센터의 요구사항이 비용(Cost)과 PUE(Performance Usage Effectiveness)에 맞추어져 있습니다. 대량의 데이터를 학습시키기 위해서는 랙 밀도가 높아지며 전력량의 증가를 가져옴과 동시에, 생성되는 열이 증가되는 만큼 소요되는 냉각 전력량도 많아지기 때문입니다.

AI 추론(Inference)단계에서의 데이터센터 요구사항

추론(Inference)은 AI 모델의 두번째 단계이며, 추론을 위한 학습은 필요조건에 해당합니다. 대량의 데이터와 신경망 내 수많은 레이어 속 연산에 의해 학습된 모델에 새로운 데이터를 인풋하여 값을 찾아주는 작업을 수행하는 과정을 추론이라 합니다. 추론 과정에서는 신경망 내 순방향 전파만을 통하여 데이터가 이동하며, 가중치(Weight) 역시 일정하게 유지됩니다. 쉬운 예로, 고양이와 강아지를 분류하는 학습된 모델에 고양이 사진을 넣었을 때 고양이라고 분류해주는 과정을 추론이라 할 수 있을 것입니다.

이런 관점에서 추론(Inference)에 대한 데이터센터의 요구사항은 상대적으로 덜 까다롭게 됩니다. 실제로 추론 엔진은 데이터센터 고객들에게는 익숙한 엔진이며, 랙의 10kW ~ 20kW 범위에서 가동하게 됩니다. 반면, 추론은 실제로 해당 모델에 원하는 데이터를 입력(Input)하고, 실시간 결과를 출력(Output)할 수 있는 서비스에 활용되기 때문에 지연시간(Latency)에 매우 민감한 요구사항이 있습니다. 자율주행에 있어서 ADAS(Advanced Driver Assistance Systems)를 통해 전달되는 데이터의 신뢰성과 짧은 지연시간 내 통신에 대한 요구사항은 어쩌면 학습단계에서보다 더 민감한 요구사항으로 받아드려야 할 수도 있겠습니다.

▲ Generative AI 로 생성한 이미지

올해 초 엔비디아에서는 “데이터센터 사업 매출의 40% 이상이 학습(Training)이 아닌 추론(Inference)을 수행하는 작업에서 오며, 향후 데이터센터 비즈니스에서 추론의 역할이 더욱 더 중요해질 것으로 예상”한다고 언급하였습니다.

MLPerf Inference 4.0 Results Showcase GenAI; Nvidia Still Dominates

There were no startling surprises in the latest MLPerf Inference benchmark (4.0) results released yesterday. Two new workloads — Llama 2 and Stable Diffusion XL — were added to the […]

https://www.hpcwire.com/2024/03/28/mlperf-inference-4-0-results-showcase-genai-nvidia-still-dominates/

“Inference has become an important part of our data center activities and business,” said Salvator, “On our last earnings call, we stated that it’s about 40% of our of our data center revenue last year.”

데이터센터도 변화하는 고객의 AI 수요에 맞춘 설계가 이루어져야 할 것이며, 동시에 데이터센터 입주를 고민하는 고객의 측면에서도, AI의 근간을 이루는 학습/추론과 데이터센터의 관계를 고려하며 현재 비즈니스에서의 요구사항을 면밀히 검토하며 진행해야 할 것입니다.