AI/AI 산업 동향

추론 AI시대를 위한 NVIDIA Blackwell Ultra

MasterOfAI 2025. 3. 21. 13:07

 

 

수년 동안 AI의 발전은 사전 학습 확장을 통해 명확한 궤적을 따라왔습니다. 더 큰 모델, 더 많은 데이터, 더 큰 계산 리소스는 획기적인 역량으로 이어집니다. 지난 5년 동안 사전 학습 확장은 컴퓨팅 요구 사항을 50M배라는 놀라운 속도로 증가시켰습니다. 그러나 더 지능적인 시스템을 구축하는 것은 더 이상 더 큰 모델을 사전 학습하는 것만이 아닙니다. 대신 모델을 개선하고 생각하게 만드는 것입니다.

 

AI 모델을 전문화된 작업에 맞게 정제함으로써, 훈련 후 스케일링은 모델이 더 많은 대화형 응답을 제공하도록 개선합니다. 도메인별 및 합성 데이터로 모델을 튜닝하면 미묘한 맥락을 이해하고 정확한 출력을 제공하는 능력이 향상됩니다. 합성 데이터 생성에는 모델을 가르치는 데 사용할 수 있는 콘텐츠로서 상한이 없으므로 훈련 후 스케일링에서 컴퓨팅 리소스에 대한 상당한 필요성이 발생합니다.

 

이제 지능을 증폭시키는 새로운 확장 법칙이 등장했습니다. 바로 테스트 시간 확장입니다. 

장기 사고 라고도 알려진 테스트 시간 스케일링은 AI 추론 중에 컴퓨팅을 동적으로 증가시켜 더 깊은 추론을 가능하게 합니다. AI 추론 모델은 단일 패스에서 응답을 생성할 뿐만 아니라, 적극적으로 생각하고, 여러 가능성을 고려하고, 실시간으로 답변을 다듬습니다. 이를 통해 우리는 진정한 에이전트 지능, 즉 더 정교한 작업을 수행하고 더 유용한 답변을 제공하기 위해 독립적으로 생각하고 행동할 수 있는 AI에 더 가까이 다가가고 있습니다. 

 

이러한 포스트 트레이닝 스케일링 및 테스트 타임 스케일링으로의 전환은 기하급수적으로 더 많은 컴퓨팅, 실시간 처리 및 고속 상호 연결을 요구합니다. 포스트 트레이닝은 맞춤형 파생 모델을 개발하기 위해 사전 트레이닝보다 30배 더 많은 컴퓨팅이 필요할 수 있으며, 장기적 사고는 엄청나게 복잡한 작업을 해결하기 위해 단일 추론 패스보다 100배 더 많은 컴퓨팅이 필요할 수 있습니다. 

 

블랙웰 울트라: NVIDIA GB300 NVL72

이러한 수요를 충족하기 위해 NVIDIA는 AI 추론 시대를 위해 구축된 가속 컴퓨팅 플랫폼인 Blackwell Ultra를 출시했습니다 . 여기에는 훈련, 사후 훈련 및 테스트 시간 확장이 포함됩니다. Blackwell Ultra는 대규모 AI 추론 추론을 위해 설계되어 최적의 TCO로 더 스마트하고 빠르며 효율적인 AI를 제공합니다. 

Blackwell Ultra는 액체 냉각 방식의 랙 스케일 솔루션 인 NVIDIA GB300 NVL72 시스템 의 핵심이 될 것입니다 . 이 솔루션은 36개의 NVIDIA Grace CPU 와 72개의 Blackwell Ultra GPU를 단일 72-GPU NVLink 도메인에 연결하여 총 130TB/s의 NVLink 대역폭을 제공하는 단일 대규모 GPU로 작동합니다.

 

  GB300 NVL72 vs. GB200 NVL72 vs. HGX H100
FP4 추론 1 1.4 I 1.1 엑사플롭스 1.5배 70배
HBM 메모리 20테라바이트 1.5배 30배
빠른 메모리 40테라바이트 1.3배 65배
네트워킹 대역폭 14.4TB/초 2배 20배

표 1. NVIDIA Blackwell Ultra 사양과 NVIDIA GB200 NVL72 및 NVIDIA HGX H100 비교

 

Blackwell Ultra는 실시간, 멀티 에이전트 AI 시스템 파이프라인 및 롱 컨텍스트 추론을 위한 더욱 향상된 AI 추론 성능을 제공합니다 . 새로운 Blackwell Ultra Tensor Core는 Blackwell GPU에 비해 ​​1.5배 더 많은 AI 컴퓨팅 FLOPS를 제공하거나 HGX H100에 비해 GB300 NVL72의 경우 70배 더 많은 AI FLOPS를 제공합니다. Blackwell Ultra는 최첨단 AI의 메모리 사용을 최적화하는 여러 FP4 커뮤니티 형식을 지원합니다.

GPU당 최대 288GB의 HBM3e 메모리와 GB300 NVL72 랙당 최대 40TB의 고속 GPU 및 CPU 코히어런트 메모리를 탑재한 Blackwell Ultra는 AI, 연구, 실시간 분석 등의 분야에서 획기적인 진전을 이룰 수 있는 문을 열어줍니다. 여러 대형 모델을 동시에 제공하고 많은 동시 사용자의 복잡한 작업을 한꺼번에 처리하는 데 필요한 대규모 메모리를 제공하여 성능을 개선하고 지연 시간을 줄입니다.

Blackwell Ultra Tensor Cores는 또한 수백만 개의 입력 토큰을 처리하는 실시간 에이전트 및 추론 AI 애플리케이션에 필수적인 방대한 엔드투엔드 컨텍스트 길이를 처리하기 위해 Blackwell에 비해 어텐션 계층 가속이 2배 더 뛰어납니다.

 

 

최적화된 대규모 다중 노드 추론

대규모 GPU 배포에서 AI 추론 요청을 효율적으로 오케스트레이션하고 조정하는 것은 AI 팩토리에서 운영 비용을 최소화하고 토큰 기반 수익 창출을 극대화하는 데 필수적입니다.

이러한 이점을 지원하기 위해 Blackwell Ultra는 NVIDIA ConnectX-8 800G SuperNIC를 사용한 PCIe Gen6 연결 기능을 갖추고 있어 사용 가능한 네트워크 대역폭을 800Gb/s로 향상시킵니다. 

더 많은 네트워크 대역폭은 더 큰 규모에서 더 많은 성능을 의미합니다. 추론 AI 서비스를 확장하기 위한 오픈소스 라이브러리인 NVIDIA Dynamo를 사용하여 이를 활용하세요 . Dynamo는 다중 노드 환경에서 AI 모델을 제공하기 위한 모듈식 추론 프레임워크입니다. GPU 노드에서 추론 워크로드를 확장하고 GPU 작업자를 동적으로 할당하여 트래픽 병목 현상을 완화합니다.

Dynamo는 또한 분산형 서비스 기능을 갖추고 있습니다. 이는 GPU 전반의 대규모 언어 모델(LLM) 추론을 위한 컨텍스트(사전 채우기) 및 생성(디코드) 단계를 분리하여 성능을 최적화하고 , 더 쉽게 확장하고, 비용을 절감합니다.

시스템의 각 GPU에서 사용 가능한 총 데이터 처리량은 800Gb/s이며, GB300 NVL72는 NVIDIA Quantum-X800  NVIDIA Spectrum-X 네트워킹 플랫폼과 완벽하게 통합되어 AI 팩토리와 클라우드 데이터 센터에서 세 가지 확장 법칙의 요구 사항을 손쉽게 처리할 수 있습니다.

 

 

50배 더 ​​많은 AI 공장 출력

GB300 NVL72를 사용한 AI 공장 생산량은 Hopper에 비해 50배 증가

 

그림 1은 AI 공장 출력을 극대화하기 위한 여러 운영 지점을 결정하는 두 가지 핵심 매개변수를 보여줍니다. 세로축은 1메가와트(MW) 데이터 센터에서 초당 처리량 토큰을 나타내는 반면, 가로축은 단일 사용자에 대한 초당 토큰(TPS)을 통해 사용자 상호 작용 반응성을 정량화합니다. 

NVIDIA GB300 NVL72를 탑재한 AI 팩토리는 사용자당 TPS를 10배 높이고 Hopper에 비해 MW당 TPS를 5배 향상시킵니다. 이러한 결합된 효과는 AI 팩토리 출력 성능에서 전체 잠재적 증가를 50배로 가져옵니다.

요약 

Blackwell Ultra를 통한 더 빠른 AI 추론은 금융, 의료, 전자상거래와 같은 산업 전반에 걸쳐 실시간 통찰력, 더 지능적이고 반응성이 뛰어난 챗봇, 향상된 예측 분석 및 더 생산적인 AI 에이전트를 제공합니다. 이 최첨단 플랫폼을 통해 조직은 속도를 희생하지 않고도 더 큰 모델과 AI 추론 워크로드를 처리할 수 있어 고급 AI 기능을 실제 애플리케이션에 더 쉽게 접근하고 실용적으로 사용할 수 있습니다.

NVIDIA Blackwell Ultra 제품은 2025년 하반기에 파트너를 통해 출시될 예정이며 모든 주요 클라우드 서비스 제공업체와 서버 제조업체에서 지원될 예정입니다. 자세한 내용은 다음 리소스를 참조하세요. 

 

출처)

https://developer.nvidia.com/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/?mkt_tok=MTU2LU9GTi03NDIAAAGZVW1Cudpv45i8wERmDD6l-XkcCchcA7-KAuFJ4YyTdwI_rmiPVQ5OOpwRzZZODsjMZtM4Jn7xiz4Vpwp62nbHk06MMNWAGtKo6ulnh0As63GanWQXDIP7

 

NVIDIA Blackwell Ultra for the Era of AI Reasoning | NVIDIA Technical Blog

For years, advancements in AI have followed a clear trajectory through pretraining scaling: larger models, more data, and greater computational resources lead to breakthrough capabilities.

developer.nvidia.com