AI/AI 산업 동향

[2024 AI 동향-4] NVIDIA 의 AI 반도체 총정리

MasterOfAI 2024. 10. 16. 19:41

 

AI 반도체는 엔비디아로 시작해서 엔비디아로 끝난다는 말이 있습니다. 

엔비디아는 AI 가속기 시장의 90% 이상을 점유하고 있습니다. 

 

AI 반도체를 이해하기 위해 큰 그림 그림부터 보면, 우선 

 

AI 데이터 센터가 있습니다.  AI 데이터 센터는 일반 데이터 센터와는 다른 목적을 가지고 있는데, 다음과 같은 일들을 처리하기 위함 입니다. 

 

  1. 대규모 데이터 처리: AI는 ‘학습’을 통해 발전하며, 이 과정은 방대한 양의 데이터를 필요로 합니다. 예를 들어, 자연어 처리나 이미지 인식과 같은 고급 AI 기능들은 수많은 데이터 포인트를 처리하여 모델이 정확하게 작동할 수 있도록 훈련시킵니다. 이런 대량의 데이터를 효율적으로 처리하고 관리하기 위해서는 데이터센터의 역할이 중요합니다.
  2. AI 모델 훈련과 추론: AI 모델의 훈련은 종종 복잡한 수학적 계산을 수반하며, 이는 강력한 컴퓨팅 자원을 요구합니다. 데이터센터는 필요한 고성능 컴퓨팅 하드웨어(예: GPU)를 제공하여 이러한 계산을 지원합니다. 또한, 훈련된 모델을 실제 세계 데이터에 적용하는 추론 과정 또한 막대한 컴퓨팅 리소스를 필요로 합니다.
  3. 접근성과 가용성 향상: 데이터센터는 클라우드 기반 서비스를 통해 언제 어디서나 데이터와 AI 서비스에 접근할 수 있는 환경을 제공합니다. 이는 사용자가 지리적 위치에 상관없이 AI 기능을 활용할 수 있게 해줍니다.
  4. 보안과 데이터 보호: AI 시스템은 종종 민감한 정보를 처리합니다. 데이터센터는 이러한 정보를 보호하기 위해 첨단 보안 기술과 프로토콜을 구현합니다. 데이터의 안정성과 보안을 유지하는 것은 기업의 신뢰도와 직결되며, 이를 위해 데이터센터의 역할이 중요합니다.
  5. 지속 가능한 성장과 확장성: AI 기술은 지속적으로 발전하고 있으며, 기업과 조직은 이 변화에 빠르게 적응해야 합니다. 데이터센터는 확장성이 뛰어나 AI 기능의 필요에 따라 추가 리소스를 손쉽게 통합할 수 있도록 지원합니다.

AI 데이터 센터에는 AI 서버가 있습니다. AI서버는 일반 데이터 서버와는 하드웨어가 조금 다릅니다. 

 

AI 서버에는 연산을 위한  GPU 또는 AI 가속기가 들어 있습니다. 아니 이들이 핵심 부품 입니다. 

 

AI 가속기에는 TPU(Tensor Processing Unit), FPGA(Field-Programmable Gate Array), ASIC(Application-Specific Integrated Circuit) 그리고 NPU(Neural Processing Unit)가 있습니다. NPU는 그 중에서도 특히 신경망 기반 연산을 가속하는 데 최적화된 AI 가속기입니다.

 

NVDIA 는 AI 연산을 위한 GPU 와 AI 서버를 생산하고 있으며, 또한 CPU 와 GPU를 합친 SuperChip이라는 제품도 판매하고 있습니다. 2024년 기준 마켓쉐어가 90% 정도 된다고 합니다. 

 

이제부터 NVDIA 에서 제조 판매하는 AI 반도체 들을 살펴 보겠습니다. 

 

 

##### 1세대 ######

 

  • H100 ( NVIDIA H100 Tensor Core GPU ) - 2022/10월
    • Hopper Architecture GPU
    • NVIDIA의 최신 데이터센터 GPU의 한 종류로, Tensor Core 기술을 기반으로 설계되어 있습니다. 이 GPU는 인공지능(AI), 머신러닝(ML), 그리고 고성능 컴퓨팅(HPC) 워크로드에서 최적의 성능을 제공합니다.
    • H100은 HBM3를 포함하고 있습니다. 
    • H100은 하나의 GPU로 구성되어 있음 

H100 GPU

  • DGX H100 (H100을 사용하는 AI 서버)
    • GPU: 8x NVIDIA H100 Tensor Core GPUs
    • GPU 메모리: 총 640GB (각 GPU당 80GB HBM3)
    • CPU: 2x AMD EPYC 7742 64-Core Processors
    • 시스템 메모리: 2TB DDR4
    • 스토리지:
      • 8x 3.84TB NVMe SSDs (OS)
      • 4x 15.36TB NVMe U.2 SSDs (Cache)
    • 네트워킹:
      • 8x NVIDIA ConnectX-7 400Gb/s InfiniBand/Ethernet
      • 2x 10GbE
    • GPU 상호 연결: NVIDIA NVLink 및 NVSwitch
    • 소프트웨어: NVIDIA AI Enterprise 포함

DGX H100

  • GH100 (Grace Hopper Superchip) - 2023/5월
    • Grace Hopper Superchip은 H100 GPU와 Grace CPU를 통합한 별도의 제품 
    • Grace는 NVIDIA의 ARM 기반 데이터센터 CPU를 가리킵니다.
    • Grace 의 'G' + H100의 'H100' = 'GH100'

 

GH100

 

##### 2세대 ######

 

  • HS200 (NVIDIA H200 Tensor Core GPU) - 2024/2Q
    • Hopper Architecture GPU
    • H200은 H100의 후속 모델로, 더 큰 메모리 용량과 향상된 성능을 제공합니다. 주요 특징으로는:
      • 141GB의 HBM3e 메모리
      • 향상된 AI 및 HPC(고성능 컴퓨팅) 성능
      • 개선된 에너지 효율성
    • 이 GPU는 단일 칩이지만, 여러 개의 H200 GPU를 연결하여 더 큰 규모의 병렬 컴퓨팅 시스템을 구축할 수 있습니다.

H200

  • GH200 (NVIDIA GH200 Grace Hopper Superchip) 
    • Grace CPU(Arm Neoverse 코어 기반) 와 H200 GPU를 하나의 패키지에 결합했습니다.

GH200

 

  • DGX H200 (H200 을 사용하는 AI 서버)
    • GPU:
      • 8개의 NVIDIA H200 Tensor Core GPU를 탑재하고 있습니다.
      • 각 GPU는 141GB의 HBM3e 메모리를 가지고 있어, 총 1,128GB의 GPU 메모리를 제공합니다.
    • 메모리 용량:
      • 이전 모델인 DGX H100에 비해 GPU 메모리가 크게 증가했습니다(H100의 80GB에서 H200의 141GB로).
      • 대규모 언어 모델(LLM)과 같은 큰 AI 모델을 훈련하고 실행하는 데 더욱 적합해졌습니다.
    • SSD
      • 30TB NVMe SSD

DGX H200

##### 3세대 ######

 

  • GB200 (GB200 Grace Blackwell Superchip)
    •  Blackwell Architecture GPU
    • 1 Grace CPU(Arm® Neoverse V2 cores) : 2 Blackwell GPUs
    • GPU memory : Up to 384 GB HBM3e | 16 TB/s
  • GB200 NVL72
    • Blackwell Architecture GPU
    • 36 Grace CPU (Arm® Neoverse V2 cores)  : 72 Blackwell GPUs
    • GPU memory : Up to 13.5 TB HBM3e | 576 TB/s

GB200 NVL72

  • GB200 NVL2 
    •  Blackwell Architecture GPU
    • 2 Grace CPUs (Arm® Neoverse V2 cores) : 2 Blackwell GPUs 
    • GPU Memory: Up to 384GB | 16TB/s

 

GB200 NVL2