NVIDIA H100 – oto najpotężniejszy akcelerator graficzny na rynku. Wielka zapowiedź architektury Hopper

NVIDIA zapowiedziała na Game Developers Conference (GTC 2022) najpotężniejszy akcelerator graficzny H100. Jego prezentacja pokryła się z wielką zapowiedzią architektury Hopper, na której opiera się najnowszy układ przeznaczony do zaawansowanych obliczeń. Poprzedni akcelerator NVIDIA, Ampere A100, wygląda przy nim blado. Poznaj szczegóły na temat architektury Hopper i akceleratorze graficznym H100.

Pokaz architektury NVIDIA Hopper. Drżyj, konkurencjo!

Zgodnie z tradycją, era nowej architektury NVIDIA (Hopper) rozpoczyna się od akceleratora graficznego, by dopiero później być wykorzystana w konsumenckich GPU. Stać się to powinno w 2024 roku wraz z premierą kart GeForce RTX 5000. Architekturę Hopper NVIDIA przybliżyła na swojej konferencji w ramach wydarzenia GTC 2022. Co o niej wiemy?

Wbrew plotkom architektura została opracowana w procesie technologicznym 4N TSMC (5 nm). Do tej pory wydawało się, że będzie ona wytworzona w 5-nanometrowej litografii N5. Pierwszy układ na architekturze Hopper nie ma budowy typu MCM (wielowarstwowej, czyli takiej, w której używa się kilku tzw. chipletów). Nadal jest to konstrukcja monolityczna. Naturalnie sporych wymiarów – rdzeń GH100 o powierzchni 814 mm² składa się aż z 80 miliardów tranzystorów!

budowa nvidia hopper
Źródło: NVIDIA

NVIDIA najprawdopodobniej porzuci klasyczną, monolityczną budowę na rzecz nowoczesnego rozwiązania, z którego mają skorzystać już tegoroczne Radeony RX 7000, dopiero w konsumenckich kartach graficznych GeForce RTX 5000.

Pora przybliżyć pierwszy akcelerator graficzny oparty na architekturze Hopper. Oto przed Tobą NVIDIA H100. Potęga w każdym calu, która wnosi wydajność w zaawansowanych obliczeniach na nieosiągalny do tej pory poziom.

NVIDIA H100 – techniczne cudo. Co skrywa akcelerator?

Układ graficzny NVIDIA H100 jest bezpośrednim następcą akceleratora NVIDIA A100, który jest oparty na 7-nanometrowym wymiarze technologicznym TSMC. Ponadto jest przedstawicielem dziewiątej generacji akceleratorów graficznych firmy NVIDIA przeznaczonych dla centrów danych, a więc stricte do obliczeń wysoko wydajnych (HPC od ang. High Performance Computing) i związanych ze sztuczną inteligencją (AI). Szczególnie dużo wnoszą nowe instrukcje DPX, które przyspieszają algorytmy programowania dynamicznego nawet 7-krotnie w stosunku do układu A100.

nvidia h100 hopper
Źródło: NVIDIA

Akceleratory dzielą dwa lata, a na tym rynku jest to przepaść i specyfikacja rdzenia GH100 tylko ją udowadnia. Dotyczy to obu wariantów nowego układu NVIDIA: SXM5 i PCIe. Pełny rdzeń graficzny GH100 ma 144 bloków SM, 18 432 rdzeni CUDA i 576 jednostek Tensor czwartej generacji, 96 GB pamięci HBM3 (lub HBM2e) przy 6144-bitowej szynie oraz 60 MB pamięci podręcznej (L2 cache).

Specyfikacja NVIDIA H100

  • Rdzeń graficzny: GH100
  • Liczba tranzystorów: 80 mld
  • Powierzchnia rdzenia: 814 mm²
  • Architektura: Hopper
  • Proces technologiczny: 4N TSMC
  • Liczba klastrów GPU: 132 lub 114
  • Liczba rdzeni CUDA: 16896 lub 14592
  • Pamięć cache L2: 50 MB
  • Liczba rdzeni Tensor: 528 lub 456
  • Maksymalne zegary: 1780 MHz (niepotwierdzone)
  • Pamięć: 80 GB HBM3 lub HBM2e
  • Szyna pamięci: 5120-bit
  • Przepustowość pamięci: 3 TB/s (HBM3) lub 2 TB/s (HBM2e)
  • Pobór energii (TDP): 700 W lub 350 W
  • Interfejs: SXM5 lub PCIe 5.0
  • Przepustowość interfejsów: 900 GB/s (NVLink SXM5), 600 GB/s (NVLink PCIe 5.0) i 128 GB/s (PCIe 5.0)
  • Moc obliczeniowa FP16: 120 TFLOPS (SXM5) lub 96 TFLOPS (PCIe)
  • Moc obliczeniowa FP32: 48 TFLOPS (SXM5) lub 48 TFLOPS (PCIe)
  • Moc obliczeniowa FP64: 30 TFLOPS (SXM5) lub 24 TFLOPS (PCIe)

Dla porównania akcelerator NVIDIA A100, oparty na architekturze Ampere, prezentuje się następująco:

Specyfikacja NVIDIA A100

  • Rdzeń graficzny: GA100
  • Liczba tranzystorów: 54,2 mld
  • Powierzchnia rdzenia: 828 mm²
  • Architektura: Ampere
  • Proces technologiczny: 7 nm TSMC (N7)
  • Liczba bloków SM: 108
  • Liczba rdzeni CUDA: 6912
  • Pamięć cache L2: 40 MB
  • Liczba rdzeni Tensor: 432
  • Maksymalne zegary: 1410 MHz
  • Pamięć: 40 lub 80 GB HBM2e
  • Szyna pamięci: 5120-bit
  • Przepustowość pamięci: 1,55 TB/s
  • Pobór energii (TDP): 400 W, 300 W lub 250 W
  • Interfejs: SXM4 lub PCIe 4.0
  • Przepustowość interfejsów: 600 GB/s (NVLink) i 64 GB/s (PCIe 4.0)
  • Moc obliczeniowa FP16: 78 TFLOPS (SXM4)
  • Moc obliczeniowa FP32: 19,5 TFLOPS (SXM4)
  • Moc obliczeniowa FP64: 9,7 TFLOPS (SXM4)

NVIDIA Hopper jest pierwszym układem graficznym, które obsługuje PCI-Express 5.0 (w konsumenckich GPU będzie to opóźniony RTX 3090 Ti). Jest także pierwszym, które oferuje poufne przetwarzanie danych dzięki zaimplementowaniu chipa Confidential Computing. Odpowiada on za zabezpieczenie przed atakami sprzętowymi i programowymi oraz lepszą ochronę maszyn wirtualnych (VM z ang. Virtual Machines) w zwirtualizowanych środowiskach (także izoluje je od siebie) oraz na poziomie MIG.

Multi-Instance GPU, czyli wspomniane MIG, to technologia dostępna od architektury Ampere (A100). Dzieli ona układ maksymalnie na siedem niezależnych od siebie instancji GPU, które działają równocześnie i każdą cechują własne zasoby: procesory strumieniowe, pamięć HBM, pamięć cache itd. W tym samym czasie NVIDIA H100 – dzięki tak podzielonemu przez MIG układowi – może zajmować się siedmioma różnymi zadaniami.

Każda wydzielona część to de facto odrębne, wyizolowane, a więc również bezpieczne układy graficzne. Co ważne, wykonywanie obliczenia nie wpływają na obciążenie tych przeprowadzanych w pozostałych instancjach. Sama funkcja, która przydatna jest w zastosowaniach niewykorzystujących pełnych możliwości procesora graficznego, nie jest nowością w architekturze Hopper. Jednak wraz z obsługą poufnego przetwarzania danych mowa o jeszcze lepszym zabezpieczeniu.

cechy nvidia hopper h100
Źródło: NVIDIA

Nowy akcelerator korzysta ponadto z czwartej generacji złącza NVLink o podwyższonej przepustowości (maksymalna wartość wzrosła z 600 na 900 GB/s).

Nie tylko akcelerator H100. Co jeszcze NVIDIA zapowiedziała na GTC 2022?

Sam akcelerator to nie wszystko, co NVIDIA miała do zaprezentowana na konferencji w ramach wydarzenia Game Developers Conference 2022. Pokazała również stacje robocze DGX H100 z ośmioma akceleratorami H100. Przepustowość takiej maszyny wynosi kuriozalne 24 TB/s (!). Robi wrażenie.

Mocarna stacja robocza DGX SuperPOD H100

Jednak to nic w porównaniu do systemu DGX (Super)POD H100 złożonego nawet z 256 akceleratorów. Taka platforma ma być w stanie osiągnąć wydajność na poziomie jednego eksaflopsa w obliczeniach FP8. Jest to 6-krotnie wyższa wartość niż w przypadku stacji roboczej poprzedniej generacji, opartej na architekturze Ampere.

stacja robocza dgx h100
Źródło: NVIDIA

Najszybszy superkomputer NVIDIA Eos do obliczeń AI

Stacje robocze posłużą do zbudowania najszybszego superkomputera do obliczeń AI. NVIDIA Eos, bo o nim mowa, ma osiągać wydajność na poziomie nawet 18,4 eksaflopsów w obliczeniach związanych ze sztuczną inteligencją. To cztery razy więcej niż w dotychczasowym królu wśród superkomputerów – japońskim Fugaku. W tradycyjnych obliczeniach naukowych osiągi NVIDIA Eos będą skromniejsze – „tylko” na poziomie 275 petaflopsów.

Na NVIDIA Eos, który powinien ruszyć jeszcze w 2022 roku, złoży się w sumie 576 systemów DGX H100 z 4608 procesorami graficznymi H100 (w każdym po osiem układów).

superkomputer nvidia eos
Źródło: NVIDIA

NVIDIA Grace wisienką na torcie

NVIDIA pokusiła się też o nowe informacje o „superchipach” NVIDIA Grace. Mimo że NVIDIA ostatecznie nie przejęła ARM, nadal przez długie lata będzie korzystać z ich licencji. „Zieloni” nie omieszkali podzielić się szczegółami dotyczącymi układów opartych na ARM.

Pierwszy z nich wykorzysta układ graficzny NVIDIA Hopper i procesor ARM. Jest połączeniem CPU i GPU do wysoko wydajnych obliczeń HPC i AI o dużej skali. Co jest możliwe dzięki aż 600 GB pamięci GPU. Łączy je interfejs NVLink o przepustowości 900 GB/s.

cechy superchipów nvidia grace
Źródło: NVIDIA

Z kolei drugi układ będzie zbudowany z 144 wydajnych rdzeni opartych na architekturze ARM Neoverse (ARM v9). Będą one współpracować z pamięciami LPDDR5X z korekcją błędów ECC przy przepustowości 1 TB/s.

NVIDIA zaplanowała premierę obu układów Grace na pierwszą połowę 2023 roku. Z kolei akcelerator NVIDIA H100 i wcześniej omówione systemy DGX H100, DGX Pod i SuperPOD będą dostępne w trzecim kwartale 2022 roku.

Źródło: NVIDIA

Sprawdź również: