banner
Casa / Blog / Creare un DGX
Blog

Creare un DGX

Jun 27, 2023Jun 27, 2023

Non tutti possono permettersi un server AI Nvidia DGX caricato con gli ultimi acceleratori GPU "Hopper" H100 o anche uno dei suoi numerosi cloni disponibili presso gli OEM e gli ODM del mondo. E anche se possono permettersi questa escalade di elaborazione AI, ciò non significa nemmeno per un secondo che possano mettere le mani sulle GPU H100 o addirittura “Ampere” A100 che sono parte integrante di questo sistema data la forte domanda di questi sistemi di elaborazione. motori.

Come al solito, le persone trovano sostituti economici e tecnici, ed è così che funziona un’economia sana, aumentando il numero di alternative e riducendo i costi di tutte queste alternative grazie alla concorrenza.

Così è con le configurazioni SuperNode che il fornitore di tessuti componibili GigaIO ha messo insieme con l'aiuto dei produttori di server Supermicro e Dell. Invece di utilizzare le GPU Nvidia, i SuperNodi GigaIO si basano sugli acceleratori GPU AMD “Arcturus” Instinct MI210 più economici, che si collegano agli slot PCI-Express e non hanno le prese speciali richieste dalle GPU di fascia alta di Nvidia, AMD o Intel – SXM4 e socket SXM5 per le GPU A100 e H100 di Nvidia e socket OAM di AMD e Intel. E invece di utilizzare le interconnessioni NVLink per collegare insieme le memorie delle GPU Nvidia A100 e H100 in un sistema di memoria condiviso o l'interconnessione Infinity Fabric di AMD per collegare insieme le memorie delle GPU Instinct MI250X di fascia alta, la configurazione SuperNode utilizza PCI-Express. 4.0 switch per collegare le memorie GPU tra loro e ai nodi host del server.

Questa configurazione ha una larghezza di banda inferiore rispetto alle interconnessioni NVLink o Infinity Fabric, ovviamente, e anche quando saranno disponibili gli switch PCI-Express 5.0 questo sarà comunque il cast, qualcosa di cui ci siamo lamentati recentemente per conto di aziende come GigaIO e dei loro clienti. Continuiamo a sostenere che i livelli di rilascio PCI-Express per porte server, schede adattatrici e switch dovrebbero essere resi disponibili in sincronia nell'hardware anziché avere un enorme ritardo tra server, adattatori e switch. Se l’infrastruttura componibile deve diventare una cosa comune, e se le interconnessioni PCI-Express sono il modo migliore per raggiungere questo obiettivo a livello di pod (ovvero alcuni rack di macchine interconnesse), allora questo ci sembra ovvio.

Né GigaIO né i suoi clienti hanno il tempo di aspettare che tutto questo venga messo in fila. Deve costruire cluster oggi e offrire oggi i vantaggi della componibilità ai clienti, cosa che può fare come abbiamo dimostrato in passato con casi di studio e a cui fanno riferimento tali collegamenti. Ancora più importante, la componibilità consente di incrementare l’utilizzo di motori di elaborazione costosi come le GPU man mano che più carichi di lavoro in esecuzione sui cluster cambiano nel tempo. Per quanto sia difficile da credere, e questo è stato dimostrato nei benchmark del Supercomputing Center di San Diego, è possibile utilizzare GPU meno performanti o meno, aumentarne l'utilizzo e ottenere comunque risultati più rapidi con l'infrastruttura componibile rispetto a puoi farlo con un ferro GPU grande e robusto.

Le configurazioni GigaPod, SuperNode e GigaCluster messe insieme da GigaIO sono una commercializzazione di questa idea e non si limitano alle GPU AMD MI210. Qualsiasi GPU, FPGA o acceleratore discreto che si collega a uno slot PCI-Express 4.0 o 5.0 può essere inserito in queste configurazioni.

Un GigaPod ha da uno a tre nodi di elaborazione basati su server a due socket che impiegano processori Epyc 7003 "Milan" di AMD, ma ancora una volta, non c'è nulla che impedisca a GigaIO o ai suoi clienti di utilizzare altre CPU o server diversi da quelli di Dell o Supermicro. Questa è solo la configurazione interamente AMD che è stata certificata per essere venduta come singola unità ai clienti.

Il GigaPod ha uno switch PCI-Express a 24 porte basato sullo switch ASIC Switchtec Gen 4.0 PCI-Express di Microchip Technology. (Abbiamo profilato qui gli ASIC Microchip Gen 5.0 Switchtec e, si spera, inizieranno presto a essere spediti in grandi volumi.) GigaIO utilizza gli ASIC adattatori PCI-Express di Broadcom per collegare server, contenitori di archiviazione e contenitori di acceleratori a questa dorsale di commutazione, che è dotata del software FabreX lo stack può disaggregarsi e comporre al volo. Il GigaPod ha sedici acceleratori e le CPU e le GPU vengono fornite utilizzando Bright Cluster Manager di Bright Computing, acquistato da Nvidia nel gennaio 2022.

Invia richiesta
Inviare