banner
ホームページ / ブログ / DGX の作成
ブログ

DGX の作成

Jun 27, 2023Jun 27, 2023

最新の「Hopper」H100 GPU アクセラレータを搭載した Nvidia DGX AI サーバーや、世界中の OEM や ODM から入手可能な多数のクローンの 1 つを購入できる人は誰もがいるわけではありません。 そして、たとえ AI 処理のエスカレードを利用する余裕があったとしても、このシステムの一部である H100 GPU や「Ampere」A100 GPU をすぐにでも手に入れることができるという意味ではありません。これらのコンピューティングに対する需要が大きいことを考えると、エンジン。

いつものように、人々は経済的および技術的な代替品を見つけます。これが健全な経済の仕組みであり、競争のおかげで代替品の数が増加し、それらすべての代替品のコストが下がります。

コンポーザブル ファブリックのサプライヤーである GigaIO が、サーバー メーカーの Supermicro と Dell の協力を得てまとめた SuperNode 構成も同様です。 GigaIO スーパーノードは、Nvidia GPU を使用するのではなく、安価な AMD「Arcturus」Instinct MI210 GPU アクセラレータをベースにしており、PCI-Express スロットに接続され、Nvidia、AMD、または Intel のハイエンド GPU に必要な特別なソケット (SXM4) を備えていません。 Nvidia の A100 および H100 GPU 用の SXM5 ソケットと、AMD および Intel の OAM ソケットです。 また、NVLink インターコネクトを使用して Nvidia A100 および H100 GPU メモリを共有メモリ システムに結合したり、AMD の Infinity Fabric インターコネクトを使用してハイエンド Instinct MI250X GPU のメモリを結合したりするのではなく、PCI-Express を利用します。 4.0 スイッチは、GPU メモリを相互にリンクし、サーバー ホスト ノードにリンクします。

もちろん、このセットアップの帯域幅は NVLink または Infinity Fabric インターコネクトよりも狭く、PCI-Express 5.0 スイッチが利用可能になったとしても、依然としてこれがキャストであることに変わりはありません。GigaIO などの企業とその顧客を代表して、私たちが最近嘆いたことです。 私たちは、サーバー ポート、アダプター カード、およびスイッチの PCI-Express リリース レベルは、サーバー、アダプター、スイッチ間で大幅な遅れを持たせるのではなく、ハードウェアでロックステップで利用できるようにする必要があると依然として主張しています。 コンポーザブル インフラストラクチャが一般的になるのであれば、そして PCI-Express インターコネクトがこれをポッド レベル (つまり、いくつかのラックのマシンが相互リンクされることを意味します) で実現する最良の方法であるならば、これは私たちにとって明白であるように思えます。

GigaIO もその顧客も、これらすべてが揃うのを待つ時間はありません。 同社は今すぐクラスターを構築し、コンポーザビリティの利点を顧客に提供する必要があります。これは、過去にケーススタディで示したように、それらのリンクが参照しているように実現できます。 最も重要なことは、コンポーザビリティにより、クラスター上で実行される複数のワークロードが時間の経過とともに変化するにつれて、GPU などの高価なコンピューティング エンジンの利用率を高めることができるということです。 これは信じがたいことですが、サンディエゴ スーパーコンピューティング センターのベンチマークで示されたことですが、パフォーマンスの低い GPU を使用したり、その数を減らして使用率を高めても、コンポーザブル インフラストラクチャを使用した場合よりも結果が得られるまでの時間を短縮できます。大きくて頑丈な GPU アイアンを使えばそれが可能です。

GigaIO によってまとめられている GigaPod、SuperNode、および GigaCluster 構成は、このアイデアの商品化であり、AMD MI210 GPU に限定されません。 PCI-Express 4.0 または 5.0 スロットに接続される GPU、FPGA、またはディスクリート アクセラレータは、これらの構成に組み込むことができます。

GigaPod には、AMD の「Milan」Epyc 7003 プロセッサを採用した 2 ソケット サーバーに基づく 1 ~ 3 つの計算ノードがありますが、繰り返しになりますが、GigaIO またはその顧客が、Dell または Supermicro 以外の CPU またはサーバーを使用することを妨げるものは何もありません。 これは、単一ユニットとして顧客に販売することが認定されている、すべて AMD 構成です。

GigaPod には、Microchip Technology の Switchtec Gen 4.0 PCI-Express スイッチ ASIC をベースにした 24 ポート PCI-Express スイッチが搭載されています。 (ここでは、Microchip Gen 5.0 Switchtec ASIC のプロファイリングを行いました。間もなく大量出荷が開始されることを願っています。) GigaIO は、Broadcom の PCI-Express アダプタ ASIC を使用して、サーバー、ストレージ エンクロージャ、およびアクセラレータ エンクロージャをこのスイッチング バックボーンに接続します。このスイッチング バックボーンには、FabreX ソフトウェアが接続されています。スタックはその場で分解して構成できます。 GigaPod には 16 個のアクセラレータがあり、CPU と GPU は、2022 年 1 月に Nvidia に買収された Bright Computing の Bright Cluster Manager を使用してプロビジョニングされます。

お問い合わせを送信
送信