banner
ニュース センター
グラフィックデザインにおける印象的な経験。

メタプラットフォームでAIを推進する鉄

Aug 17, 2023

過去 30 年間の HPC クラスターと過去 10 年間の AI トレーニング システムに関して一貫して真実であることが 1 つあるとすれば、それは、ワークロードが増大するにつれて、ネットワークの重要性がますます高まっているということです。おそらく、フロップをできるだけ多く詰め込むことと同じくらい重要です。物理的および熱的に意味のあるノードです。

AI トレーニング システムについては、Meta Platforms が作成したオーダーメイド サーバーの進化ほどこれをよく表しているものはありません。2016 年にまだ Facebook と呼ばれていた頃、そして 2011 年に設立されたオープン コンピューティング プロジェクトに最初の AI システム設計を寄贈したときでさえも、ムーアの法則の衰退期におけるこのようなハードウェアとアプリケーション ソフトウェアの共同設計は、私たちが The Next Platform を設立するに至った中心テーマの 1 つであり、8 年が経った現在でも、ハイパースケーラーとクラウド ビルダーは依然として再教育を行っています。私たちがずっと前に HPC の分野で学んだ教訓の一部を、AI に特有の興味深い紆余曲折を交えて紹介します。

今週シリコンバレーで開催されたOCPグローバルサミットで、Meta Platformsは、新しい「Grand Teton」AIシステムと、ディスクドライブをベースとした関連製品「Grand Canyon」大容量ストレージアレイを発表した。その設計は両方ともOpen Computeに寄付される予定である。他のメーカーが、メタ プラットフォームが自社の AI ソフトウェア スタックに使用する鉄と互換性のあるシステムを作成できるようにするプロジェクト。

Grand Teton システムの完全な仕様は公開されておらず、これは残念ですが、同社のインフラストラクチャ担当副社長 Alexis Bjorlin が投稿したブログからある程度の洞察を得ました。Grand Canyon ストレージ アレイの仕様は実際には次のとおりです。 OCPで入手可能です。 (Meta Platforms は数十億人をホストするのに十分なビデオ ストリーミング帯域幅を持っているという事実にもかかわらず、誰でも事実上どこからでもイベントに参加できるように、OCP にリソースを寄付しないことを選択しました。今年、人々は OCP グローバル サミットに直接参加する必要がありました。私たちにはそれができませんでした。ですから、直接直接話を聞いて詳細を知ることはできませんが、遠くから頑張っていますのでご安心ください。)

幸いなことに、調べてみると、2019 年からの前世代の「Zion」AI システムと 2021 年からの「ZionEX」システムを作成するために使用されたハードウェアとソフトウェアの共同設計の Neo システムに関する、Meta Platforms が 4 月に発行した論文を見つけました。それがきっかけであり、同社は今年になるまで公にはあまり語っていなかった。 Neo は、Meta Platforms によって作成された一種のメモリ キャッシング ハイパーバイザーで、クラスタ内のメモリ階層のさまざまな部分をすべてソフトウェア制御下で柔軟かつスケーラブルに使用できるようにします。 (ちなみに、ZionEX の設計は OCP に提供され、現在は Zion 1.0 仕様文書の下にあります。Meta Platforms の情報筋によると、Grand Teton は 2023 年 4 月に OCP に提供される予定です。何が起こったのかはわかりません。元の Zion サーバー仕様に準拠します。)

ZionEX マシンと Neo キャッシュ メモリ ハイパーバイザー (メタ プラットフォームの用語ではなく、私たちの用語です) は、現代のビジネスにとって重要なワークロードであるディープ ラーニング レコメンデーション モデル (DLRM) をトレーニングするために使用されます。この場合は、 Facebook、Instagram、WhatsApp、その他のスタック全体でユーザーに表示する広告とコンテンツを決定します。

4 月の論文のグラフが示すように、DLRM だけでなくトランスフォーマー モデル (自然言語処理で使用される) にも必要な馬力は非常に大きくなります。

Meta Platforms は、複数の Zion システムを結合する ZionEX クラスターを使用して、950 億から 12 兆のパラメーターのサイズの DLRM モデルをトレーニングし、単純な Zion マシンのクラスターと比較して桁違いの高速化を実現しました。 Meta Platforms によると、元の Zion の設計は拡張性に優れておらず、トレーニングの実行が 1 台のマシン内に閉じ込められることがよくありました。 しかし、ZionEX を使用することで、Meta Platforms は RDMA over Converged Ethernet を利用して CPU ネットワーキング スタックをバイパスし、GPU がイーサネット ファブリック全体で互いのメモリにフル アクセスできるようにする、GPU の完全接続トポロジを考案しました。 (これについては後で詳しく説明します。)

おそらく、Grand Teton システムは、ZionEX マシンで使用されている以前の「Ampere」 A100 GPU の 3 倍から 6 倍のパフォーマンスを備えた「Hopper」 H100 GPU を利用することを考えると、ホスト GPU の帯域幅の 4 倍、2 倍の帯域幅を備えています。ネットワーク帯域幅と、そもそも Hopper GPU の使用を可能にする 2 倍のパワー エンベロープを備えているため、Grand Teton マシンは、メタ プラットフォームが DLRM をさらに拡張し、成長しないモデルでもより速く結果を得るのに役立つはずです。

すべてのハイパースケーラーと大手クラウド プロバイダーが共通して認識していることの 1 つは、自社の特定のアプリケーション スタックまたはクラウド顧客のアプリケーション スタックに合わせてハードウェアとソフトウェアを共同設計する必要があり、さらに、請求額を管理する必要があるということです。コロナウイルスのパンデミックによってサプライチェーンが不安定になっている世界で、生産能力計画の目標を達成できるように、これらの機械の材料と部品の供給源を確保します。

そこで、Facebook はこれらの問題に正面から取り組むためにオープン コンピューティング プロジェクトを開始しました。Facebook がメタ プラットフォームに変貌するにつれて、顧客のハードウェアのニーズはさらに深刻になりました。 だからこそ、私たちはこの 1 年間、メタ プラットフォームが Nvidia に入社し、DGX サーバーと Mellanox スイッチ インフラストラクチャをベースにした非常に特注のシステム (Research Super Computer (略して RSC) と呼ばれる) を採用したことを少しからかってきました。 これは Facebook やメタ プラットフォームのやり方では絶対にありません。彼らが Nvidia からシステムを購入しているのであれば、それがタイムリーに GPU を入手する唯一の方法だったからである可能性が非常に高いです。

Zion、ZionEX、そして現在の Grand Teton サーバーの GPU はすべて、Facebook と Microsoft が 3 年前に作成した OCP アプリケーション モジュール (OAM) フォーム ファクターを利用しています。 以前の GPU アクセラレーション AI マシン (2016 年の Big Sur、2017 年の Big Basin、2018 年の Big Basin 2 など) はすべて PCI-Express GPU アクセラレータを使用しており、NVLink ネットワーキングを備えた Nvidia カスタム SXM ソケットを利用していませんでした。 Nvidia は、最高パフォーマンスのシステムを確保しています。

Meta Platforms は、多くのハイパースケーラーと同様に、独自仕様から可能な限り遠ざかろうとしています。そのため、Meta は、RSC システムの買収だけでなく、Microsoft Azure クラウド上に Nvidia A100 GPU をベースにした仮想スーパーコンピューターを構築していることを誇示しています。どちらも非常に独特です。 実際、それが、Microsoft と Meta Platforms が最初に OAM フォーム ファクターを作成した理由です。

AMD と Intel はどちらも、自社の GPU で OAM フォーム ファクターをサポートしています。AMD は、2020 年 11 月から以前の「Arcturus」Instinct MI100 シリーズと、1 年後に展開を開始した最新の「Aldebaran」Instinct MI200 シリーズでサポートしています。 Intel は、率直に言って、長い間待ち望まれていた「Ponte Vecchio」Xe HPC ディスクリート GPU アクセラレータの OAM フォーム ファクタをサポートしています。

Nvidia はこれについて議論したことはありませんが、Zion および ZionEx サーバー用のメタ プラットフォーム用の OAM フォーム ファクターで、「Pascal」 P100 および「Ampere」 A100 GPU アクセラレータの PCI-Express バージョンのカスタム バリアントを作成しました。 Grand Teton システムで使用される H100 デバイスでも同様のことが行われると考えられます。 また、Nvidia が Microsoft 向けに OAM 互換の GPU アクセラレータを製造していると考えられます。

Meta Platforms が Microsoft からクラウドの AI クラスターを購入したり、Nvidia から DGX システムのロック、ストック、バレルを購入したりする理由は、単に Nvidia がこれら 2 社向けに一定数の OAM ベースの GPU を製造しており、それがH100の出荷を開始しました。

Grand Teton システムが何であるかを理解する最良の方法は、詳細の多くはメタ プラットフォームによってまだ明らかにされていませんが、Zion と ZionEX を見て、これらの設計がどのように進化し、その理由を理解することです。

Zion システムが興味深い理由はいくつかありますが、設計に固有の OAM フォーム ファクターと再構成可能な PCI-Express スイッチング ファブリック トポロジだけではありません。 この Zion マシンは、CPU と GPU の両方、そしてそれぞれの太くて遅いプレーンバニラ DDR と細くて高速な HBM メモリを恥ずかしがらずに重視していました。 さらに、Intel に BF16 半精度浮動小数点演算を「Cooper Lake」Xeon SP プロセッサの AVX-512 ベクトル エンジンに追加して、BF16 浮動小数点と一致させるよう強制したのは Facebook (当時はまだメタ プラットフォームではありませんでした) でした。当時のGPUで利用可能。

これらの記憶と共通のデータ形式と処理方法を保有することで、Facebook は機械学習のデータフローと変換の一部を簡素化できる可能性があります。 非常に具体的に言うと、Zion サーバー ノードの 8 つの CPU と 6 TB のメモリは、テラバイト規模の DLRM のすべての埋め込みをメイン CPU メモリに保持できる一方、DLRM の計算部分を GPU に移動できることを意味します。必要に応じて、CPU メイン メモリからも HBM メモリにデータをスプーンで送り込みました。

ご覧のとおり、Zion 内の 8 つの Cooper Lake Xeon SP は、ねじれたハイパーキューブ トポロジで Intel の UltraPath Interconnect (UPI) によって接着剤なしでリンクされています (つまり、8 つの CPU のうち 6 つの間には 1 ホップがありますが、他の 2 つの CPU の間には 2 ホップがあります。) ) 100 Gb/秒のネットワーク インターフェイスは CPU からぶら下がっており、GPU を相互にリンクしたり CPU にリンクしたりする再構成可能なファブリックを作成する OAM ボードに組み込まれた 4 つの PCI-Express スイッチがあります。

Zion 内の 8 ウェイ CPU サーバーは、実際には 4 枚の 2 ソケットの「Angels Landing」CPU カードで構成されており、それぞれに最大 1.5 TB のメモリと、メザニン カードの OCP 3.0 仕様をサポートする 4 つの 100 Gb/秒イーサネット NIC が搭載されています。 その上に積み重ねられたのは「Emerald Pools」GPU シャーシで、これには 8 つの OAM GPU を相互接続し、Zion システムの 8 つの CPU のそれぞれに相互接続するための 4 つの PCI-Express 4.0 スイッチがありました。

ここで仕様を確認できる ZionEX システムでは、Facebook が GPU と CPU の間に中間スイッチング層を置き、いくつかのことを行いました。 まず、「Clear Creek」と呼ばれる中央の PCI-Express スイッチ複合体、4 台の PCI-Express 4.0 スイッチ、Zion ノードを連結する 8 台の 200 Gb/秒イーサネット NIC、および 16 台の E1.2 または M.2 用のスペースローカルストレージ用のフラッシュドライブ。 (各 PCI-Express スイッチには最大 4 つの NVM-Express フラッシュ ドライブがあります。)

当時 Facebook はこれについて言及しませんでしたが、Zion および ZionEX マシンは 1、2、または 4 つの 2 ソケット CPU コンピューティング スレッドで構成でき、4 つのスレッドをすべて備える必要はありませんでした。 実際、ZionEX では 2 つのスレッドに 4 つのソケットがデフォルトであり、DLRM モデルが CPU コンピューティングと DDR4 メモリ容量を超える必要がない場合は 1 つのスレッドが許容されます。

以下は、接続の階層を示す ZionEX のより優れた図です。

Zion および ZionEX マシンには複数の独立したサブシステムがありますが、Grand Teton システムには、すべてのコンポーネント (CPU、GPU、PCI-Express スイッチ、ネットワーク インターフェイス カード) がすべて接続される単一のマザーボードがあります。

これにより、ケーブルと接続が減り、問題が発生する可能性が減り、システムの信頼性が高まります。 実際、Grand Teton の設計では、電源とネットワークを除いて外部ケーブルが完全に排除されています。

Grand Teton システムのフィードと速度は現在メタ プラットフォームによって秘密にされており、どの CPU と GPU が選択されるかを見るのは興味深いでしょう。 Facebook が長年にわたりインフラストラクチャのワークロードを Intel Xeon D プロセッサに依存していることを考慮すると、Grand Teton は CPU コンピューティング、PCI-Express 5.0 スイッチングに「Sapphire Rapids」Xeon SP を使用し、Nvidia、AMD、または Intel GPU のオプションを使用することになるのではないかと私たちは推測しています。

これは確かに当てはまります。 Cooper Lake Xeon SP には Clear Creek スイッチ ノードへの PCI-Express 3.0 x16 リンクがあり、これらを PCI-Express 5.0 x16 リンクに移行すると、ホストのスイッチ帯域幅が 4 倍になります。 Grand Teton システム ボード上のファブリックとして PCI-Express スイッチを使用すると、このバランスが取れ、GPU とインターフェイスするスイッチ上のネットワーク インターフェイスには 400 Gb/秒 RoCE イーサネット、CPU ホスト上の 200 Gb/秒イーサネット ポートに移行します。これにより、メタ プラットフォーム ブログで話題になっている 2 倍のコンピューティング帯域幅とデータ ネットワーク帯域幅が得られます。

おそらく最も興味深いのは、グランド ティトン システムが 2 倍の熱に耐えることができるということであり、ビョーリン氏はブログ投稿でこれがなぜ重要なのかを説明しました。

「私たちが目にしている電力増加傾向と液体冷却の進歩の必要性により、私たちはプラットフォーム、ラックと電力、データセンター設計のすべての要素について異なる考え方を迫られています」とビョーリン氏は説明しました。 「以下のグラフは、数年間にわたる高帯域幅メモリ (HBM) とトレーニング モジュールの電力増加の予測、およびこれらの傾向が時間の経過とともにどのように異なる冷却技術を必要とするか、およびそれらの技術に関連する制限を示しています。」

Meta Platforms は、エアアシスト液体冷却 (データセンターのホット アイルに放り出される前にシャーシ内の熱を移動させる液体冷却を意味します) とラックからさらに効率的に熱を奪う設備の水冷を使用して、これがどのように実現されるかを示しています。この設計は、よりホットな GPU と HBM メモリ スタックに対応し、ソケットあたり 1,300 ワットまで出力でき、さらに DLRM システムの容量を増やすという熱狂的な需要にも応えます。

Meta Platformsは、ハードディスクドライブとフラッシュモジュールの両方をサポートする「Grand Canyon」と呼ばれる、現在の「Bryce Canyon」ストレージアレイへの付随アップグレードを渡す際に言及した。 この仕様は 9 月 14 日にリリースされ、ここで確認できます。

Grand Canyon ストレージ アレイには、4OU OpenRack エンクロージャ内に 72 台のドライブを収容する余地があり、2 つのコントロール プレーンに分割されています。 各コントロール プレーンには、単一の 26 コア「Cooper Lake」Xeon SP プロセッサ、64 GB または 128 GB の DDR4 メモリ、2 TB E1.S フラッシュ ユニット、Broadcom SAS コントローラおよびエクステンダを備えた「Barton Springs」マイクロサーバーが搭載されています。 50 Gb/秒の OCP 3.0 ネットワーク インターフェイスは、最終的には 100 Gb/秒にアップグレードされます。 これは高密度ストレージであり、必ずしも高速なストレージではありません。

今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。