banner
ニュース センター
グラフィックデザインにおける印象的な経験。

Facebook の将来のラックとマイクロサーバー アイアンの内部

Aug 13, 2023

ハイパースケーラーとクラウド ビルダーは、過去 10 年ほどの間、特に Facebook が 2011 年 4 月にオープン コンピューティング プロジェクトを設立し、2014 年初めに Microsoft が参加して基本的にプロジェクトが設立されるにつれて本格化して以来、サーバー分野でのイノベーションのペースを設定してきました。これは、Facebook が発表した設計とはまったく異なる、そしてほとんど互換性のないまったく新しいサーバー革新の流れでした。

Microsoftは今週開催された仮想Open Compute Summitでは自社のハードウェア設計についてあまり語っていないが、Facebookは語っている。 Facebook のテクノロジーおよび戦略担当ディレクターである Vijay Rao 氏は、昨年の OCP サミットで、革新的な OCP アクセラレータ モジュール アーキテクチャを備えた「Zion」機械学習トレーニング システムを発表しました。このアーキテクチャは、その密度とモジュール性により業界で普及すると考えられています。このアーキテクチャを利用できる多数の相互接続とアクセラレータを提供します。 ラオ氏は、より小型の M.2 推論エンジンをどのようにまとめて Facebook の「Yosemite」マイクロサーバー設計に導入するかを示唆しました。このサーバーは 2015 年 3 月にデビューし、同月は私たちが The Next Platform を開始した月でもありました。 Yosemite シャーシは、Facebook が支持する 21 インチ オープン ラック エンクロージャに収まる 3 分の 1 の幅のコンピューティング スレッドで、当初は最大 4 台のシングル ソケット マイクロサーバーに加えて、それらのノード間で共有ネットワークとストレージを備え、最大 24 台のこれらのスレッドが搭載されていました。さらに 2 つの電源シェルフと一部の空いたスペースが、合計 96 台のサーバーを収容する 1 つのオープン ラックを埋め尽くしました。

昨年の「The Next AI Platform」イベントで、ラオ氏は、Facebook がどのように比較的小規模な推論エンジンと大規模な並列処理を行い、それを Yosemite のようなマシン内に導入するかについてもう少し詳しく話しました。今年の仮想 OCP サミットでは、Facebook のエンジニアがその概要を正確に説明しました。これをどのように行うのか、また、Intel の「Cooper Lake」Xeon SP プロセッサをベースにした将来の 1 ソケット サーバーと 2 ソケット サーバーについても話します。このサーバーは、半精度 FP16 および Bfloat16 のサポートのおかげで推論作業も行う予定です。これらのプロセッサ上の AVX-512 ベクトル ユニットでのデータ形式と処理。

Yosemite シャーシは、さまざまな世代の 2 ソケット マシンとともに、Facebook のインフラストラクチャの大きな部分を占めています。 私たちは 2016 年に Facebook がさまざまなワークロードに合わせてサーバーをどのように構成しているかをプロファイリングしました。「Leopard」の 2 ソケット システムと Yosemite がそのインフラストラクチャの大部分を占め、「Big Sur」の GPU 対応マシンは比較的少量ですが、急速に成長しています重要性において。 しかし、Facebook は 2 つ以上のマシンを作成し、それらをオープンソースに提供しました。ソーシャル ネットワークの ASIC およびカスタム シリコンの調達担当ディレクターであるキャサリン シュミットケ氏が基調講演で概説したように、次のように説明されています。

Facebook は、多数のソフトウェアはもちろんのこと、データセンター、ラック、サーバー、ストレージ サーバー、サーバー用のさまざまな種類のメザニンおよびネットワーク インターフェイス カードとアクセラレータ モジュール、モジュラーおよびシャーシ スイッチ、光トランシーバーの設計を開始しました。 2011 年にオープンした古いプラインビルの設計でも、かなりまともなデータセンターを構築し、その気になれば、低コストで虚栄心のない設備で満たすことができます。

昨年、Facebook は、Yosemite のシャーシに加える可能性のある変更と、多数のサプライヤーの比較的控えめな推論エンジンを使用して大規模な並列推論複合体を作成する方法について、漠然と語っていましたが、それに適合する推論スティックに「Glacier Point」キャリア カードを使用していました。ヨセミテの囲い。 今年は、更新された Yosemite V2.5 シャーシと、実際に生産されている Glacier Point V2 キャリア カードの詳細が提供されました。 Facebook が M.2 フォーム ファクター PCI-Express カードで赤ちゃん推論チップを使用したい理由はたくさんあります。 まず、同社は、アプリケーション スタックの重要な部分である推論に、何か問題が発生した場合に巨大な爆発領域を設けることを望んでいません。 さらに、推論は非常に軽く、自然に大規模な並列ワークロード (Web サービスなど) であるため、小型デバイスでの実行に自然に適しています。 Facebook の計算によると、これらのデバイスの価格/パフォーマンスと熱特性は、GPU または FPGA で推論を実行するのにも非常に魅力的です。 しかし、これらのデバイスはトレーニングがあまり得意ではなく、今週発表された新しい「Ampere」GA100 GPU エンジンに HPC、AI トレーニング、AI 推論をすべて統合するという Nvidia の取り組みとはまったく逆の方向に進んでいます。 しかし、Facebook にはビデオのエンコードやデコードなど、サポートする必要のある他のワークロードがあり、これらは M.2 スティックでも実行でき、キャリア カードに展開してヨセミテ サーバーに格納できます。 さらに、ここで説明した自社開発の GLOW コンパイラにより、推論モデルを複数の比較的小さなデバイスに分割できるため、推論が重いからといって推論を実行するためにより重いコンピューティングを選択する必要がなくなります。

並列推論のより重いワークロードに耐えられるように Yosemite シャーシを更新するには、ここで概要を説明するように、いくつかの変更を加える必要がありました。

大きな変更点は、Yosemite シャーシ内のモジュール間の PCI-Express 3.0 スイッチングが再バランスされ、CPU からネットワーク インターフェイス カードへの帯域幅が増加し、モジュールをリンクするレーンが減少したことです。 エンクロージャの最大電力は 20% 増加して 720 ワットとなり、より高速な 15,000 RPM ファンがこの熱をコンピューティングから排除できるようになりました。 100 Gb/秒のマルチホスト NIC が追加され、低遅延を実現するための大きな受信バッファを備えた NIC と、輻輳制御のためのハードウェア サポートが与えられました。 (これが Mellanox (現 Nvidia) の ConnectX カードであることは間違いありませんが、Facebook は明言していません。)

微調整された Glacier Point V2 キャリア カードは次のようになります。

そして、アセンブリ全体は次のようになります。

そして完成したアイアンはこんな感じです。

各 Glacier Point キャリア カードの最大出力は 180 ワットで、12 枚の M.2 カードまたは 6 枚のダブルワイド M.2 カードを搭載できます。 Facebook が業界に提供した 2 つの M.2 推論カードの仕様は次のとおりです。

M.2 モジュールは PCI-Express 3.0 および 4.0 (x4 スロット 1 つ) をサポートする必要があり、すべての出力が 10 ワットから 14 ワットの範囲に収まる必要があります。これらは、M.2 モジュールを備えた既存のサーバーに接続できるため便利です。必要に応じて .2 スロット。 また、Facebook 内でさまざまな種類のアクセラレーションのために複数のモジュールを使用することもでき、Facebook は必要に応じて、さまざまな種類のローカル アクセラレーションとローカルの Optane またはフラッシュ M.2 モジュールを組み合わせて使用​​することもできます。 2 倍幅の M.2 は、15 ワットから 25 ワットの範囲で、より太くて高温の ASIC を搭載できるように設計されており、基板面積が大きいため、パッケージ上により大きなローカル メモリを搭載することもできます。 PCI-Express 3.0 と PCI-Express 4.0 (いずれの場合も x4 レーンのペア) にも同様の要件が必要です。

Facebook の推論チームは、Yosemite V3 シャーシの場合、これについてはすぐに説明しますが、特にキャリア カードと CPU ホスト間の PCI-Express スイッチングにより、エンクロージャ内の各スレッドにスタンドアロン NIC が必要になると示唆しています。 PCI-Express 3.0 速度では、控えめなコンポーネントを使用して低遅延推論を作成しようとするとボトルネックになる可能性があります。 要望リストには、Yosemite シャーシ内のサーバーごとに個別のベースボード管理コントローラーを搭載することや、キャリア カードをホストにリンクするための PCI-Express 4.0 スイッチの使用も含まれています。

ここで Yosemite V3 のデザインが登場します。 現在、Facebook は筐体内の電子機器を 90 度回転させ、垂直に配置されていたものを水平にしようとしています。 Yosemite V2.5 での M.2 実験から Facebook が学んだことは、CPU が中央にあり、キャリアが前後にある垂直方向の配置は、熱的に密度の高いアクセラレータ キャリアを冷却するには理想的ではないということです。 しかし、すべてを裏返すと、同じ数のデバイス間で熱分布がより均一になり、率直に言って、比較的控えめな CPU を冷却するのが容易になり、アクセラレータのマザーボードがシステムの熱バッフルになります。 Facebook の推論チームは将来を見据えており、Yosemite シャーシ内のストレージ デバイスとアクセラレータのサイズ、形状、数を柔軟にできるようにするとともに、より高速な (そしておそらくよりホットな) PCI-Express をサポートできるようにしたいと考えています。 5.0 は相互接続し、最大 30 ワットで動作するデバイスに電力を供給および冷却します。 Facebook の少なくとも一部の人々は、シングルおよびデュアル M.2 フォーム ファクターは機能しないと考えています。つまり、主に PCI-Express 5.0 デバイスがすぐには市場に投入されないという事実が原因であると考えています。これらのフォームファクタでは十分です。 さらに、将来的には、より熱効率が高いため、より大きなダイサイズが必要になります。 以下は、シミュレートされたデュアル M.2 カード上の 20 ワットのベア ダイを示し、温度とダイ サイズの相互作用を示すグラフです。

したがって、Yosemite V3 では、新しい Delta Lake シングルソケット サーバーがあり、ユニットに 4 つのユニプロセッサを詰め込むことができますが、現在はトップロードではなくフロントロードになっており、それを行う必要がある場合は非常に面倒です。何十万回も。

Yosemite V3 シャーシ内の基本コンポーネントは次のようになります。

4 枚の Delta Lake コンピューティング カードを搭載した状態は次のようになります。

以下は、4 つのサーバー ノードとノードごとにフラッシュ ストレージを備えた同じボックスです。

以下は、それぞれ 2 つのアクセラレータを備えた 2 つの強力なサーバーを備えた Yosemite V3 のセットアップです。

そして、これは 2 つの強力なアクセラレータとそれらをリンクするスイッチを備えた 2 つの頑丈なサーバー ノードと、ノードごとの専用ネットワーク インターフェイスです。

Delta Lake サーバー ノードは、今年後半に Intel から発売される将来の Cooper Lake プロセッサをベースにしています。 Facebook はその第 3 世代 Xeon SP プロセッサの機能について多くを語ることはできませんが、将来的には「Barlow Pass」Optane 永続メモリ スティックをサポートし、より多くの PCI-Express レーンと 1 対のローカル M.2 コネクタを備えているようです。 Delta Lake サーバー モードは次のとおりです。

そして、これは Delta Lake サーバーの回路図ですが、メモリ チャネルの数は隠されています。 (おそらく 6 つ以上あるでしょうか? 期待できるかもしれません。 . . . )

これは、Delta Lake に基づいたスレッドの 4 つの可能な構成です。

さて、いよいよラックマウント型サーバーの話になりますが、仮想 Open Compute Summit で Cooper Lake Xeon SP をベースにした 2 台のサーバーを発見しました。

Facebook のものは「Sonora Pass」と呼ばれるもので、2 ソケットのマシンです。つまり、次のようになります。

公式プレゼンテーションでは回路図は空白になっていましたが、セッション中にデータが含まれるぼやけたスクリーンショットを撮りました。

メモリ コントローラーに関する謎は別として、それがまだ PCI-Express 3.0 であり、この設計では多くのレーンが使用されていないことがわかります。 興味深い点の 1 つは、多くの周辺コンポーネントがボックスの内側からフロント パネルに移動されており、ラック シャーシの上部には分割カバーが付いているため、展開するときにカバーを外して交換できることです。前面のユニット – ストレージ、NIC など。 この設計では、右側に 4 つの E1.S ストレージ モジュールが搭載されており、追加の冷却のために 8 つまで拡張可能な 4 つのファンが付属しています。

私たちが監視したもう 1 つの Cooper Lake マシンは、Hyve Solutions の「Catalina」システムでした。これは 8 ソケットのシステムですが、4 ソケットに縮小することができ、Facebook の設計ではありませんが、ここではそれを投入します。 これはインテルのプレゼンテーションで表示されたスライドです。

ここでもまた、神秘性を生み出すためにメモリ モジュールがブロックアウトされました。

今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。