最近の話題 2016年2月27日

1.EUの3プロジェクトが協力してヘテロなExaScaleサーバを開発

  2016年2月24日のHPC Wireが,Exanest,Exanode。EcoscaleというEUの3つのプロジェクトが協力して,ARM CPUとFPGAを使うヘテロのサーバのプロトタイプを開発すると報じています。期間は3年で,EUのHorizon 2020計画の一環として,開発資金が支出されるとのことです。

  Exanestはインタコネクト,ストレージや実装,冷却といったシステムレベルの問題に取り組みます。Exanodeはコンピュートノードとそのプロセサやメモリの開発に取り組み,Ecoscaleは再構成可能なロジック(FPGA)をアクセラレータとして使うという問題に取り組みます。

  計算ノードですが,記事に載っている図では,4個のARMコアを集積する4個のXilinx Zynq FPGAチップとLPDDR4メモリを搭載するドータボードを作り,ブレードには6枚のドータボードと3個のSSDが描かれています。ドータボードの部分は液冷で,外部との通信を担うメザニンボードは空冷と書かれています。最初のプロトタイプの冷却の主担当はIceotope社と書かれていますので,液冷部分はフッ素系の液体に漬けて冷却するのでしょう。

  FPGAをアクセラレータとして使うというのは,既にMicrosoftが実験的に始めていますが,ある程度遠くの計算ノードからも高速に利用できるという目標を達成するには,Exanestに低遅延のネットワークを作って貰う必要があります。また,FPGAをFPGAとしてプログラムするのではなく,標準のC言語やMPIを使うプログラムから,FPGAを使うプログラムを生成するという目標は,なかなか,ハードルが高そうです。

  また,それぞれのプロジェクトに多くのメンバーが居て,それが3つも集まると「船頭多くして船山に上る」ということに成りかねません。上手く引っ張って行く指導者が得られるかどうかがカギになるのではないかと思います。

2.MellanoxがEZchipの買収完了を発表

  2016年2月23日のHPC Wireが,MellanoxによるEZchipの買収が完了したと発表したと報じています。Mellanoxはイスラエルの会社ですが,InfiniBand市場の大半を握るネットワークメーカーで,100GbitのEthernet製品も販売しています。一方,EZchipは,これもイスラエルの会社で,超高速のネットワーク用のネットワークプロセスを製造販売するファブレスの半導体メーカで,2014年にメニーコアプロセサを開発するTileraを買収したことでも知られています。

  EZchipの買収は,Mellanoxのネットワークに,より高度な機能を付け加えることができると見られています。

  EZchipの四半期の売り上げは$190〜195Mで,買収額は約$811Mとのことで,おおよそ1年間の売り上げ程度の金額での買収です,

3.スパコンの殺し方

  2016年2月24日のHPC Wireが,Oak Ridge National LabのAl Geist氏の説くスパコンの殺し方を紹介しています。元は,IEEE Spectrumに2月23日に掲載された記事で,本来は,IEEEに入っていないと読めない筈ですが,宣伝期間とかで,現在は誰でも読める状態になっています。

  タイトルはセンセーショナルですが,まともな記事で,こういうところに気を付けないと動かないスパコンに成ってしまいますよというお話です。

  2002年にTop500の1位になったAlpha Serverを使ったASCI Qスパコンはチップ内のアドレスバスにチェックが付いておらず,宇宙線起因の中性子ヒットで1時間に1回の頻度でエラーを起こし,ほとんど使い物にならなかった。科学者が検討して,厚い鉄板で覆うことにより,平均故障間隔を6時間まで伸ばして,辛うじて使える状態まで持っていったとのことです。

  また,バージニア工科大が1100台のPower Mac G5を使ったBig Macというスパコンを構築したが,メモリにECCが無く,メモリエラーの頻度が高く,システムがブートを終わるまでにエラーで倒れるという状態で,全く,使い物にならず,結局解体して単体のPower Mac G5としてネットで売られてしまったという。

  2004年から2008年にかけて,世界最大であったLLNLのBlueGen Lシステムは,頻繁にクラッシュしたり,誤った答えを出していた。何週間にもわたる調査の結果,原因はCPUチップを基板に取り付けるために使われた半田が多くの放射性同位元素を含むもので,この放射線でCPUの1次キャッシュがエラーするのが原因であることが判明したという。対策としては,1次キャッシュをバイパスして使わないという方法が取られた。これでエラーは大幅に減ったが,性能も低下してしまったという。

  元の記事は,このような失敗事例だけでなく,いろいろと有益なことが書かれているので,興味ある方は,是非,オリジナルを読んで戴きたい。