最近の話題 2014年6月28日

1.ISC14でIntelがNights Landingを発表

  Xeon Phiの2代目のNights Landingについて,ISC14でのIntelの発表2014年6月23日のEE Timesが報じています。

  それによると,Nights Landingは3TFlops以上の性能で,Atomと同じSilvermontコアになり,それを4スレッドのマルチスレッドサポートとAVX512などを強化したコアとのことです。出荷時期は2015年の後半とのことです。コア数はNights Cornerの60コア以上とのことですが,数字は明らかにされていません。

  Nights Cornerでは2階層のリングで60コアを接続していたのですが,Nights Landingではメッシュになるとのことです。そうすると,10×10コアでクロック2倍程度のイメージですが,当然,他の選択もあり得ます。また,Nights Landingではコア数を減らした製品を作るのか,作るとすると単純にコアをディスエーブルして歯抜けにするのは難しいと思うので,例えば11×11のアレイを作って,1行1列の不良を許容するというようになるのか,このあたりは技術的に興味深いところです。

  そして,このチップの周囲にはMicronと共同開発のHMCチップを同一パッケージに搭載し,DDR4の5倍のバンド幅を実現し,リリース時に最大16GBの容量を持たせるとのことです。DDR4で3.2Gbpsを実現したとしても8B幅では25.6GB/sで,HBMなら1個で実現できそうな数値です。まあ,DDR4が4チャネルとの比較であれば,HBMが4個となり,1個が4GBというのは妥当な容量です。

  また,同一パッケージにネットワーク接続を内蔵するという絵になっています。IntelはCRAYからネットワークの部隊を買収して,Omni Scaleというネットワークを開発しており,これをパッケージに内蔵すると思われます。PCIe接続のInfinBand NICに比べると,PCIeのバンド幅の制約を受けず,より高いバンド幅を実現できると思われます。Omni ScaleインタコネクトはInfiniBandを使うTrue Scaleインタコネクトとソフト互換とのことで,移行は容易そうです。

  ファブリックを集積するのは当然の方向ですが,InfiniBandの雄のMellanoxにとっては憂慮すべき事態で,どのような対応を取るのかも興味が持たれます。

2.東工大などが台湾のAlchipと協業で30GFlops/WのPACS-Gを開発

  2014年6月27日に台湾のAlchipテクノロジーズ社は,東工大,一橋大,会津大と連携して,30GFlops/WのPACS-Gプロセサチップを開発したと発表しました。プロセスはTSMCの28nm HPMとのことです。

  実際の演算性能や消費電力については,発表されていません。

  学会などで発表されているPACS-GのStraw Manは4096PEを搭載し,16TFlops/chipというものですが,これは10nm程度のテクノロジを想定したものです。単純に28nmと10nmの比率で考えると,512PEという計算になり,1GHzクロックで2TFlops,消費電力66Wといったところでしょうか?と書いたのですが,某所での発表では3mm×2mmという小さいチップで32コアのチップを作り,内積計算の場合の状態での測定とのことです。

  PACSは筑波大のスパコンの名前で,これまでの学会発表などは筑波大の佐藤先生がやられているのが多いのですが,チップの設計,開発は3月末まで東工大に在籍しておられた牧野先生のグループが行っているようで,東工大,一橋大,会津大というメンバーになっているようです。なお,牧野先生は現在の本務は理研AICSです。それから,PACS-Gのコンパイラやアプリの最適化などは筑波大の担当です。

3.Graph500で京スパコンが1位を獲得

  巨大グラフをたどる性能を競うGraph500で,2014年6月のリストでは,前回のトップであるSequoiaを抜いて,京コンピュータが1位になりました。

  10の40乗個のノードの間に10の44乗本のエッジがあり,一つのノードから始まって,そこからエッジでつながっているノードを全て求め,さらにそこからエッジでつながっているノードを求めるという手順を繰り返して,全部のノードまで到達すれば終わりという問題で,ノード間の接続情報は疎行列で,かつ,全ノードのメモリを使う必要がある巨大なデータなので,他のノードのメモリをアクセスする性能が問題になります。また,通信を抑えて,接続を見つけて行くアルゴリズムが重要です。一方,各ノードの演算性能はあまり問題になりません。

  前回トップのSequoiaは64Kノードで16599GTEPSの性能だったのですが,今回は,京スパコンの64Kノードを使い17977.1GTEPSを達成して,1位に輝きました。

  一方,MTEPS/Wを競うGreenGraph500では,九大のGraphCREST-SandybridgeEP-2.4GHzが,59.12MTEPS/Wで1位となりました。ただし,これは1ノードのマシンで,インタコネクト経由のノード間通信がない状態での測定で,エネルギー効率が高くなる傾向があります。マルチノードでの最高効率は32ノードのTSUBAME-KFCの6位で,14.06GTEPS/Wで,大型のスパコンでは,16384ノードのJUQUEENの8位,5.41GTEPS/Wが最高効率です。

4.ロシアのRSCグループがPetaStreamシステムの高密度化を発表

  2014年6月25日のHPC Wireが,ISC14での,ロシアのPSCグループのPetaStreamシステムの高密度化の発表を報じています。今年3月に発表されたIntelのXeon Phi 7120Dを使い,昨年11月のSC2013での発表から,性能を20%引き上げています。

  結果として2.2m3のラックに1.2PFlopsを詰め込んでいます。高効率の400VのDC給電などを使い消費電力を減らしているのですが,それでも400kWを消費します。当然,浸漬液冷です。

  これで,1平方mの床面積あたり1PFlopsを超えたとのことです。

5.ロシア政府がx86を止めて自国での開発のARMプロセサを使う

  2014年6月23日のThe Regsisterが,ロシアのKommersantの記事を引いて,ロシア政府は,3社の国営企業が協力してBaikalとコード名のCortex-A57 ARMベースのプロセサを開発し,政府や国営企業はx86ベースのPCやサーバに替えて,このチップを使うPCやサーバの調達に切り替える計画であると報じています。

  このチップは,28nmプロセスで作られ,少なくとも8コアを集積し,クロックは2GHz以上とのことです。

  政府や国営企業は,年間70万台のPCと30万台のサーバを購入しているとのことです。