最近の話題 2011年7月16日

1.100万ARMコアの脳シミュレータ

  マンチェスター大のFurber教授等が,ARMコアで脳のニューロンのシミュレータを作り,最大1Mコアを接続することにより,人間の脳の1%程度の規模のシステムを構築するという話題は各種のメディアで報じられていますが,2011年7月14日のEETimesの記事が一番詳しいようです。また,EETimesはスライドショーと称してチップやシステムボードの写真も掲載しています。

  Furber教授はARMアーキテクチャの元になったAcorn RISC Machineの設計者で,ARMからコアなどのIPの提供を受けてニューロンのシミュレーション用のチップを開発しました。このシステムやチップはSpiNNaker(Spiking Neuarl Network architecture)と呼ばれています。そのチップが先月,UMCから戻ってきてファンクションテストをパスし,現在は小規模なシミュレーションを始めたところで すが,今後18ヵ月の内に,規模を拡大していくとのことです。

  チップはUMCの130nmプロセスで製造され,1チップに18コアを集積し,100Mトランジスタを集積しているのですが,その大部分は55個の32KBのSRAMに使われているそうです。この18コアチップとMicronの1GbitDRAMチップを積み重ねてパッケージに入れています。このCPUとDRAMチップの接続はワイヤボンドでTSVは使っていません。

  ボードの写真を見るとSpiNNakerチップのほかにもう1個ペアとなるチップが付き,それが4組ボードに載っています。ペアのチップについては説明がありませんが,CPUチップ間の通信を行うチップと思われます。ボードの4チップで合計72コアですから,100万コアにするにはこのボードが1万4000枚必要になります。

  人間の脳のニューロンは100B個程度あり,それらの間の接続は1000Tと言われているので,1Mコアで1%の1Bニューロンということは1000ニューロン/コアで,コアあたり10Mのニューロン間接続を担当する計算になります。ニューロンは電気化学的なパルスで信号を送っているのですが,このマシンではパケットで信号を送るそうです。

2.革新的空冷テクノロジ Sandia Cooler

  2011年7月7日に米国のSandia国立研究所は革新的な熱伝達テクノロジを発表しました。普通,CPUチップなどの冷却にはヒートシンクが使われ,ヒートシンクのフィンに扇風機(ファン)で風をあてて冷やします。ヒートシンクは固定で動かず,扇風機の羽が回って空気を送るという構造です。

  これに対して,このSandiaのAir Bearing Heat Exchangerは,ヒートシンクの渦巻き状のフィンが回ります。ファンを回して空気を送ってフィンに当てるより直接フィンを回す方が効率が良いのは分かりますが,回っているフィンにどうやって熱を伝えるのか,それが低い熱抵抗で実現できるのかというのが疑問だったのですが,発明者の論文を見て,納得しました。

  チップのパッケージに接触するベースプレートは固定で,その上に対抗して回転する円盤(この上にフィンがついている)があり,この回転する円盤とベースプレートの間は30um程度のエアギャップになっています。このエアギャップは薄いのと,円盤の回転でミクロな空気の対流が起こるので,非常に熱抵抗が小さいというのがミソです。この30umという距離はディスクのヘッドの浮上と同じ原理で,回転する円盤が作り出す空気流で浮上しており圧力と回転数で決まるので,安定だとのことです。

  通常のヒートシンクで0.2℃/Wを実現しようとすると,ファンのモーターの電力が100W必要だが,このテクノロジを使うと消費電力は1/10以下になる。ヒートシンクとファンの体積も1/4になると述べられています。

  当面の用途はチップの冷却ですが,この技術はエアコンや冷蔵庫などの熱交換機にも使用でき,全部がこのSandia Coolerに置き換わると,全米の電力消費を7%以上減らせると述べられています。

3.J.P.MorganがMaxelerのFPGAアクセラレータを導入

  2011年7月13日のHPCWireが,金融大手のJ.P.MorganがCDOというポートフォリオのリスクシミュレーションにFPGAベースのアクセラレータを導入したと報じています。

  J.P.MorganのCDOのリスク計算は数1000コアのx86システムを使って8から12時間掛り,夜に流して翌朝結果がでるという感じで, 公定歩合の変更の発表などの大きな変化には追従できず,計算途中でエラーが起こってもやり直しの時間がありませんでした。これを改善するプロジェクトで,最初は,GPUアクセラレータに移植を行い,14〜15倍に高速化されたのですが,チームはFPGAを使えばもっと高速化できるということを考え,FPGAベースのアクセラレーションを専門にしているMaxeler社と開発に入りました。

  Maexlerは2010年9月4日の話題で紹介していますが,Stanford大のFlynn教授 らの作った会社で,アルゴリズムからFPGA向きにチューニングして性能を出すというアプローチを取っている会社です。非常に手間がかかるので,これまで石油探査の大手のShrunberger専属のような感じでアクセラレータを開発してきていたのですが,今回,J.P.Morganという金融大手を顧客に加えたようです。

  C++で書かれていたCDOのリスク分析のプログラムのFPGA化は大変で,クラスやテンプレートが並列実行を阻害しており,これらの使用を止めて並列化できるように書き直し,それをJAVAで書き直してMaxeler社のJAVAコンパイラでFPGA用のVHDLを作るということで,3か月掛ったとのことです。しかし,結果は,40ノードのMaxelerのクラスタで4分で計算できるようになり,130倍以上高速になったということです。

  このMaxelerのノードには4コアのXeon 2チップにXilinxのVertex 5 FPGAが2個接続され,メモリが48GB搭載されています。

  J.P.Morganは5万台のサーバを使い,1万4000本のプログラムを使っているとのことで,このようなFPGAで高速化が可能なプログラムはその中の一部ですが,それでも今回のCDO以外にも多くのプログラムがFPGA化で大きく高速化できると見られています。

  このような状況から,J.P.MorganはMaxelerの株の20%を購入したとのことです。J.P.Morganの規模からいえば微々たる出費だと思われますが,Maxelerの有用性を評価し,自社の影響下に囲い込む(同業他社には同じ技術を提供しない)狙いと思われます。

  Maxelerは,Shrunberger 1社だけのお客で50人の社員を養っていけるのかと心配していたのですが,石油探査と金融の業界でトップクラスの大手に深く食い込んだようで,経営的には大きく安定した感じがします。

4.IBMのPOWER 755は来月出荷開始

  2011年7月15日のThe Registerが,Blue Watersスパコンに使用されるPOWER 755サーバは8月26日に商用出荷になると報じています。

  これは,従来, POWER7 IHと呼ばれていたもので,POWER7 4チップを搭載するMCMを8個とスイッチ用のMCMを8個搭載する2Uサイズのサーバです。2Uと言っても通常の19インチラックではなく,幅は30インチ,奥行は6フィートという巨大サイズで,マザーボードは畳一畳分です。メモリはCPU MCMあたり16枚で,全体では128枚×16GBで2TBのメモリが搭載できます。

  POWER7プロセサのクロックは,3.84GHzと決まったそうで,ピーク演算性能はチップあたり245.76GFlops,サーバ1台あたり7.86TFlopsとなります。

  お値段ですが,全部のプロセサコアをアクティベートしたPOWER 755サーバ1台の定価は$560,097で,2PBのメモリが$332,736だそうです。そして,ノード間をつなぐ光ケーブルが1本$750です。それから384本のディスクを収容する4UのI/Oドロワーが$473,755で,水冷のカスタムのラックが$294,404,ノードを保守するためのリフトツールが$50,443です。たしか,サーバ1台が150kg位あったので専用ツールがないと持ち上がりません。ラック全体では7502ポンドだそうで,3.4トン程度になります。

  ということで,ラック1本にPOWER 755を1台とI/Oドロワー1台を入れただけの構成で,約$1.9Mとなります。そして,POWER 755を1365ノードと342台のストレージノードを持ち,ピーク演算性能が10.7PFlops,2.7PBのメモリと26.3PBのディスクを持つシステムは定価では$1.5Bという計算になるそうです。ということはBlue Watersは9割引き以上の値引きで,赤字でしょうね。    

5.SiliconBlueが40nm FPGAを発表

  2011年7月11日のEETimesがSiliconBlueの40nmプロセスのFPGAの発表を報じています。

  FPGAはどんどん大型化し,高速シリアルインタフェースもどんどん高速化して高性能になっていますが,SiliconBlue社は小規模で高性能ではないが,消費電力が少なく安いというのが特徴です。FPGAは一般に消費電力が大きいので,スマートフォンやタブレットなど電力予算の小さい機器には使われないのですが,同社はこの分野を主要なターゲットとしており,既にSamsungやHuaweiなどを始めとして,同社のFPGAを使う30〜40の最終製品が市場に出ているとのことです。

  ソフトはダウンロードしてインストールできてしまうので製品の差別化にはならず,TegraやOMAPなどのアプリケーションプロセサがサポートできないセンサやI/Oをサポートすることでハードの差別化を図ることが重要になっており,同社の低電力FPGAはこのような用途に使われているとのことです。

  今回発表したのは,TSMCの40nmプロセスを使うLos Angelsシリーズという製品で,携帯電話向けの低電力のLPと,タブレットなどの多少電力に余裕がある製品向けの高性能のHXの2系列があります。ロジックセル(LUT4+FF)数は640〜16,192(等価ゲートカウントは30K〜800K)で32Kbit〜384KbitのRAMを内蔵し,パッケージのプリント板専有面積は50mm2以下とのことです。

  FPGAの消費電力を定義するのは難しいのですが,7680ロジックセルの製品の全部のゲートを16ビットのバイナリカウンタで埋め尽くした状態で,32MHzクロックで動かした時のTypeの電源電流は1.2V電源で12mAで,消費電力は14.4mWという計算になります。

  もっとも小型の製品は2.5mm×2.5mmのマイクロBGAで,大量購入するとお値段は$1.99(約160円とのことで,これでスマートフォンの売値が1000円かそれ以上高くできればペイします。

  SiliconBlue社は既に700万個のFPGAを出荷し,今年は1000万個出荷の目標で,順調に推移しているとのことです。