最近の話題 20084月5

1.Intel Developer ForumでのGelsinger氏の講演と如意棒

  2008年4月2日,3日の両日,Intel Developer Forumが上海で開催されました。IDFの最初の講演は,会長とか社長とかがやっていたのですが,今回は,SVPのPat Gelsinger氏がペタフロップスからmWまでと題して,軽く全貌をしゃべり,そして,mW側をChadrasekhar氏,中間をPerlmutter氏が話し,自分はサーバからペタフロップス というハイエンドを話すと述べて,話し始めました。

 Gelsinger氏は,孫悟空の話を持ち出し,如意棒は,天を支える柱のように大きくなったり,小さくなれば耳の中にも仕舞える。同様に,IntelアーキテクチャもペタフロップスからmWまで広い範囲にスケーラブルと述べました。中国人や日本人は皆,孫悟空を知っているのですが,Monkey Kingと言われても,欧米人にはピンとは来なかったようです。

 孫悟空の如意棒はIntel製でないことは確かですが,VMwareのCTOや中国に色々の会社の人など,登壇して話をした人,全員に賞状か設計図を入れる紙筒のような如意棒をあげていましたが,あれには何が入っているのでしょうね?(1)感謝状,(2)プロセサチップ,(3)空っぽのどれでしょうか。

 Gelsinger氏の講演では,6コアDunnington,次世代ItaniumのTukwila,次世代XeonのNehalem,,そしてグラフィックスのLarrabeeについて説明がありましたが,事前に公開されている情報ばかりで面白い話はありませんでした。しかし,TukwilaとNehalemに関しては,動いているというデモを見せました。

 Tukwilaでは,Transitiveのバイナリートランスレータを使ってCADを動かして見せましたが,ネーティブで動くものが無いのを隠しているんじゃないかと勘ぐったのは私だけでしょうか。また,Nehalemでは,最初は2ソケット機2台で16コア32スレッドで動かし,Gelsinger氏が,前回のIDFで16スレッドだったのが32になって倍増だが,もっと行かないのかとクサイ台詞を述べて,デモをやる人が,スーパーマイクロ社の2U,2ソケットサーバを16台搭載したラックを見せて256コア,512スレッドで動いているのを見せましたが,InfiniBandで繋ぐスパコンクラスタなら,1000コア,2000コアは珍しくないので,ちょっと,子供だましという感じです。

2.Nehalemのアーキテクチャ

  テクニカルセッションでは,もう少しまともにNehalemのアーキが説明され,その発表の模様をPC Watchの後藤さんが詳しくレポートされています。後藤さんのレポートは,原文を読んでいただければ良いのですが,掲載されているIntelのスライドを元に,少し考察してみます。

  Nehalemのコアですが,後藤さんも書いておられるように,基本的には現世代のPenrynをベースとしてエンハンスした感じです。コアの顕微鏡写真に,大まかに,それぞれの部分の機能を書いた図が載っていますが,実行ユニットとO-o-O制御の部分が左の1/3のエリア,中央の1/3のエリアにL1D$,ロードストアユニット,命令デコーダがあり,左の1/3にL2$,メインTLB,ブランチユニット,L1I$があるという構成です。

  L2$は新設ですが,この面積はコア全体の1割強というところで,Penrynから50%程度コアが大きくなっているのを説明できません。SMTとかSSE4.2とか,各種バッファ量の増加,VMの強化などが総合して,50%の面積増になったようです。

  実行ユニットでは,SSE4.2でストリングやテキスト関係の機能強化やPOPCNT,CRC32などを強化した以外に,実行ユニットがPenrynの5から6に増加しています。各ユニットの分担が変わっているので正確でないのですが,おおまかには,Store用のアドレス計算パイプが追加されたという感じです。

  キャッシュ関係では,コアに専属の256KBのキャッシュが追加され,その下に全コア共通の8MBL3$を持つ構成になりました。2コアの場合はL2$を共用する構成 で良かったのですが,4コアになると共通のL2$への距離が遠くなり,特に,IntelのようにStore ThroughのL1D$の場合は共通キャッシュへのアクセス頻度が高くてサポートしきれないので,専属L2$を置いてL3$へのアクセスを減らすのは当然のアプローチです。 また,POWER6でもL2$をコア専属に変更しており,L2$の専属化は最近の流れです。また,ページテーブルをキャッシュするTLBに512エントリの2次キャッシュを追加しました。PCアプリはともかく,メモリフットプリントの大きな本格的なビジネスアプリでは弱体だったiTLBとdTLBを強化する当然の構成ですが,これも他社のサーバ用プロセサでは既にやられています。

  このプロセサはPentium 4をやったオレゴンチームの設計で,イスラエルのコアアーキチームが落としたHyperThreadingを今回は標準のSimultaneous Multi-Threading(SMT)という名前で復活させました。 そして,スレッド間の同期に使われるLock命令などの処理時間をPenrynと比較して0.6倍に短縮しています。

 また,ループを検出して,キャッシュから命令を読まずバッファに溜めたループ命令を実行することにより効率を上げるLoop Stream Detector機能もuOP分解後の命令を溜めて実行するという方法に変更して,ネーティブ命令をバッファする以前の方式に較べて効率を改善しています。

  また,渋い機能強化として,リターンスタックをリネーム付きのバッファに変更してヒット率を改善しています。スタックの場合は,投機的に実行されたリターン命令などのよりCallとReturnの関係がずれてしまうという問題があったのですが,リネーム付きのバッファ化で,このような問題は無くなります。しかし,追加するハード量に見合う性能向上があるのかどうかは難しいところではないかと思います。

  もう一つの渋い改善は,SSEのアンアラインドアクセスのサポートです。128ビットのSSEデータは16バイト(128ビット)境界に整列したデータの場合は1回のアクセスでロードできるのですが,そうでない場合は時間がかかり,前半をロードする命令と後半をロードする命令の2命令に分割した方が速いという状況だったのですが,これを整列している場合と同じ時間でアクセスできるようなったということです。 アクセスするデータがキャシュに入っている場合は,2つの連続するキャッシュラインを同時に読み出し,必要な部分を切り出せば良いのですが,ハードは増加します。

  また,VMに関しては,Extended Page Tableと称してGuest OSがPage Tableを完全に操作できると書かれているので,AMDのNested Page Table相当の機能を実装したようです。また,VM切り替えでページテーブルをフラッシュしないで済むようにページにVirtual Processor IDを付けるという改善を行っていますが,これもAMDのPacificaにあったような気がします。

  そして,メモリ廻りですが,3チャネルのDDR3-1333をサポートし,32GB/sのバンド幅があると書かれています。しかし,32GB/sを出すには3チャネルを均等にアクセスする必要がありますが,これをどうやって実現しているかは謎です。ハッシィングを使って,3バンクにアクセスを振り分けるのはPOWER4/5のキャシュで前例がありますが,キャッシュラインの単位で,その上のビットをハッシュしているのでしょうかね。

  メモリのアクセスレーテンシに関しては,メモリコントローラを内蔵し,プロセサ間の接続もQPIとすることにより,1600MHz FSBのHarpertownと比較して,ローカルアクセスの場合は60%,QPI経由のリモートアクセスの場合でも97%のアクセスタイムで済むというデータが 発表されてい ます。

3.Atomプロセサは,土壇場で値上げか?

  Intelは2008年4月2日のIDFで,Atomプロセサを正式に発表しました。1.83GHzクロックのZ540,1.6GHzのZ530と,1.33GHzのZ520,1.1GHzのZ510,800MHzのZ500の5品種です。そして,上位の3種はFSBが533MHzに対して,下位は400MHz,また上位3種はHyperThreadingをサポートしていますが,下位2種はHTなしです。TDPは2.4W,2W,2W,2W,0.65Wですが,HTを動かすと0.2W増加します。

  命令仕様はCore 2と同じで,仮想化もサポートしています。

  お値段は$160,$95,$65,$45,$45となっています。しかし,PCWatchが掲載するIntelの価格表では$135,$70,$40,$20,$20となっており, 土壇場で$25ほど上積みしたようです。$20はかなり頑張っていると思ったのですが,$45はかなりマージンの載った値付けです。

4.撮影後フォーカス可能な写真

  急病でIDFへの出席を取りやめたRattner氏の代役のAndrew Chien氏の講演の中で,Refocus Imaging社のRen Ng社長が登壇しました。どこがIntelと関係があるのか不明で,何故,IDFに登場するのか分からないのですが,同社の技術は面白いので登場させたようです。

  同社の技術は,Light Fieldと呼び,専用のカメラで撮影した画像は奥行き情報を記憶し,撮影後の情報処理で任意の場所にフォーカスを合わせることが出来ます。同社のイメージギャラリーに幾つかの写真があり,見ているとあちこちに自動的にフォーカスを合わせるデモが見られますが,フォーカスを合わせたい場所にカーソルを持って行ってクリックすると,そこにフォーカスを合わせられます。モデルの女性の後ろに花にフォーカスを合わせて,モデルはボケボケなどという状態にも出来て面白いです。

  Ng氏はスタンフォード大で,この研究で博士号をとり,同社を創業したようです。

5.テネシー大が1ペタフロップス弱のスパコンを導入

  2008年4月3日のHPC Wireが,NSFのTrack2プログラムの一環として,2009年にテネシー大が,1ペタフロップス弱のCray XT4システムを導入するというCrayの発表を報じています。

  現状のTopは,ローレンスリバモアの約600TFlopsのBlueGene/Lですから,50%程度の性能向上です。また,Crayのスパコンでは,約130TFlopsのRedStormが最大規模なので,これに比較すると8倍近い規模となります。