ラベル HPC の投稿を表示しています。 すべての投稿を表示
ラベル HPC の投稿を表示しています。 すべての投稿を表示

2013年7月27日土曜日

ポスト「京」

今後のHPCI計画推進のあり方に関する検討ワーキンググループ(第17回) 議事録
http://www.mext.go.jp/b_menu/shingi/chousa/shinkou/028/gijiroku/1338143.htm

  • 汎用メニーコア部と演算加速機構部が存在。
  • 汎用メニーコア部は「京」のアプリの移植性も重視。
  • 演算加速機構部の信頼性については、日本メーカのRAS技術を使い、NVIDIAより桁が高いレベルの信頼性を実現する。
  • 具体的には、演算器を含むプロセッサ全部の要素にエラー訂正機能を付ける。
  • どのベンダが何をやるかは決まっていない。
  • 数値計算ライブラリについて、加速機構、通信ネットワーク、SIMD演算については独自開発が必要。全体のアルゴリズムについては国際協力により標準的なものとすることを目指す。
  • システムソフトウェアについて、メニーコアの計算ノードでは基本的にマイクロカーネルが動き、数コアではLinuxカーネルが動く。「京」とは異なり、そこで動くのはフルセットのLinuxである。
  • 加速機構は、小さなコアとメモリを1つのチップに入れる。
  • 汎用メニーコア部と演算加速機構部は別チップ。ただし、メモリ空間の共有は実現したい。
  • NVIDIAなどの一体型(ヘテロ構成)と比較しての利点は、開発サイクルを短くできることと、加速機構側にコンパクトなネットワークを付けられること。
  • 2019~20年に設置・調整という工程。「京」のリプレースとなるため、「京」はその時点で停止する。
  • 汎用メニーコア部のB/Fは「京」の1/5~1/6になる見込み(検討中)。

  • 理化学研究所は開発主体の候補として適切である。

2012年2月22日水曜日

Complex logic cores will become uninteresting

探し物のついでにたまたま見つけた、Exascale computing に関するIntelの発表資料の中に、興味深い記述があった。

Technology and Design Challenges to Realize Exascale
http://www.orau.gov/archI2011/presentations/borkars.pdf

P.25に "Toshiba's Experiment" として、CellのSPUを論理合成で設計して、IBMのカスタム設計と比較して、面積を30%、配線長を28%、それぞれ減らしたという例が挙げられている(ただし、動作周波数は確か4.5GHzから4GHzに低下していたはず)。これまでCPUコアの多くの部分をカスタム設計することで成功を収めてきたはずのIntelが、このような発表をするとは少し驚かされた。


さらに、次ページには "Complex logic cores will become uninteresting" などという記述もある。メニーコアともなるとCPUコア単体のシングルスレッド性能は問題ではなくなり、システム全体のアーキテクチャが重要となる。よって、CPUコアは性能的には論理合成で十分であり、むしろASIC的な手法によりコンパクトに作る方が有利ということだろうか。


何か、どこかで聞いたことのあるような話である。

2012年1月5日木曜日

NEC の次世代スパコン


世界一よりも世界のトップクラスを――次世代スパコンの開発を始動するNECの狙い
http://www.itmedia.co.jp/enterprise/articles/1201/03/news001.html

「次世代機の開発ではTOP500を意識してはいない」ということで、LINPACKは捨てるということのようだ。

この記事について、似鳥先生。(Togetterもどき)


http://twitter.com/#!/k_nitadori/status/154745342171164672
アムダールの法則の典型的な誤用といえましょう。数式と数字を一人歩きさせるとこうなる。
http://twitter.com/#!/k_nitadori/status/154745855092592640
個々のCPUが強力な方が便利というのは間違いない。でも個々のCPUでもきっちりベクトル化できてないといけないわけでして、、、
http://twitter.com/#!/k_nitadori/status/154746176313376768
今の数字なら全部スカラーでおk「演算性能を優先するものはスカラーで、メモリ性能を優先するものはベクトル型でというように、効率的に計算ができるようになります。」
http://twitter.com/#!/k_nitadori/status/154746384531210240
だから全部(ry「演例えば、データの初期処理はスカラー型で行い、ベクターで計算して、その結果の検証は再びスカラーで行うといった連携型のワークフローが可能になります。運用形態もユーザーの必要に応じて変更できるようになります」
http://twitter.com/#!/k_nitadori/status/154746744977104897
あこれならありうる。「例えば、データの初期処理はx86で行い、京で計算して、その結果の検証は再びx86で行うといった連携型のワークフローが可能になります。運用形態もユーザーの必要に応じて変更できるようになります」
http://twitter.com/#!/k_nitadori/status/154759397980127232
スケーラビリティを制限しているのは0.1%の逐次処理部だ、というのがほとんど事実誤認で、というかその理屈では到底ベクトルを正当化できない。ベクトル機のデザインとしてスカラ部にもベクトル部の1割ぐらいの性能は持たせましょう、というのなら間違いではないのだけど。
逐次処理部を速くするには、ベクトル型CPUではなく、速いスカラ型CPUを使うべきってことでしょうか?

2011年11月5日土曜日

京が 10PFLOPS を達成

京速コンピュータ「京」が10ペタフロップスを達成
http://pr.fujitsu.com/jp/news/2011/11/2-1.html

記録達成、おめでとうございます。

6月の時点より実行効率をさらに上げてきたので、すごいなと思っていたのですが、

「京」コンピュータが京速を達成 - Top500の首位堅持に期待
http://journal.mycom.co.jp/articles/2011/11/03/kei_linpack/index.html

この10.51PFlopsはピーク性能である11.28PFlopsの93.2%にあたり、6月の時の93.0%より、わずかであるがピーク比率は向上している。LIPACKの性能は、解く問題のサイズが大きい方が演算あたりのメモリアクセス回数が減るので、高い性能を出しやすい。問題サイズはシステムのメモリ量で制限されるのであるが、CPU数が増加した分システム全体のメモリ容量が増え、6月の時点より約10%大きな11,870,208次元の連立一次方程式を解くようにしたことがピーク比率改善の主因であるという。
ということで、別に不思議なことではないようです。

ただし、88,128CPUからなるシステムが、29時間28分の間、故障無く動き続けるというのは、非常に高い信頼性が必要とされるそうで、素直に拍手を送りたいと思います。

それから、ちょっとした小ネタを。

京速コンピュータ「京」が10ペタフロップスを達成~理研と富士通が共同開発
http://cloud.watch.impress.co.jp/docs/news/20111103_488341.html
『京』のトランジスタの数は60兆で、これは人間ひとりの細胞とほぼ同じくらいの数になる。
だからなんだ、という話かも知れませんが :)

ベクトルマシンの限界?

# Togetterもどき

http://twitter.com/#!/Prof_hrk/status/129776790913822720
@jun_makino ベクトルマシンにこだわる事は悪くないのですが、ベクトルマシンの優位性のポイントが広くは理解されていないことは問題だと感じます。「メモリ性能を最大限に高められるアーキテクチャ」という事ではないので。
http://twitter.com/#!/jun_makino/status/129777711643246592
@Prof_hrk 優位性のポイントはなんでしたっけ?
http://twitter.com/#!/Prof_hrk/status/129808216543592449
@jun_makino 昔は、高価だった倍精度演算器を効率良く仕えたこと。今は電力の無駄使い(真の共有メモリとか)により、並列化コンパイラの最適化が易しいこと。でも、真の共有メモリはスケールしないので、所詮最後の抵抗だと思います。
@Prof_hrk そういう意味では、並列化コンパイラの最適化が易しい理由は、演算性能に対して(電力の無駄使いにより)「メモリ性能を最大限に高め」てるからでは?9はそでしたっけという気もしますが、それはそれ。
@jun_makino 私の書いた事に近いですが、「メモリ性能を最大限に高め」でコンパイラに効くのは、メモリアクセスの局所性を低減させることだと思います。勿論バンド幅はあるほうが良いですが、相対的問題と思います。
@jun_makino 「メモリ性能」が問われています。多くのプログラムでは、実はLatencyも大きく効きます。限られたメモリアドレス範囲で高バンド幅なことも重要で、勿論資源をつぎ込んで出来るだけグローバルな共有メモリも重要です。ベクトルマシンは最後のポイントに着目です。
@Prof_hrk 局所性を低減させるというのは、非局所的なメモリアクセスに対してもそこそこの性能を提供する、という意味、という理解で正しいですか?
@jun_makino 正しいです。SX-9でも、1筐体の中では各CPUチップから平等に足が出ています。コンパイラ屋さんからみると、まだ有効なメモリ非局所性の使い方ができてないというべきでしょう。
@Prof_hrk そうですね。原理的には、アプリ側の並列度が十分あって、非局所アクセスに対してバンド幅があればレイテンシはある程度大きくても良いはずですが、まあ上手く作らないと Cyber 205の轍を踏むわけで、最近の某マシンもそうなってますね。
ベクトルマシンを今まで有利たらしめていたのは、圧倒的なメモリバンド幅ではなく、むしろ、メモリアクセスの局所性を低減させていたことにあった。そして、「真の共有メモリはスケールしない」、すなわち、メモリ性能を保ったまま演算器を増やそうとすると、どうしても「距離の遠い」メモリが出てきてメモリの局所性が発生してしまうので、この先、ベクトルマシンの優位性は無くなってしまうだろう。

…という風に理解しました。

裏を返すと、1PF未満の領域ではベクトルマシン的な手法が有利である可能性は残っているということでしょうか。たとえば、現在のGPGPUのGPUの部分に1チップベクトルプロセッサを使った超並列マシンなんてアプローチはありうるんですかね。まあ、GPGPUと比べるとコスト的に見合わないような気もしますが。

あるいは、当面、超並列な方向に行きそうにないPCであれば、ベクトルマシン的な性能強化というのはありうるんでしょうか? でも、それではOfficeは速くならないだろうし、そもそもそれってGPGPUでは? という気もするし。ああ、DRAMをスタックしてメモリ帯域を稼ぐなんて話は広い意味ではそっち系なのかな?

なお、上記のやり取りの元ネタになったのは以下の記事と思われます。

震災を乗り越えた東北大のスパコンが目指す未来

2011年8月18日木曜日

HOT CHIPS 23 と Hot Interconnect 19

HOT CHIPS 23 のプログラムが公開されていた。

HC 23 Program

Advance Programから大きな変更は無さそう。Facebook が Tutorial で Open Compute Project ついて講演を行うようだ。

そして、Hot Interconnects 19 のプログラム。

Hot Interconnects 19 Program

Keynote 1 では、

- The IBM Blue Gene/Q Interconnection Network and Message Unit

Session E: High-Performance Interconnect Architectures では、

- The Tofu Interconnect

なんてものが。

Panelの2枠は、いずれもデータセンター関連のもの。まあ、商売としてはそちらの方が "Hot" だろう。

それから、Keynote 2 では、Greg Papadopoulos が "The Network Is The Computer" ネタで講演するらしい。

参考エントリ:
HOT CHIPS 23 の Advance Program

2011年8月15日月曜日

Blue Waters 開発中止

# Togetterもどき+α。

http://twitter.com/#!/ProfMatsuoka/status/101349154923618304
NCSAの関係者に今回のBlue Watersのキャンセルの経緯を色々聞いた。NECの次世代(富士通「京」のみになった)撤退とは様相が大分違う、色々信じがたいことが起こったようである。詳しい事はふじこになるので余り言えないのが残念だが、前向きに代替機が調達されそうなのは幸いだ。
「信じがたいこと」ってなんだろう?  しかも「色々」とは。
NECとは違うということは、やっぱりお金の問題じゃないってことかな。

http://twitter.com/#!/ProfMatsuoka/status/101683855290925056
うーむ、IBM Blue Watersの契約不履行に関して、更に色々聞いた。詳細はとても呟けないが、NCSA/NSFは比較的大丈夫で、むしろIBMのHPCにおける将来を心配してしまうような雰囲気である。残ったIBM BlueGene/Qも注意深く見つめている必要があるだろう。
BlueGene/Qも順風満帆というわけでは無さそう。

104. Blue Waters, 日本のポストペタプロジェクト
ということで、「マシンのための技術はできたけど IBM による財政的、技術的なサポートが当初の予想以上に必要になった」と書いてあります。これは一見、コストが高くなりすぎた、と書いてあるようにみえますが、どうせここまでの開発に莫大な費用を使ったに決まってるわけですから今になって撤退というのが単純に財政的な理由であるわけはありません。つまり、おそらく、動かせなかったのであろう、ということです。実際、単にfinancial というだけでなく techinical なサポートがこれからもまだ想定以上に必要、というのは、そう解釈するほうが自然です。
革新的な技術を使おうとした製品がポシャって、代わりに比較的コンサバでレベルが低いと見られていた製品が生き残るというのは、この世界ではありがちなこととは言え。
もっとも、6月の Top500 でも BG/Q はあまり大きなシステムになってないのが微妙に気になるところで、512チップということはおそらくまだラック半分のシステムであり、ラック間接続は安定動作できてない、というふうにみえなくもありません
ひょっとして、IBMとしてインターコネクトがうまくいっていない?

しかし、

Blue Watersがこけても問題なし - 次世代機の開発が進む米国のスパコン事情

Blue Waters がこけ、さらに BlueGene/Q がたとえ遅延したとしても、Cray XK6 が控えている。さすがにアメリカは層が厚かった。

2011年6月21日火曜日

Intel×SGI

SGI と Intel、最速スパコン「京」の100倍高速なシステムを開発へ

いきなり100倍ですか。

まあ、エクサスケールってことなんだろうけど。
「SGI Altix ICE」サーバーと Intel MIC を組み合わせると、コンピュータシステムの密度を最大10倍、単位演算速度当たりの消費電力効率を最大7倍高められるという。
電力効率が7倍というのはすごいけど、それでは性能を100倍にすると電力も15倍くらいに
なってしまうのだが。

IntelがMICに注力、2020年までに毎秒1エクサFLOP目指す
Intelはまた、米SGI、米Dell、米Hewlett-Packard、米IBM、米Colfax、米SupermicroなどがKnights Corner搭載製品を投入する予定であることを明らかにした。
Dellの名があるのはちょっと意外。
また、スパコンランキング首位のシステムは2015年に毎秒100ペタFLOPを実現し、2018年には1エクサFLOPの壁を破ると予測している。
2018年ですか。

そう言えば、NECの名前が無いが、Intelとの提携話はMIC絡みではなかったのだろうか。

関連記事:
Intel readying MIC x64 coprocessor for 2012

2010年7月21日水曜日

NVIDIA の Fermi におけるキャッシュの効果


安藤さんの解説記事。

NVIDIAのFermiで新設されたキャッシュは効いているのか

細かい内容は良く分からないが、シェアードメモリではなくキャッシュを持たせたことで、プログラムの修正量が少ないながらもシェアードメモリ用のチューニングと同程度の性能が得られた、ということのようだ。

2010年4月7日水曜日

Re: そこまでして Excel 使いたいですか?


Excelからも使えるHPCプラットフォーム「Windows HPC Server 2008 R2」
Life Insurance Actual workbook examples
1700 records that took 14hours now take 2.5 minutes
1 million records that took 7.5 days now take 2 hours
絶対、Excelの使い方間違ってると思う。

関連記事:
そこまでして Excel 使いたいですか?

2009年12月22日火曜日

GPU 向けコンパイラ


KFCR、ATI Stream/NVIDIA CUDA両対応のC言語コンパイラ
http://pc.watch.impress.co.jp/docs/news/20091221_338330.html
株式会社K&F Computing Researchは、GPU向けのC言語コンパイラ「Goose」を発売した。
GPGPU用開発環境であるAMDのATI StreamおよびNVIDIAのCUDAに両対応するドメイン特化型のコンパイラ。
GPGPUで商売が成り立つくらい普及しつつあるってことでしょうか。

TSUBAME 2.0 は 3PFLOPS




【SIGGRAPH Asia 2009レポート】
東工大、スクウェアエニックスがCUDA実装事例を紹介
http://pc.watch.impress.co.jp/docs/news/event/20091221_338290.html


SIGGRAPH Asia 2009におけるNVIDIAの講演において、東工大の青木先生がGPUスパコンであるTSUBAME 1.2について発表を行った。



その中で次期TSUBAMEについて簡単に触れ、目標性能が3PFLOPS(ピーク)であることを明かした。おそらくFermiを搭載するのであろう。青木先生は「来年の今ごろはきっと大騒ぎになってるはず」と自信を見せたようだが、果たしてFermiはちゃんと出てくるのかどうか。NVIDIAも正念場かも知れない。

2009年12月21日月曜日

Re: 神の子

開発は順調(?)のようです。

中国の国産プロセッサが65nmプロセスへの移行に成功、Synopsys社が明かす
Synopsys社によるとLoongson Technology社は、65nm製造プロセス技術に向けたマルチコアCPU「Loongson-3」の設計を一度で成功させた(ファースト・パス・シリコン・サクセス)という。
元ネタと思われるプレスリリースがこちら。

Loongson Achieves First-Pass Silicon Success on High-Performance CPU with Synopsys CustomSim Circuit Simulation Solution

参考エントリ:
神の子

京速計算機の検討初期段階における仕様


非公開だった資料が公開されていたようだ。

最先端・高性能汎用スーパーコンピュータの開発利用
第2回評価検討会提出資料
http://www8.cao.go.jp/cstp/project/super/haihu02/siryo3-2.pdf

これによると、いわゆる「京速計算機」の検討初期段階における仕様は以下のようなものである。

大規模処理計算機部 (NECベクトルを想定):
- 演算性能: 0.5PFLOPS
- 価格: 2850億円 (5700万円/TFLOPS)
- 電力: 5.6MW (11.2W/GFLOPS)
- インターコネクト: 0.2Byte/s/FLOPS
- メモリ転送性能: 4Byte/s/FLOPS (チップ-メモリ間に光伝送技術を採用)

逐次処理計算機部 (富士通スカラを想定)
- 演算性能: 1PFLOPS
- 価格: 1750億円 (1750万円/TFLOPS)
- 電力: 2.5MW (2.5W/GFLOPS)
- インターコネクト: 0.3Byte/s/FLOPS (ノード間)
- インターコネクト: 0.5~1Byte/s/FLOPS (ノード内)
- 大規模共有メモリ方式
- ノードあたり32CPUを想定
- システムインターコネクトはファットツリー

特定処理計算加速部 (GRAPE-DRを想定)
- 演算性能: 20PFLOPS
- 価格: 150億円(?)
- 電力: 7MW (0.35W/GFLOPS)

なお、GRAPE-DRの価格は別の資料、

専用機の性能を持つ汎用超並列計算機へ
http://www8.cao.go.jp/cstp/project/super/haihu02/siryo3-sanko.pdf
サイズ・コスト・電力の実現性(10Pflops)
●価格
- GRAPE-DR 75億円(15億円/2Pflops)
から求めた。


で、元々の要求仕様はこれなのかな?

計算科学技術推進ワーキンググループ第2次中間報告概要
http://www8.cao.go.jp/cstp/project/super/haihu01/siryo2-3.pdf

「最も高度な」って書いてあるから実現性度外視のものなんだろうけど。

大規模処理計算機:
 - 演算性能: 2PFLOPS(実効)
 - CPU-メモリ間: 8Byte/s/FLOPS
 - ノード間: 0.4Byte/s/FLOPS

逐次処理計算機
 - 演算性能: 4PFLOPS(実効)
 - CPU-メモリ間: 4Byte/s/FLOPS
 - ノード間: 0.04Byte/s/FLOPS

特定処理計算加速機
 - 演算性能: 20PFLOPS(ピーク)

CPU-メモリ間のデータ転送性能は、かなり無理のある数字のような。

ORNL の Fermi スパコンは中止?


ORNLのFermiスパコンが中止されたとの噂。Fermiの消費電力が想定以上だったのが原因とか。

Oak Ridge cans Nvidia based Fermi supercomputer
REMEMBER THE TRIUMPHANT WIN for Fermi at the Oak Ridge National Laboratory that Nvidia heavily touted at its GTC conference keynote? The supercomputer project was just killed for power reasons. Fermi power reasons. Whoops.

['09.12.24 追記]


そんでもって、Fermi の stream processor の数が減らされたというお話。

Nvidia's Fermi GPU gets cut back
Fermi has long been thought to be too hot to handle and Nvidia has now cut down the number of stream processors to 448 instead of the previous 512, and it has admitted that the GPU chip will be a 225 Watt part.

2009年12月17日木曜日

Blue Warters at SC09



安藤さんによるSC09レポート。


【SC09】各社の展示ブース風景 - 複数各社が次世代スパコンなどを出展
http://journal.mycom.co.jp/articles/2009/12/17/sc09_booth/index.html

Blue Watersに使用されると思われるサーバの展示。CPU MCMにはPOWER7を4つ積み、4GHz動作でソケットあたり1TFLOPS。ただし、消費電力も800Wと正真正銘の化け物である。

2Uのユニットをラックあたり12台収容し、総重量は約3tにもなるとのこと。この記事には記述がないが、ユニットあたりCPU MCMを8つ積むらしいので、ラックあたりの性能は

 256GFLOPS×4×8×12=98.3TFLOPS

ということで、ほぼ100TFLOPSということになる。

インターコネクト用MCMはCPU MCMより巨大で、POWER7並のサイズを持つスイッチチップ1つと大量の光電変換チップを積み、トータルで1.1TBpsとのこと。

金に糸目は付けないよ、といった感じである。

なお、本記事ではBlue Waters以外にも、Cray XT6、SGI Ultra Violet、そして、富士通の次世代スパコンなどが紹介されている。

そして、TPM。

IBM shows off Power7 HPC monster
http://www.theregister.co.uk/2009/11/27/ibm_power7_hpc_server/page2.html

ソケットあたり16個のDIMMスロットを持ち、8GBのDIMMを使用するようだ。

また、以下はSC09ではないが、Blue Waters の入る「箱物」のイラストのある記事。

IBM: Envisioning the world's fastest supercomputer
http://news.cnet.com/8301-13924_3-10410044-64.html

2009年12月9日水曜日

熱湯浴と呼ばないで


何と言うか、スーパーコンピュータを単なる「ITシステム」として捉えるのではなく、大規模な「実験装置」として考えた方が良いのではないか。

科学の根幹を支える実験装置を、自国内で開発できる技術を有していた方が良いと思うかどうか、ということ。

そこから先は政治の話なので、ここでは論じない。

2009年12月3日木曜日

アメリカのスパコン関連予算


6年だか7年だかで1200億円が「無駄」だの「ダム」だのdisられていますが、アメリカのスパコン関連予算は年間1000億円を超えてるそうで。

米国のスーパーコンピュータ開発状況について [PDF]
■米政府スーパーコンピュータ関連予算(公表部分)
 □2005年度約1,100億円から、2008年度約1,500億円に拡大。(1ドル=約115円で計算)
そりゃ、勝てないわけです。

さらに、「大艦巨砲主義」なんて批判されてるわけですが、アメリカは超巨大戦艦を造る気まんまんのようです。

ExaScale Computing Study: Technology Challenges in Achieving Exascale Systems [PDF]

次世代スパコンの試作機が稼動


富士通、次世代スパコンの試作機を稼働
富士通は2日、官民共同で推進中の次世代スーパーコンピューター開発計画において、原型となる試作機を稼働させた。
富士通はスパコン専用のCPU(中央演算処理装置)を試作済み。今回は沼津工場(静岡県沼津市)で、基板の数が実機の千分の1ほどの規模のシステムを組み上げた。
4個のCPUを載せた基板を数十枚接続し、想定通りの性能が出ていることを確かめた。実機では、基板約2万枚、CPUチップにして約8万個を接続する計画だ。
関係者のみなさん、ひとまずは、おめでとうございます。

以下は関連記事。

Fujitsu gung-ho on eight-core 'Venus' Sparc

ボードあたり4ソケット。ソケットあたりのメモリは64GB(DDR3×8ch)だそうだ。

2009年12月2日水曜日

IBM が PowerXCell 8i の後継チップの開発を中止?


最初はCellの開発を中止という話だったのが、IBMが否定のコメントを出して、でもその説明では何となくすっきりしないという流れ。

噂の元になった発言をした David Turek 氏は deep computing 担当の vice president ということなので、どうやら PowerXCell 8i の後継として開発されていた PowerXCell 32iv がキャンセルされたということのようだ。すなわち、Roadrunner の後継機種が中止されたか、PowerXCell とは違うチップを使うように変更された、と。

ただし、噂の元になった記事では中止になったチップが PowerXCell 32i となっているため、PowerXCell 32ii (PPE×2個版)が中止されただけで、PowerXCell 32iv (PPE×4個版)の開発は中止されていないなどと主張する人もいるようだ。とはいえ、すでに昨年の時点で PowerXCell 32ii から PowerXCell 32iv への変更は決定されていたので、今さらIBMのエラい人がそんなことを公の場で発言するというのは考えにくいと思う。

IBM、「CELLプロセッサ開発中止」のうわさにコメント
IBMは11月24日の声明文で、CELLプロセッサは、「コンピューティングの将来はマルチコアとハイブリッド技術の統合にある」という同社の信念の基盤を成すものだと述べている。
「IBMはこのハイブリッドとマルチコアの戦略の一環として、来年登場するPower7を基盤とする新システムなど、CELL技術への投資を続ける」と声明文にはある。
IBMがCELLプロセッサの新版の開発を続けるかどうかは分からない。だが同社は声明文で、「ソニーのPS3向けにCELLの製造を続ける。ゲーム市場向けの次世代プロセッサ開発を楽しみにしている」と述べている。
奥歯に何かはさまってるような物言いだ。

以下は関連記事。

Cell is no longer HPC material

 この記事では、IBMはAMDと組んでOpenCLを使ったGPGPUをやろうとしてると推測している。

で、たぶんこの声明が元ネタになって、こんな噂が。

Sony chooses IBM POWER 7 CPU for PlayStation 4
We can officially reveal in this world exclusive that SCEI has officially chosen IBM's currently in development POWER7 architecture for it's PlayStation 4 system, currently scheduled for a 2012 worldwide release.
IBM shall POWER7 debut for the server market in the summer of 2010. The PlayStation 4 shall use a cost effective version of the architecture custom designed for Sony's specific needs.
8コアで200Wとも噂されるPOWER7をそのまま載せられるわけは無いと思うが、コア数を減らした低コスト・省電力版なら十分ありうる話だと思う。

そして、以下の記事には、より具体的な仕様も載っていたりする。

Rumor: Sony chooses IBM POWER 7 CPU for PlayStation 4
the implementation of the PS4 chip cores shall use 6.8, 24-32MB shared L3 cache, Quad core by threading, and a double precision performance approaching 200GFLOPS.
あやしげな文章だけど、6-8コア×4スレッドということだろうか?

まあ後は、PS3互換のためにSPEは載せるのかな? とか、例によってプロセスシュリンク版のCellをそのまま制御用チップで使ったりして、とか、そういう話になるわけだ。


['09.12.08 追記]

PS4に関する噂の元ネタ。オランダのサイトだけど問題の文書自体は英語だった。

Sony kiest voor IBM Power7 CPU (PlayStation 4)
the PS4 implementation of the chip shall use 6-8 cores, 24-32MB shared L3 Cache, Quad threading per core, and a double precision performance approaching 200GFLOPS.
6-8コア×4スレッドで正しいようだ。

ところで、
IBM shall debut POWER7 for the server market in the summer of 2010.
"summer"ですか。例によって、順調に遅れているようですね。

で、本当の元ネタは以下のサイトだったらしい。

FGNOnline

このサイト、各記事へのパーマリンクは無いのかな?

他にはこんな記事も、

11/16/09 WORLD EXCLUSIVE:
Sony has chosen the GPU for the next generation PlayStation.
We can officially reveal in this world exclusive that SCEI has officially chosen the Imagination Technologies currently in development PowerVR Series 6 architecture for it's next generation PlayStation console scheduled for 2012 worldwide deployment.
PS4のGPUはPowerVR 6だそうな。