2009年12月24日木曜日

NVIDIA は Intel を怒らせた


【笠原一輝のユビキタス情報局】 急速にPine Trailへの移行を促す、IntelのAtom戦略
http://pc.watch.impress.co.jp/docs/column/ubiq/20091222_338837.html
Intelがこうした急激なPine Trailへの移行をメーカーに迫る背景には、NVIDIAのIONに対して脅威を感じているからだと考えることができるだろう。筆者が述べたグラフィックス周りの問題点をすべて解決するのがNVIDIAのIONだ。つまり、IntelとしてはOEMメーカーにもっともやめて欲しい選択がIONを採用することであるのは明白だろう。Pine Trailは外部GPUを接続するためのPCI Express x16などをCPU側には備えておらず、NM10側にPCI Express x1を4ポート備えているだけとなる。外部GPUを接続するとしてもこれでは十分ではないことは明らかだ。DMIにNVIDIAのチップセットをつなぐという選択肢も、IntelとNVIDIAがクロスライセンスを巡って法廷闘争を繰り広げているいま、あえて火中の栗を拾いにいくOEMメーカーがいるかと言えば、それはいないのが現状だろう。
IntelはNVIDIAのIONプラットフォームをかなり脅威に感じているらしい。この記事にもあるように、新しいAtomプロセッサのプラットフォームである Pine Trail では、明らかにIONつぶしを狙っているようだ。

2009年12月22日火曜日

GPU 向けコンパイラ


KFCR、ATI Stream/NVIDIA CUDA両対応のC言語コンパイラ
http://pc.watch.impress.co.jp/docs/news/20091221_338330.html
株式会社K&F Computing Researchは、GPU向けのC言語コンパイラ「Goose」を発売した。
GPGPU用開発環境であるAMDのATI StreamおよびNVIDIAのCUDAに両対応するドメイン特化型のコンパイラ。
GPGPUで商売が成り立つくらい普及しつつあるってことでしょうか。

TSUBAME 2.0 は 3PFLOPS




【SIGGRAPH Asia 2009レポート】
東工大、スクウェアエニックスがCUDA実装事例を紹介
http://pc.watch.impress.co.jp/docs/news/event/20091221_338290.html


SIGGRAPH Asia 2009におけるNVIDIAの講演において、東工大の青木先生がGPUスパコンであるTSUBAME 1.2について発表を行った。



その中で次期TSUBAMEについて簡単に触れ、目標性能が3PFLOPS(ピーク)であることを明かした。おそらくFermiを搭載するのであろう。青木先生は「来年の今ごろはきっと大騒ぎになってるはず」と自信を見せたようだが、果たしてFermiはちゃんと出てくるのかどうか。NVIDIAも正念場かも知れない。

2009年12月21日月曜日

Re: 神の子

開発は順調(?)のようです。

中国の国産プロセッサが65nmプロセスへの移行に成功、Synopsys社が明かす
Synopsys社によるとLoongson Technology社は、65nm製造プロセス技術に向けたマルチコアCPU「Loongson-3」の設計を一度で成功させた(ファースト・パス・シリコン・サクセス)という。
元ネタと思われるプレスリリースがこちら。

Loongson Achieves First-Pass Silicon Success on High-Performance CPU with Synopsys CustomSim Circuit Simulation Solution

参考エントリ:
神の子

京速計算機の検討初期段階における仕様


非公開だった資料が公開されていたようだ。

最先端・高性能汎用スーパーコンピュータの開発利用
第2回評価検討会提出資料
http://www8.cao.go.jp/cstp/project/super/haihu02/siryo3-2.pdf

これによると、いわゆる「京速計算機」の検討初期段階における仕様は以下のようなものである。

大規模処理計算機部 (NECベクトルを想定):
- 演算性能: 0.5PFLOPS
- 価格: 2850億円 (5700万円/TFLOPS)
- 電力: 5.6MW (11.2W/GFLOPS)
- インターコネクト: 0.2Byte/s/FLOPS
- メモリ転送性能: 4Byte/s/FLOPS (チップ-メモリ間に光伝送技術を採用)

逐次処理計算機部 (富士通スカラを想定)
- 演算性能: 1PFLOPS
- 価格: 1750億円 (1750万円/TFLOPS)
- 電力: 2.5MW (2.5W/GFLOPS)
- インターコネクト: 0.3Byte/s/FLOPS (ノード間)
- インターコネクト: 0.5~1Byte/s/FLOPS (ノード内)
- 大規模共有メモリ方式
- ノードあたり32CPUを想定
- システムインターコネクトはファットツリー

特定処理計算加速部 (GRAPE-DRを想定)
- 演算性能: 20PFLOPS
- 価格: 150億円(?)
- 電力: 7MW (0.35W/GFLOPS)

なお、GRAPE-DRの価格は別の資料、

専用機の性能を持つ汎用超並列計算機へ
http://www8.cao.go.jp/cstp/project/super/haihu02/siryo3-sanko.pdf
サイズ・コスト・電力の実現性(10Pflops)
●価格
- GRAPE-DR 75億円(15億円/2Pflops)
から求めた。


で、元々の要求仕様はこれなのかな?

計算科学技術推進ワーキンググループ第2次中間報告概要
http://www8.cao.go.jp/cstp/project/super/haihu01/siryo2-3.pdf

「最も高度な」って書いてあるから実現性度外視のものなんだろうけど。

大規模処理計算機:
 - 演算性能: 2PFLOPS(実効)
 - CPU-メモリ間: 8Byte/s/FLOPS
 - ノード間: 0.4Byte/s/FLOPS

逐次処理計算機
 - 演算性能: 4PFLOPS(実効)
 - CPU-メモリ間: 4Byte/s/FLOPS
 - ノード間: 0.04Byte/s/FLOPS

特定処理計算加速機
 - 演算性能: 20PFLOPS(ピーク)

CPU-メモリ間のデータ転送性能は、かなり無理のある数字のような。

99ドルネットブックに使われている XBurst という CPU


マイコミジャーナルの記事には、

米Cherrypal、価格99米ドルの7型ノートPC「Cherrypal Africa」発表
http://journal.mycom.co.jp/news/2009/12/17/006/
米Cherrypalが今回発表した「Cherrypal Africa」は、7インチのディスプレイに400MHzのARMプロセッサを搭載し、LinuxまたはWindows CEが動作するモバイルノートだ。
なんて書いてありますが、ざっとググった感じでは、どうやらMIPS互換のチップの模様。

ただ、開発した Ingenic Semiconductor のページには、

XBurst CPU
http://www.ingenic.cn/eng/productServ/XBurst/pfCustomPage.aspx
XBurst RISC ISA is compatible of one standard RISC ISA
としか記述がなく、なんとなーくMIPSのライセンス取ってないんじゃないかという気も。

RHEL6 は Itanium をサポートしない


Red Hat pulls plug on Itanium with RHEL 6
http://www.theregister.co.uk/2009/12/18/redhat_rhel6_itanium_dead/
The dominant supplier of commercial Linux, Red Hat, is not going to be supporting its future Red Hat Enterprise Linux 6 on any Itanium platforms, old or new.
HPでもLinuxではほとんど売れてないそうなので、それほど驚きはない。

In addition, extended support for Red Hat Enterprise Linux 5 for Itanium is available up to March 2017 from selected OEMs.
"selected OEMs"については2017年までRHEL5をサポートするそうだ。ただ、「メインフレーム」として買ったところにとっては、2017年でも十分ではないのでは。


記事の後半は「POWERも時間の問題か」なんて話。POWERとメインフレームでLinuxを続けたければ、IBMはNovellを買う必要がある、と。まあ、IBMなら別にNovellを買わなくても、何とかなっちゃうような気もする。

ORNL の Fermi スパコンは中止?


ORNLのFermiスパコンが中止されたとの噂。Fermiの消費電力が想定以上だったのが原因とか。

Oak Ridge cans Nvidia based Fermi supercomputer
REMEMBER THE TRIUMPHANT WIN for Fermi at the Oak Ridge National Laboratory that Nvidia heavily touted at its GTC conference keynote? The supercomputer project was just killed for power reasons. Fermi power reasons. Whoops.

['09.12.24 追記]


そんでもって、Fermi の stream processor の数が減らされたというお話。

Nvidia's Fermi GPU gets cut back
Fermi has long been thought to be too hot to handle and Nvidia has now cut down the number of stream processors to 448 instead of the previous 512, and it has admitted that the GPU chip will be a 225 Watt part.

2009年12月17日木曜日

Blue Warters at SC09



安藤さんによるSC09レポート。


【SC09】各社の展示ブース風景 - 複数各社が次世代スパコンなどを出展
http://journal.mycom.co.jp/articles/2009/12/17/sc09_booth/index.html

Blue Watersに使用されると思われるサーバの展示。CPU MCMにはPOWER7を4つ積み、4GHz動作でソケットあたり1TFLOPS。ただし、消費電力も800Wと正真正銘の化け物である。

2Uのユニットをラックあたり12台収容し、総重量は約3tにもなるとのこと。この記事には記述がないが、ユニットあたりCPU MCMを8つ積むらしいので、ラックあたりの性能は

 256GFLOPS×4×8×12=98.3TFLOPS

ということで、ほぼ100TFLOPSということになる。

インターコネクト用MCMはCPU MCMより巨大で、POWER7並のサイズを持つスイッチチップ1つと大量の光電変換チップを積み、トータルで1.1TBpsとのこと。

金に糸目は付けないよ、といった感じである。

なお、本記事ではBlue Waters以外にも、Cray XT6、SGI Ultra Violet、そして、富士通の次世代スパコンなどが紹介されている。

そして、TPM。

IBM shows off Power7 HPC monster
http://www.theregister.co.uk/2009/11/27/ibm_power7_hpc_server/page2.html

ソケットあたり16個のDIMMスロットを持ち、8GBのDIMMを使用するようだ。

また、以下はSC09ではないが、Blue Waters の入る「箱物」のイラストのある記事。

IBM: Envisioning the world's fastest supercomputer
http://news.cnet.com/8301-13924_3-10410044-64.html

2009年12月11日金曜日

Intel が NVIDIA を買収するって?

Larrabee計画中止で盛り上がる「IntelがNVIDIA買収」説
http://www.itmedia.co.jp/news/articles/0912/11/news029.html

そりゃ買えるものなら買いたいかもしれないけど、アンチトラスト法に引っ掛からないわけないと思う。

それに、
IntelはGPUを開発できないのではなく、今現在のGPUアーキテクチャに長期的な持続性がないと考えている。同社は、今のアーキテクチャは拡張できないと思っている。MIMD(Multiple Instruction stream, Multiple Data stream)ができないのは確かだ。Intelにとってはデッドエンドだ。投資する理由があるだろうか? もう一度言わねばならないが、これは両社の基本的な哲学における決定的な違いだからだ。(略) Intelは単に、従来のSIMD(Single Instruction, Multiple Data)GPUアーキテクチャに将来性があると思っていないだけだ。正しいかどうかはともかく、同社は分析の結果その結論に至った。どんなに騒いでも、Intelはこの件については心変わりしないだろう」(ペディー氏)
この人の言ってることは正しいと思う。

ただ、「対立の歴史」という点ついては、マクニーリとバルマーが満面の笑みで握手しちゃうみたいなこともあるんで、当てにならないかと。

中国が本気を出したらもう勝てないんじゃないか


なんて思わせるような記事。

世界規模の技術はここで生まれている――Huawei本社に行ってきた (1/2)
http://plusd.itmedia.co.jp/mobile/articles/0912/03/news077.html
キャンパス内には「百草園」という社員寮もあり、プールやジムなどの設備も充実している。また社員向けのクラブ活動も行われているという。ちなみに百草園という名前は、寮内に100種類以上の植物があることに由来する。洗練された建物と辺り一面に広がる植物を見ると、とても会社の敷地とは思えず、いわゆる日本の“社宅”とは違った趣だ。部屋は満室で、空室待ちの状態だという。
でも、毎日が撤退戦ってのも、やわらか戦車みたいで素敵じゃない?

なんてね。

2009年12月9日水曜日

熱湯浴と呼ばないで


何と言うか、スーパーコンピュータを単なる「ITシステム」として捉えるのではなく、大規模な「実験装置」として考えた方が良いのではないか。

科学の根幹を支える実験装置を、自国内で開発できる技術を有していた方が良いと思うかどうか、ということ。

そこから先は政治の話なので、ここでは論じない。

2009年12月7日月曜日

HAL


「スーパーコンピュータの技術を活用」
――Plurality社がマルチコアプロセッサの展開を本格化
http://ednjapan.rbi-j.com/news/2009/12/5754

Hypercore Architecture Line で HAL だそうです。
Hypercoreのプロセッサコアには、米Sun Microsystems社の「SPARC IV」を拡張したRISC(縮小命令セットコンピュータ)型のコアを採用している。
なんて記述もありますが、Puralityのサイト (http://www.plurality.com/) には SPARC の S の字もなく、そもそも SPARC IV が何を指しているのかもちょっと謎。UltraSPARC IV のコアをこんなに小さく作れるとも思えませんし。

まあ、HALプロセッサの肝はどう見てもプロセッサコアではなく、MIMD処理を実現するスケジューラのハードウェアの方なので、SPARC かどうかなんてたいした問題じゃないのでしょうが。

あと、
キャッシュメモリーについては、各プロセッサコアには1次キャッシュは用意されておらず、プロセッサコア全体で共有する2次キャッシュのみとなっている。
それって「2次」キャッシュなんだろうか? とか。

Re: Larrabee「コプロ」説

インテル、「Larrabee」の開発遅延で計画変更--独立GPUを先送り

IntelがLarrabeeをGPUとして製品化するのを止めるらしい。1チップで1TFLOPS出すことに何とか成功したとは言え、GPUとして見ると半端な性能でしかないということで、市場性を見出せないということだろうか。

これで、「PCにおいて大規模コアのマルチコアチップと小規模コアのメニーコアチップが共存する状況」を作り出すというシナリオは破綻してしまったわけだが、さてこのコプロ説、「さえないジョーク」になってしまうのかどうか。

参考エントリ:
Larrabee「コプロ」説

2009年12月3日木曜日

アメリカのスパコン関連予算


6年だか7年だかで1200億円が「無駄」だの「ダム」だのdisられていますが、アメリカのスパコン関連予算は年間1000億円を超えてるそうで。

米国のスーパーコンピュータ開発状況について [PDF]
■米政府スーパーコンピュータ関連予算(公表部分)
 □2005年度約1,100億円から、2008年度約1,500億円に拡大。(1ドル=約115円で計算)
そりゃ、勝てないわけです。

さらに、「大艦巨砲主義」なんて批判されてるわけですが、アメリカは超巨大戦艦を造る気まんまんのようです。

ExaScale Computing Study: Technology Challenges in Achieving Exascale Systems [PDF]

ISSCC 2010 Advance Program


ISSCC 2010 Advance Program
5.7 A 48-Core IA-32 Message-Passing Processor with DVFS in 45nm CMOS
A 567mm2 processor on 45nm CMOS integrates 48 IA-32 cores and 4 DDR3 channels in a 6×4 2D-mesh network. Cores communicate through message passing using 384KB of on-die shared memory. Finegrain power management takes advantage of 8 voltage and 28 frequency islands to allow independent DVFS of cores and mesh. As performance scales, the processor dissipates between 25W and 125W.
これが、Intel の Single-chip Cloud Computer に関する発表のようだ。
5.5 A Wire-Speed PowerTM Processor: 2.3GHz 45nm SOI with 16 Cores and 64 Threads
A 64-thread simultaneous multi-threaded processor uses architecture and implementation techniques to achieve high throughput at low power. Included are static VDD scaling, multi-voltage design, clock gating, multiple VT devices, dynamic thermal control, eDRAM and low-voltage circuit design. Power is reduced by >50% in a 428mm2 chip. Worst-case power is 65W at 2.0GHz, 0.85V.
IBM 版 Niagara といったところか?
5.3 A 45nm 37.3GOPS/W Heterogeneous Multi-Core SoC
A 648MHz 153.8mm2 45nm CMOS SoC integrates eight general-purpose CPUs, four dynamically reconfigurable processors, two 1024-way matrix-processors, peripherals and interfaces. Using core enhancement, DDR3-I/F improvement and clock buffer deactivation, this SoC achieves 37.3GOPS/W at 1.15V.
ルネサスのヘテロジニアスマルチコアチップ。

 - 汎用プロセサ×8
 - リコンフィギュアラブルプロセサ×4
 - 1024wayマトリックスプロセサ×2

と、かなり複雑なものになっている。

Single-chip Cloud Computer


Intelがメニーコアの研究用チップのデモを行ったそうだ。

# 最初はLarrabeeの実チップだと思い込んでいたが、全く違うもののようだ。

Intel、48コア搭載のプロセッサをデモ

クラウドコンピューティングなどでは、あえて性能の低いチップを使うことで価格当たりの性能や電力あたりの性能にフォーカスしたデータセンターを構築しているそうだが、その考え方を推し進めたものと言える。

以前、80コアのチップをデモしたときは、浮動小数点演算器を積んだ小規模なコアだったが、今回のものはれっきとしたIA-32コアだそうなので、汎用的な利用にも向いているのだろう。

しかし、
このプロセッサのプログラミングには、クラウドデータセンターソフトで使われている並行プログラミングアプローチを応用可能。Intelは既にHPやYahoo!と協力して、Hadoopを使ってクラウドアプリケーションをこのプロセッサに移植する作業を始めている。
当たり前のこととは言え、使う人がいるから作れるのよね。

以下が発表資料のアドレス。

Single-chip Cloud Computer [PDF]

そして、以下が関連記事。

Intel puts cloud on single megachip
"This is not a product. It never will be a product."
当然だが、このまま製品化されることはないようだ。
The SCC's 48 IA-32 cores were described by Rattner as "Pentium-class cores that are simple, in-order designs and not sophisticated out-of-order processors you see in the production-processor families - more on the order of an Atom-like core design as opposed to a Nehalem-class design."
コアは "Pentium" 相当とのこと。Larrabee も Pentium(P54C) 相当なので、同等のコアということになる。

次世代スパコンの試作機が稼動


富士通、次世代スパコンの試作機を稼働
富士通は2日、官民共同で推進中の次世代スーパーコンピューター開発計画において、原型となる試作機を稼働させた。
富士通はスパコン専用のCPU(中央演算処理装置)を試作済み。今回は沼津工場(静岡県沼津市)で、基板の数が実機の千分の1ほどの規模のシステムを組み上げた。
4個のCPUを載せた基板を数十枚接続し、想定通りの性能が出ていることを確かめた。実機では、基板約2万枚、CPUチップにして約8万個を接続する計画だ。
関係者のみなさん、ひとまずは、おめでとうございます。

以下は関連記事。

Fujitsu gung-ho on eight-core 'Venus' Sparc

ボードあたり4ソケット。ソケットあたりのメモリは64GB(DDR3×8ch)だそうだ。

2009年12月2日水曜日

IBM が PowerXCell 8i の後継チップの開発を中止?


最初はCellの開発を中止という話だったのが、IBMが否定のコメントを出して、でもその説明では何となくすっきりしないという流れ。

噂の元になった発言をした David Turek 氏は deep computing 担当の vice president ということなので、どうやら PowerXCell 8i の後継として開発されていた PowerXCell 32iv がキャンセルされたということのようだ。すなわち、Roadrunner の後継機種が中止されたか、PowerXCell とは違うチップを使うように変更された、と。

ただし、噂の元になった記事では中止になったチップが PowerXCell 32i となっているため、PowerXCell 32ii (PPE×2個版)が中止されただけで、PowerXCell 32iv (PPE×4個版)の開発は中止されていないなどと主張する人もいるようだ。とはいえ、すでに昨年の時点で PowerXCell 32ii から PowerXCell 32iv への変更は決定されていたので、今さらIBMのエラい人がそんなことを公の場で発言するというのは考えにくいと思う。

IBM、「CELLプロセッサ開発中止」のうわさにコメント
IBMは11月24日の声明文で、CELLプロセッサは、「コンピューティングの将来はマルチコアとハイブリッド技術の統合にある」という同社の信念の基盤を成すものだと述べている。
「IBMはこのハイブリッドとマルチコアの戦略の一環として、来年登場するPower7を基盤とする新システムなど、CELL技術への投資を続ける」と声明文にはある。
IBMがCELLプロセッサの新版の開発を続けるかどうかは分からない。だが同社は声明文で、「ソニーのPS3向けにCELLの製造を続ける。ゲーム市場向けの次世代プロセッサ開発を楽しみにしている」と述べている。
奥歯に何かはさまってるような物言いだ。

以下は関連記事。

Cell is no longer HPC material

 この記事では、IBMはAMDと組んでOpenCLを使ったGPGPUをやろうとしてると推測している。

で、たぶんこの声明が元ネタになって、こんな噂が。

Sony chooses IBM POWER 7 CPU for PlayStation 4
We can officially reveal in this world exclusive that SCEI has officially chosen IBM's currently in development POWER7 architecture for it's PlayStation 4 system, currently scheduled for a 2012 worldwide release.
IBM shall POWER7 debut for the server market in the summer of 2010. The PlayStation 4 shall use a cost effective version of the architecture custom designed for Sony's specific needs.
8コアで200Wとも噂されるPOWER7をそのまま載せられるわけは無いと思うが、コア数を減らした低コスト・省電力版なら十分ありうる話だと思う。

そして、以下の記事には、より具体的な仕様も載っていたりする。

Rumor: Sony chooses IBM POWER 7 CPU for PlayStation 4
the implementation of the PS4 chip cores shall use 6.8, 24-32MB shared L3 cache, Quad core by threading, and a double precision performance approaching 200GFLOPS.
あやしげな文章だけど、6-8コア×4スレッドということだろうか?

まあ後は、PS3互換のためにSPEは載せるのかな? とか、例によってプロセスシュリンク版のCellをそのまま制御用チップで使ったりして、とか、そういう話になるわけだ。


['09.12.08 追記]

PS4に関する噂の元ネタ。オランダのサイトだけど問題の文書自体は英語だった。

Sony kiest voor IBM Power7 CPU (PlayStation 4)
the PS4 implementation of the chip shall use 6-8 cores, 24-32MB shared L3 Cache, Quad threading per core, and a double precision performance approaching 200GFLOPS.
6-8コア×4スレッドで正しいようだ。

ところで、
IBM shall debut POWER7 for the server market in the summer of 2010.
"summer"ですか。例によって、順調に遅れているようですね。

で、本当の元ネタは以下のサイトだったらしい。

FGNOnline

このサイト、各記事へのパーマリンクは無いのかな?

他にはこんな記事も、

11/16/09 WORLD EXCLUSIVE:
Sony has chosen the GPU for the next generation PlayStation.
We can officially reveal in this world exclusive that SCEI has officially chosen the Imagination Technologies currently in development PowerVR Series 6 architecture for it's next generation PlayStation console scheduled for 2012 worldwide deployment.
PS4のGPUはPowerVR 6だそうな。

Acer が日本企業の PC 部門を買収?


元記事の元記事からは、テレビ事業を持つメーカーと読めるので、ネットではソニー、東芝、シャープなんて名前が挙がっていましたが、果たして。

台湾のエイサー、パソコン部門買収で複数の日本企業と交渉?聯合晩報
30日付の台湾紙、聯合晩報は、台湾のパソコンメーカー、エイサー(宏碁)が複数の日本企業とすでに交渉し、そのうち1社のパソコン部門を買収する計画だと報じた。
元記事の元記事は以下(化けそうなんでアドレスのみ)。

http://udn.com/NEWS/STOCK/STO1/5280819.shtml

4年半で1400台


富士通のPRIMEQUESTの累計販売台数は1400台だそうだ。

富士通子会社がポルトガル大手通信事業者に「PRIMEQUEST」を25台以上納入
PRIMEQUESTは2005年の発売開始から現在まで、全世界で累計約1400台販売されている。
販売目標は3年間で1万台だったので、目標の1割は売れたということだろうか。