2011年11月30日水曜日

TSMC がパッケージ、プロセスのロードマップを公開

TSMC 2011 Japan Technology Symposium において、TSMCの後工程(パッケージ)とプロセスに関するロードマップが公開された。

TSMCが技術シンポジムを開催、TSVやリソグラフィーの最新状況を明らかに
http://techon.nikkeibp.co.jp/article/NEWS/20111128/201976/

後工程
- ホモジニアス2D (Siインターポーザ、同一チップ) : 2012年
- ヘテロジニアス2D (Siインターポーザ、異種チップ) : 2013-2014年
  ホモジニアスより遅れるのは、複数種のチップのテスト技術が難しいため
- 3D (TSV) : 2014年以降
  性能シミュレーション、テスト、歩留まり改善が難しい
  ロジックIC上にメモリを積層する場合、ロジックICの冷却の問題がある

プロセス
- CLN28HPM (28nm、モバイル機器向け) : '11Q3 リスク生産開始
- CLN20G (20nm、高性能) : '12Q3 リスク生産開始予定
- CLN20SoC (20nm、低電力) : '13Q1 リスク生産開始予定

20nmプロセス
- ゲート密度は28nmプロセスの2倍
- メタル配線ピッチ: 64nm
- DP-ArF液浸露光
- ひずみSi
- HKMG
- LIC
- 低抵抗Cu配線

14nmプロセス
- FinFET
- EUV、EBともに低スループットであるため、DP-ArF液浸露光の延命も
- コストが高すぎるため、クアッドパターニングはやらない

以下は関連記事。

Fin-FETは14nm世代から本格投入 - TSMCの次世代プロセスに向けた取り組み
http://news.mynavi.jp/news/2011/11/28/078/index.html
さらに3D化。つまり、ロジックの上にほかのロジックやメモリなどを搭載する技術についても現在開発を進めており、「TSVにかかるストレスが下部のトランジスタ層にどの程度影響を与えるか、そこで発生する熱の拡散をどうするか、デザインインフラをどう用意するか、アセンブリテストはどうするのか、などの課題がまだ残されている」とさまざまな問題が残っているとするも、2014年ころにはサービスとして提供していければとの見方を示している。
TSVについては、まだまだ問題山積のようだ。

2011年11月9日水曜日

まあ、スコッチテープでひっぺがす方法じゃ集積回路は作れんわな

東北大がグラフェンを用いた集積回路への道筋となるかもしれない研究成果を発表した。

東北大、Si基板上へに成長させたグラフェンによるトランジスタ集積化を実現
http://news.mynavi.jp/news/2011/11/09/009/index.html

Si基板の面方位を制御することで、グラフェンのバンド構造を制御するというのだが、Si基板の3次元加工技術で実現するのが面白い。たとえばSi(100)基板では、水平面が(100)面、鉛直面が(011)面、斜めの面が(111)面となるので、立体的な構造を作成することで、半導体特性のグラフェンと金属特性のグラフェンを同一基板上に形成することができる。

2011年11月5日土曜日

京が 10PFLOPS を達成

京速コンピュータ「京」が10ペタフロップスを達成
http://pr.fujitsu.com/jp/news/2011/11/2-1.html

記録達成、おめでとうございます。

6月の時点より実行効率をさらに上げてきたので、すごいなと思っていたのですが、

「京」コンピュータが京速を達成 - Top500の首位堅持に期待
http://journal.mycom.co.jp/articles/2011/11/03/kei_linpack/index.html

この10.51PFlopsはピーク性能である11.28PFlopsの93.2%にあたり、6月の時の93.0%より、わずかであるがピーク比率は向上している。LIPACKの性能は、解く問題のサイズが大きい方が演算あたりのメモリアクセス回数が減るので、高い性能を出しやすい。問題サイズはシステムのメモリ量で制限されるのであるが、CPU数が増加した分システム全体のメモリ容量が増え、6月の時点より約10%大きな11,870,208次元の連立一次方程式を解くようにしたことがピーク比率改善の主因であるという。
ということで、別に不思議なことではないようです。

ただし、88,128CPUからなるシステムが、29時間28分の間、故障無く動き続けるというのは、非常に高い信頼性が必要とされるそうで、素直に拍手を送りたいと思います。

それから、ちょっとした小ネタを。

京速コンピュータ「京」が10ペタフロップスを達成~理研と富士通が共同開発
http://cloud.watch.impress.co.jp/docs/news/20111103_488341.html
『京』のトランジスタの数は60兆で、これは人間ひとりの細胞とほぼ同じくらいの数になる。
だからなんだ、という話かも知れませんが :)

ベクトルマシンの限界?

# Togetterもどき

http://twitter.com/#!/Prof_hrk/status/129776790913822720
@jun_makino ベクトルマシンにこだわる事は悪くないのですが、ベクトルマシンの優位性のポイントが広くは理解されていないことは問題だと感じます。「メモリ性能を最大限に高められるアーキテクチャ」という事ではないので。
http://twitter.com/#!/jun_makino/status/129777711643246592
@Prof_hrk 優位性のポイントはなんでしたっけ?
http://twitter.com/#!/Prof_hrk/status/129808216543592449
@jun_makino 昔は、高価だった倍精度演算器を効率良く仕えたこと。今は電力の無駄使い(真の共有メモリとか)により、並列化コンパイラの最適化が易しいこと。でも、真の共有メモリはスケールしないので、所詮最後の抵抗だと思います。
@Prof_hrk そういう意味では、並列化コンパイラの最適化が易しい理由は、演算性能に対して(電力の無駄使いにより)「メモリ性能を最大限に高め」てるからでは?9はそでしたっけという気もしますが、それはそれ。
@jun_makino 私の書いた事に近いですが、「メモリ性能を最大限に高め」でコンパイラに効くのは、メモリアクセスの局所性を低減させることだと思います。勿論バンド幅はあるほうが良いですが、相対的問題と思います。
@jun_makino 「メモリ性能」が問われています。多くのプログラムでは、実はLatencyも大きく効きます。限られたメモリアドレス範囲で高バンド幅なことも重要で、勿論資源をつぎ込んで出来るだけグローバルな共有メモリも重要です。ベクトルマシンは最後のポイントに着目です。
@Prof_hrk 局所性を低減させるというのは、非局所的なメモリアクセスに対してもそこそこの性能を提供する、という意味、という理解で正しいですか?
@jun_makino 正しいです。SX-9でも、1筐体の中では各CPUチップから平等に足が出ています。コンパイラ屋さんからみると、まだ有効なメモリ非局所性の使い方ができてないというべきでしょう。
@Prof_hrk そうですね。原理的には、アプリ側の並列度が十分あって、非局所アクセスに対してバンド幅があればレイテンシはある程度大きくても良いはずですが、まあ上手く作らないと Cyber 205の轍を踏むわけで、最近の某マシンもそうなってますね。
ベクトルマシンを今まで有利たらしめていたのは、圧倒的なメモリバンド幅ではなく、むしろ、メモリアクセスの局所性を低減させていたことにあった。そして、「真の共有メモリはスケールしない」、すなわち、メモリ性能を保ったまま演算器を増やそうとすると、どうしても「距離の遠い」メモリが出てきてメモリの局所性が発生してしまうので、この先、ベクトルマシンの優位性は無くなってしまうだろう。

…という風に理解しました。

裏を返すと、1PF未満の領域ではベクトルマシン的な手法が有利である可能性は残っているということでしょうか。たとえば、現在のGPGPUのGPUの部分に1チップベクトルプロセッサを使った超並列マシンなんてアプローチはありうるんですかね。まあ、GPGPUと比べるとコスト的に見合わないような気もしますが。

あるいは、当面、超並列な方向に行きそうにないPCであれば、ベクトルマシン的な性能強化というのはありうるんでしょうか? でも、それではOfficeは速くならないだろうし、そもそもそれってGPGPUでは? という気もするし。ああ、DRAMをスタックしてメモリ帯域を稼ぐなんて話は広い意味ではそっち系なのかな?

なお、上記のやり取りの元ネタになったのは以下の記事と思われます。

震災を乗り越えた東北大のスパコンが目指す未来

2011年11月2日水曜日

Calxeda EnergyCore ECX-1000

Calxedaが開発したサーバ用ARMプロセッサ、EnergyCore ECX-1000の詳細が公開された。

Calxeda hurls EnergyCore ARM at server chip Goliaths
http://www.theregister.co.uk/2011/11/01/calxeda_energycore_arm_server_chip/

主なスペックは以下の通り。

- Cortex-A9×4
- 1.1/1.4GHz
- NEONコアあり
- L1D$: 32kB、L1I$: 32kB (core毎)
- L2$: 4MB (4コアで共有)
- DDR3/3L、PCIe 2.0、SATA 2.0
- EnergyCore Management Engine: baseboard management controller (BMC)
- EnergyCore Fabric Switch: 8x8 crossbar switch、80Gbs
- 10Gbs XAUIポート×5、1Gbs SGMIIポート×6 (うち5つはXAUIと両用)
- 消費電力: 5W未満/ノード (4コア1.4GHz版)
 - ECX-1000: 3.8W (アイドル時: 0.5W未満)
  - CPUコア+L2$: 2W
  - アンコア: 1.5W
 - LDDR3 4GB: 1.26W

なんというか、ちゃんとしたサーバ用チップになっている(ほめてます)。

そして、そのEnergyCoreを使用したHPのARMサーバ。

HP Project Moonshot hurls ARM servers into the heavens
http://www.theregister.co.uk/2011/11/01/hp_redstone_calxeda_servers/

harf-width 2U slot に72ノードを納めた姿は壮観である。

2011年11月1日火曜日

AMCC の 64-bit ARM チップ

AMCC (Applied Micro Circuits Corp.) が、ARMv8に基づくサーバ用64ビットARMチップを発表した。

AMCC demos 64-bit ARM server chip
http://www.eetimes.com/electronics-news/4230166/AMCC-demos-64-bit-ARM-server-chip

4イシューのアウトオブオーダーコアを複数搭載し、3GHzで動作するそうだ。

以下は関連記事。

Applied Micro leaps ahead in ARM server race
http://www.theregister.co.uk/2011/10/28/applied_micro_arm_x_gene_server_chip/

これを見ると、最初に出てくるのはデュアルコアのようだ。