2012年2月29日水曜日

Atom Z シリーズのロードマップ

# ロードマップというほどのものでは無いような気もしますが。

インテルがAtomプロセッサーの協力関係を強化、ロードマップも
http://k-tai.impress.co.jp/docs/event/mwc2012/20120228_515169.html

Atom Z2460 (現行)
- 最大動作周波数: 2.0GHz

Atom Z2580
- Z2460の2倍のパフォーマンス (デュアルコア化?)

Atom Z2000
- 動作周波数: 1.0GHz

次世代では、ハイパフォーマンス向けとローパワー向けに2極化するようです。

2012年2月28日火曜日

GLOBALFOUNDRIES 28nm SLP プロセス向け Coretex-A9 MPCore POP

ARMが、GLOBALFOUNDRIESの28nm SLP (Super Low Power) プロセス向けに、Cortex-A9 MPCore POP (Processor Optimization Pack) の提供を開始した。

ARM、GLOBALFOUNDRIES 28nmプロセス向けのCortex-A9 POPの提供を開始
http://news.mynavi.jp/news/2012/02/28/014/index.html

このProcessor Optimization PackをArtisan Physical IPと組み合わせることで、容易に柔軟性に富んだSoCの構成が可能となるそうだ。

28nm SLPプロセス向けのArtisan Physical IPには、以下のものが含まれる。

- 9track/12track Multi-Vt Standard cell libraries
- 電力管理キット
- ECOキット
- 高密度/高速のメモリコンパイラ
- GPIO

standard cellに、9trackのものと12trackのものがあるのが興味深い。それぞれ、どのような用途が想定されているのだろうか。

また、Processor Optimization Packには、以下のものが含まれる。

- Artisan Physical IP の Logic Libraries と Memory Instances
- コアの構成による性能の変化に関する詳細なベンチマークレポート
- POP Imprementation Guide

Huawei の K3V2

HuaweiがTegra3対抗のチップを開発した。

Huawei claims quad-core chip outguns Tegra3
http://www.eetimes.com/electronics-news/4236937/Huawei-claims-quad-core-chip-outguns-Tegra3

K3V2
- TSMC 40nm LPプロセス
- 動作周波数: 1.2-1.5GHz
- CPU: Cortex-A9 x 4
- GPU: 16コア、35 frames/sec (cf. Tegra3: 13fps、Dual core Snapdragon: 8.4fps)

GPUはアメリカの会社(名前は非公開)との共同開発で、詳細は不明。ブロックの実装はアメリカ側で行われたそうだ。当然、NVIDIAではないだろうし、S3はHTCなのでこれも違う。ひょっとして、AMDだったりするんだろうか?

Huaweiはさらに、12ヶ月以内に Cortex-A15/A7を用いた次世代チップを出すつもりのようだ。28nmプロセスを使用する予定とのこと。

以下は日本語の関連記事。

【MWC】Huaweiがハイエンド・スマートフォンに本格参戦、
独自の4コア・アプリケーション・プロセサ搭載機を発表
http://techon.nikkeibp.co.jp/article/NEWS/20120227/206092/

2012年2月24日金曜日

Samsung の Exynos

なるほど。発表としてはExynosのものだけど、Apple A6 の仕様を予測する材料になるわけか。

ISSCCでSamsungが32nmプロセス版のスマートフォン用チップを発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20120223_514027.html

Exynos
- CPUコア: Cortex-A9 x 2 or x 4
- GPUコア: Mali-T400MP4
- L2$: 1MB共有
- メモリ: LPDDR2デュアルチャネル(32x2 bit), 6.4GB/s (800Mbps時)
- 32nm HKMG
- 動作周波数: 最大1.5GHz

モバイル向けということもあって、省電力化技術もてんこ盛りである。45nm版は性能優先で設計したが、32nm版では省電力を優先したそうだ。

- CPUコア単位のパワーゲーティング
- L2$も半分ずつオフにすることが可能
- DVFS (Dynamic Voltage and Frequency Scaling)
- Body Bias (パフォーマンスを13.5%向上、リーク電流を21%削減)

さらに、温度管理ユニット (Thermal Management Unit:TMU) を組み込み、温度上昇時にはCPUのスロットリングやシャットダウンが行われる。

2012年2月23日木曜日

AMD が Piledriver で共振クロックメッシュを採用

【ISSCC】AMDが次期プロセサ・コア「Piledriver」に、Cyclosの共振クロック・メッシュを実装
http://techon.nikkeibp.co.jp/article/NEWS/20120221/205374/

共振クロックメッシュとは、クロックメッシュをキャパシタとして、それに接続したインダクタとでタンク回路を構成し、共振周波数で変化する電流をクロック信号として使用する技術だそうだ。

共振クロックメッシュの採用により、クロック分配の消費電力を最大24%削減することが可能だそうだ。チップ全体の消費電力としては、最大10%減が見込まれる。クロックスキューも小さくできるとのこと。

以下の記事には、PiledriverのCPUモジュールのダイ写真があり、クロック分配で使用されるインダクタの配置の様子を見ることができる。

ISSCCで各プロセッサベンダーが発表、IntelはIvy Bridgeを公開へ
http://pc.watch.impress.co.jp/docs/column/kaigai/20120222_513581.html

チップ電力を最大10%削減可能ということだが、ダイ写真を見る限りでは、面積ペナルティもかなりのものになりそうに見える。インダクタがブロック間の配線の障害にならないのか、ということも気になる。

Cylosの説明では、インダクタの追加などによる面積ペナルティは4~5%とのこと。ただし、最近のSoCでは、チップ面積はI/Oパッド数で決まっており、チップには「空き地」が存在するため、実質的な面積ペナルティを0とすることが可能なのだそうだ。


['12.03.06 追記]


AMDが2013年に投入するPiledriverコアの新技術とは?
http://ascii.jp/elem/000/000/675/675860/

5ページ目にPiledriverで使用されているインダクターマクロの概略図が載っている。

2012年2月22日水曜日

Complex logic cores will become uninteresting

探し物のついでにたまたま見つけた、Exascale computing に関するIntelの発表資料の中に、興味深い記述があった。

Technology and Design Challenges to Realize Exascale
http://www.orau.gov/archI2011/presentations/borkars.pdf

P.25に "Toshiba's Experiment" として、CellのSPUを論理合成で設計して、IBMのカスタム設計と比較して、面積を30%、配線長を28%、それぞれ減らしたという例が挙げられている(ただし、動作周波数は確か4.5GHzから4GHzに低下していたはず)。これまでCPUコアの多くの部分をカスタム設計することで成功を収めてきたはずのIntelが、このような発表をするとは少し驚かされた。


さらに、次ページには "Complex logic cores will become uninteresting" などという記述もある。メニーコアともなるとCPUコア単体のシングルスレッド性能は問題ではなくなり、システム全体のアーキテクチャが重要となる。よって、CPUコアは性能的には論理合成で十分であり、むしろASIC的な手法によりコンパクトに作る方が有利ということだろうか。


何か、どこかで聞いたことのあるような話である。

IBM と Tezzaron の3次元実装技術

【ISSCC】最先端テクノロジによる回路技術と3次元実装を使ったシステム化技術に注目
http://techon.nikkeibp.co.jp/article/NEWS/20120222/205493/

IBM
- L3$用eDRAMチップと擬似プロセッサをTSVで3次元接続
- 接続ピッチは50um
- スタック前のチップ単体とスタック後のチップの試験を両立可能な設計
- クロック分配は Shorted Clock 手法 (各レイヤーのバッファを短絡) により、低スキュー化
- 45nm SOI プロセスで、動作周波数は 2GHz

Tezzaron
- TSVとFace-to-faceのCuボンディング技術を併用
- チップ厚を12umとすることで、Face-to-faceと同等の接続ピッチ5umを実現
- Michigan大学が、64個のARMコアを搭載したプロセッサチップとSRAMチップを積層
- プロセッサを650mV動作、SRAMを870mV動作とすることで、高い電力効率を実現


IBMの3次元実装技術については、以下の記事がもう少し詳しい。

【ISSCC】疑似プロセサとキャッシュをTSVで積層、IBM社が2.7GHz動作を実現
http://techon.nikkeibp.co.jp/article/NEWS/20120222/205603/

マイクロプロセッサとキャッシュメモリを積層した3次元システムを実現するには、

- 熱をいかに逃がすか
- 積層間の電力供給
- 積層前の良品ダイの確保
- 3次元システム特有の回路や技術の開発

という4つの課題があり、今回の開発では、これらの技術の確立が目標とのこと。

通常の厚さのプロセッサチップに薄いメモリチップを積層する形で、TSVはメモリチップ側であるため、メモリチップを複数積層することが可能となっている。今回は3個までの積層を想定しているそうだ。プロセッサチップの裏側はヒートシンクに接触しており、C4バンプはメモリチップの裏側に付けられている。この形であれば、発熱量の多いプロセッサチップの冷却も可能ということであろう。

こちらの記事では動作周波数が2GHzではなく2.7GHzとなっており、最初の記事と矛盾するが、電圧とクロック周期の関係を表した図を見ると、最高値が2.7GHzであることは間違いなさそうだ。2GHzというのは、ある特定の条件の下での動作周波数なのかもしれない。




['12.02.23 追記]


Tezzaronの3次元実装技術。Georgia Tech. の例。

【ISSCC】3次元構成のメニーコア・プロセサが登場、64コア・チップとSRAMチップを積層
http://techon.nikkeibp.co.jp/article/NEWS/20120223/205710/

現在は、次世代システムとして、2個の128コア・プロセサ・チップ(SRAM内蔵)と3個のDRAMチップ(チップ当たりのメモリ容量64Mバイト)の計5チップを3次元積層したサブシステム「3D-MAPS V2」を開発中という。

['12.02.24 追記]

関連記事。図が多い。

 3D processor/memory mashups take center stage
http://www.theregister.co.uk/2012/02/24/3d_chips/

チップの電力を削減する5つ(+1)のやり方

How best to reduce power on future ICs
http://www.eetimes.com/electronics-news/4236645/How-to-reduce-power-on-future-ICs

- Embrace co-design
- Lower the operating voltage
- Scale performance
- Adopt 3-D/optical interconnect
- Try new materials
+ Smarter power management schemes

2012年2月16日木曜日

Internet enclosure

AppleとFacebookがInternetという開放耕地のエンクロージャを行っている。

アップルとFacebookの繁栄、そして「オープン」が廃れた理由
http://japan.cnet.com/sp/businesslife/35014114/

しかし、注目を集めているテクノロジー業界の2つの企業は、1つ大きな共通点を持っている。どちらも、テクノロジーの世界で古くから継承されているオープンエコシステムを拒絶し、囲い込みアプローチを取ったということだ。
この記事には書かれていないが、Googleだってエンクロージャを行っている。違いがあるとすれば、AppleとFacebookの壁は高くて外からは見えないけれど、Googleはガラス張りで外から見えるようになっていること。
現在、テクノロジー業界の一般的な期待は、ユーザーが独占的な閉じたシステムを不快に感じてうんざりすれば、振り子は再びオープンシステムの方に揺り戻ってくるだろうというものだ。
しかし、今のところその兆候は見られない。ますます大きくなるAppleとFacebookの成功は、依然として閉じたシステムが隆盛する流れにあるという証拠だ。
そういう意味では、「もしもしゲー」バブルも当分安泰ということかな。

囲い込みにより活躍の場を奪われたオープンソフトウェアプログラマは、次代の産業革命の礎となるのであろうか。 (ちょっと格好良いことを言おうとしてるだけで、特に意味のある発言ではありません :)

ARM の Skrymir と Tyr

GPUコアはbig.LITTLEとは異なるのではないかとの予想。

ARMの次世代GPU「Skrymir」と「Tyr」の謎
http://pc.watch.impress.co.jp/docs/column/kaigai/20120215_511949.html

確かにGPUでは、使わないユニットの電源を切ることで省電力化が可能なので、big.LITTLE的なアプローチはそれほど有効ではないと思われる。ハイエンドのGPUコアとローエンドのGPUコアを並行して開発するだけなのかも知れない。

後半は、POP (Processor Optimization Pack) のお話。後藤さんはソフトマクロのCPUコアの話として書いてるんだけど、図中にPOPと Osprey Hard Macro を組み合わせた記述があるので、CPUコアに限定された話ではないんじゃないかと思う。

というところで、ググってみた。

ARMとTSMC、20nmのCortex-A15 MPCoreをテープアウト
http://techon.nikkeibp.co.jp/article/NEWS/20111018/199474/
POPは特定のプロセスやプロセサ・コアに最適化したArtisan物理IPや、EDAツールの制約条件、設計上の留意点など、そのプロセサ・コアをハードウェアとして実装するために必要なデータを集めたものである。
特定のプロセスに最適化したメソドロジーを提供してくれるということらしい。

で、Osprey Hard Macro と POP physical IP を組み合わせて使うことも可能というわけだ。

2012年2月15日水曜日

ARM の Atlas と Apollo

ARMが次世代CPU「Atlas」と「Apollo」の計画を発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20120214_511793.html

後藤さんは、big.LITTLE Processing 戦略を採ることで、ハイパフォーマンスコアが最低電力に気を配る必要がなくなり、設計をよりハイパフォーマンス側に振ることができると推測している。

ところで、Cortex-A15の最適化では、Cadenceが買収したAzuroの技術を投入することで、より低消費電力化することが可能になったそうだ。