2012年10月6日土曜日

SPARC M4?

Oracle: ket uj SPARC chip jov?re, tovabbi harom fejlesztes alatt
http://www.hwsw.hu/hirek/49147/oracle-sparc-t5-m4-risc-szerver-processzor.html

SPARC M4
- 6コア (S3コア)
- L3$: 48MB
- 32ソケットまでスケーリング

その他
- M5は最初の試作品をテスト中
- M6は製図板にある(設計を開始している?)
- T6にはOracleソフトウェア用のアクセラレータ(Oracle Application Accelerators)を積む

# なんとなく、NDAセッションの内容を書いている気がする。

そして、以下が最新のロードマップだそうな。

Oracle SPARC Processor Roadmap
http://www.oracle.com/us/products/servers-storage/servers/sparc-enterprise/public-sparc-roadmap-421264.pdf

2013年初頭
- T5 (in Test)  +2.5x Throughput, +1.2x Thread Strength
- M4 (in Test)  +6x Throughput, +1.5x Thread Strength

2013年末
- M5 (in the Lab)  +2x Throughput, >1x Thread Strength

2014年末
- M6  2x Throughput, +1.5x Thread Strength, Oracle Application Accelerators
- T6  2x Throughput, +1.5x Thread Strength, Oracle Application Accelerators

とりあえず、上記の記事とは矛盾していないようだ。

2012年10月5日金曜日

POWER7+ デビュー

Power7+ chips debut in fat IBM midrange systems
http://www.theregister.co.uk/2012/10/03/ibm_power7_plus_server_launch/

POWER7+デビュー。一気に全てのクラスに、とは行かなかった模様。

今回発表されたのが3コアないし4コア品のみで、6コアないし8コア品が無いということで、32nmプロセスの歩留まりが悪いのではないかと、TPMは推測している。

まだ値が出揃っていませんが、POWER7との比較は以下のような感じ。

IBM Power Systems performance benchmarks
http://www-03.ibm.com/systems/power/hardware/benchmarks/hpc.html
SPECfp_rate2006
  • A 64-core IBM Power 780 (3.86 GHz) is the best 64-core Linux system (2,550 SPECfp_rate2006 result, 64 cores, 8 chips, 8 cores/chip, 4 threads/core). 
  • A 64-core IBM Power 780 (4.424 GHz, POWER7+) is the best 64-core system (2,880 SPECfp_rate2006 result, 64 cores, 16 chips, 4 cores/chip, 4 threads/core).
SPECint_rate2006
  • A 64-core IBM Power 780 (3.86 GHz) is the best 64-core Linux system (2,740 SPECint_rate2006 result, 64 cores, 8 chips, 8 cores/chip, 4 threads/core). 
  • A 64-core IBM Power 780 (4.424 GHz, POWER7+) is the best 64-core system (3,730 SPECint_rate2006 result, 64 cores, 16 chips, 4 cores/chip, 4 threads/core).

2012年9月24日月曜日

GLOBALFOUNDRIES が 14nm FinFET プロセスを2014年に?

GLOBALFOUNDRIES、2014年に14nm世代のFinFETプロセス投入へ
http://eetimes.jp/ee/articles/1209/21/news110_2.html

2012年9月現在、20nmプロセスの量産すら開始されていないのに、2014年に14nmプロセスを提供できるわけがないと思えるのだが、これにはどうやらカラクリがあるようだ。

まずは、プレスリリース。

GLOBALFOUNDRIES Unveils FinFET Transistor Architecture Optimized for Next-Generation Mobile Devices
http://www.globalfoundries.com/newsroom/2012/20120920.aspx

そして、プレゼン資料。

14nm-XM overview presentation
http://www.globalfoundries.com/technology/pdf/GF-14XM-Press-FINAL.pdf

発表では、20nm LPMプロセスから14nm XMプロセスへの移行の容易性が強調されていたようだが、プレゼン資料の13ページに"Cost and Density optimized BEOL from 20LPM"という記述があるように、どうやらBEOLは20nm LPMプロセスのまま、FEOLだけFinFETに切り替えるということのようだ。"80nm SP wiring"とあるので、配線ピッチはおそらく80nm。さらに、"Proven optimized Middle of Line (MOL) from 20LPM"などという記述もある。

つまり、FinFETにすることでゲート長が短くなるので、他の寸法は20nmプロセスとは変わらないが、プロセスノードとしては14nmを名乗る、ということですね。

というわけで今回の発表は、以前から言われていた「20nmプロセスでプレーナ→FinFETというステップを踏む」というのを、「14nm」という数字でセンセーショナルに発表しただけということらしい。まあ、ゲート長は実際短くなるんだろうし、リーク電流が相当減るのも事実でしょうし(ちゃんと作れればね :)

以下は関連記事。

GLOBALFOUNDRIESが14nm世代プロセスを発表、微細化を加速し2014年に量産予定
http://techon.nikkeibp.co.jp/article/NEWS/20120921/241241/

今回の発表のポイントとなるところが、うまくまとまっている。

High Bandwidth Memory

Wide I/O 2からHBMまで、次々世代メモリが見えたMemcon 2012
http://pc.watch.impress.co.jp/docs/column/kaigai/20120924_561444.html

やはり冷却のことを考えると、ダイスタッキングではなく、TSVインターポーザを用いるのが現実的のようだ。

以下に簡単にまとめる。

  • HBMには1Tbps(136GB/sec)クラスと2Tbps(273GB/sec)クラスの2つのスペックがあるが、仕様はまだ未確定。
  • 1Tbpsクラスは512bitインターフェースで実現可能であるが、2Tbpsクラスには1024bitインターフェースが必要とみられるため、両者を1024bitで統一しようとする動きがある。
  • パフォーマンスプロセッサでは熱量が多いため、DRAMのスタッキングは難しいだろう。
  • GPUに4個のHBMをTSVインターポーザに載せることで、1TB/secクラスの超広帯域メモリを実現可能。

Apple の A6 プロセッサのダイ写真

A peek inside Apple's A6 processor
http://www.eetimes.com/electronics-news/4396851/Teardown-points-to-Samsung-as-builder-of-iPhone-5-CPU

CPUコアの形状が長方形ではなさそう(=専用のフロアプラン?)だったり、内部が小さいブロックに分かれている(=カスタム設計?)ように見えたり、CPUコアが出来合いのものではないという説は、どうやら正しそうだ。

……などと考えていたところに安藤さん。

最近の話題 2012年9月22日
http://www.geocities.jp/andosprocinfo/wadai12/20120922.htm
2コアのキャッシュRAMの上に出っ張っている領域が,面積の小さい低電力コアかもしれません。
言われてみれば、そうかも。



['12.09.26 追記]

より細かい部分まで分かる写真。


Chip strip reveals 'handmade' Apple A6
http://www.reghardware.com/2012/09/25/apple_a6_chip_stripped_bare/

CPUコアの中で水色に見える部分って何なんだろう?

2012年9月19日水曜日

Apple A6 ネタ

# タイトルはお下品ですが、内容はまとも。

Apple spent $500M to say ‘f*** you’ to Samsung
http://venturebeat.com/2012/09/18/more-details-shake-loose-on-apples-a6-chip-including-a-500m-development-effort/

タイトルの$500Mとは、チップ開発企業(PA semi、Intrinsity)の買収に$400Mを費やし、更に、4年間の開発費が$100Mに上るという計算のようだ。

PA semi の買収後、ARMコアを採用した Apple A4 の開発と並行して新CPUのマイクロアーキテクチャの開発を開始。PA semi の CEO、Dan Dobberpuhl がAppleを抜けた後も、PWRficientの開発者であった Jim Keller、Pete Bannon らは残って開発を続け、そこにARMのフェローで、Cortex-A8やA15の開発をリードした Gerard Williams が合流。マイクロアーキテクチャの設計が終わり、実装
フェーズに入ったところで Intrinsity を買収。昨年の夏にはA6の開発を完了した、という流れ。

A6のCPUコアはCortex-A9、ないし、A15の改良版であり、また、2014年にはARMv8をベースとして新CPUが出ると推測している。

なお、その後、Gerard Williams はAppleのチーフCPUアーキテクトとなり、一方で、Jim Keller はAMDへ行ったそうだ。

というか、元ネタはこちらですね。

Apple Designed Own CPU For A6
http://www.linleygroup.com/newsletters/newsletter_detail.php?num=4881

2012年9月10日月曜日

Synopsys の IC Validator の 20nm プロセス対応

Synopsys、フィジカル検証ツール「IC Validator」を20nm以降対応に更改
http://techon.nikkeibp.co.jp/article/NEWS/20120910/238960/

改善点は以下の4つ。

  • ダブルパターニングに対応
  • 2次元パターンマッチング機能を追加
  • 64個のプロセッサでの分散処理が可能に
  • IC Compilerとの連携強化

2012年8月30日木曜日

AMD の Jaguar コア

AMD to double up cores with Jaguars
http://www.theregister.co.uk/2012/08/29/amd_jaguar_core_design/

Jaguarコアのフロアプランを見ることができる。アメーバ状の配置をしており、Bobcatに続き、自動設計ツールが使われたことが推測される。ただし、FPだけはほぼ長方形をしており、他とは別に設計されたようだ(FPの内部が自動設計なのかカスタム設計なのかは、この図だけでは分からないが)。FPの左側の境界がきれいな直線になっていないのは、他のモジュールとのインターフェース用のバッファは自動配置(最適化)の対象としたということだろう。

開発にはGPU設計用のツールを使用したようだ。CPU開発者がGPU用ツールを使いこなすのはたいへんだったようで、"took a lot of blood, sweat, and tears"とのこと。初期のフロアプランは実に"terrible"だったそうな。

2012年8月6日月曜日

Synopsys が SpringSoft を買収

Synopsys、SpringSoftを買収へ
http://techon.nikkeibp.co.jp/article/NEWS/20120804/232352/

これには驚かされた。

米国の企業同士であれば、M&Aなど日常茶飯事であるのだが、SpringSoftは台湾の企業であるたため、いわゆる3強に買収されるなんてことはないと思い込んでいた。

まあ、EDA業界は中国系の人が多いので、文化の違いみたいなものはあまり問題にならないのかもしれない。

そして、以下の記事は、Synopsysによる、Magma、Ciranova、そして今回のSpringSoft買収を受けての考察である。

Is Synopsys helping chip making return to its roots?
http://www.eetimes.com/electronics-news/4391672/Is-Synopsys-helping-chip-making-return-to-its-roots-

最先端プロセスへ投資できる企業が減り、EDAツールの買い手も減ってきた。その結果、少数の強力な買い手が出現することとなり、これに対抗するためEDAベンダは統合に向かった、といった内容となっている。

2012年7月26日木曜日

TSMC の 20nm プロセスの次

TSMC says single-customer fabs make sense
http://www.eetimes.com/electronics-news/4391104/TSMC-says-single-customer-fabs-make-sense

今後、大口顧客には1つの工場まるごと、あるいは、それ以上を割り当てるというTSMCの方針に関する記事だが、その中にこのような記述が。
Fab 14, will be the source of the majority of 20-nm planar CMOS and 16-nm FinFET CMOS.
ということで、20nmの次は16nmでFinFETということのようだ。

2012年7月25日水曜日

Synopsys の多電源設計メソドロジ

入門編として、良くまとまっている資料である。

低消費電力チップを実現するEnd-to-Endの多電源設計メソドロジ
http://www.synopsys.co.jp/products/technology/power/lowpower.html

Cadence のクロック設計技術 CCOpt の適用事例

「消費電力削減は副次的な効果」、ルネサスがハイエンドMCUのクロック設計最適化で講演
http://techon.nikkeibp.co.jp/article/NEWS/20120724/230131/

Cadenceのクロック設計技術、CCOpt (Clock Concurrent Optimization) をハイエンドMCUの設計に適用した事例。ハイエンドと言っても、最大動作周波数が160MHz、インスタンス数が850Kのチップとのことで、要求性能は高くないし、かなり小規模のチップと言える。

Cadenceの従来のクロック設計技術、CTS (clock tree synthesis) では、ゼロスキューを目指してクロックだけを最適化するのに対し、CCOptでは、クロックとデータラインの最適化を行うそうだ(スラックを考慮しているということだろうか?)。

ルネサスではCCOptを使用することにより、従来手法である「CTS+人手によるスキュー調整」では不可能であった、High Speed RAM (ハイエンド向け、高速・大面積) から、Compact RAM (ローエンド向け、低速・高密度)への置き換えに成功したそうだ。

ただし、大規模な回路では不安が残るとし、EDI systemとの結合度を上げることが今後の課題であるとしている。

2012年7月13日金曜日

FSL が UPF2.0 を使用した低消費電力設計フローを構築

「世界に先駆けて構築」、富士通セミコンがUPF 2.0ベースの低消費電力ASIC設計フロー
http://techon.nikkeibp.co.jp/article/NEWS/20120712/228171/
UPF 2.0は、論理パートと物理パートを明確に分離可能なこと、RTLの論理シミュレーションは論理パートのみで実行できることなどにより、ASIC設計フローに向いた形式になった。
「実装屋には使いにくい」という点は改善されたようだ。
CPFではユーザーが最初に定義した内容を各工程で利用するのに対して、UPFではツールが次の工程向けに内容を更新する(書き換える)。同氏によればツールが生成した新たなUPFを検証する必要があるため、できればCPFのようにずっと同じ内容で使いたい。
設計が進むにつれてインクリメンタルに更新していきたいというのはCADを作っている立場からは理解できるのだけど、そうするとLVSあたりで何と何を比較してるのか分からなくなるのよね。
チップ外部からパワー・ゲーティングを行うケースでは、テストベンチにパワー・スイッチに相当する機能を書き込むことで、内部に制御部がある場合と同等の検証が行えるようにした。
へえ、テストベンチに記述するのか。

2012年7月12日木曜日

サーバ用プロセッサの将来

"data movement energy" が問題となる時代に、サーバ用プロセッサのデザインはどのようになっていくのだろうか。

Intel keynoter: Power consumption hurdles litter path to exascale computing
http://www.eetimes.com/electronics-news/4390114/Intel-keynoter--Power-consumption-hurdles-litter-path-to-exascale-computing-

スパコンほどには電力あたりの性能をうるさく言われないんだろうし、当面、シングルスレッド性能は重要視されるのだろうし。

なんというか、今のところメモリ階層はそのままでコア数ばかり増える方向のように思えるのだけど、一昔前のCPU+RAM(キャッシュメモリではなく)を1チップに収めるみたいなアプローチはないのかしら。コアは1つか2つで、LL$の外側に128MBとか256MBのRAMをオンチップで持つ。で、チップ外の大容量RAMはRAMディスク的に使う、と。

ああ、高速ロジック向けのプロセスではDRAM並みの容量は出せないし、DRAM向けのプロセスでは高速な演算器を作れないんだった。

結局、Wide I/Oでいんじゃね? って気がしてきた……

2012年7月11日水曜日

東芝の考える不揮発性メモリの用途

【続報】東芝、3次元構造のNANDフラッシュとReRAMを2013年にサンプル出荷へ
http://techon.nikkeibp.co.jp/article/NEWS/20120710/227594/

東芝は各メモリの用途を以下のように考えているようだ。

  - NAND: ストレージ、
  - ReRAM: ストレージ(特に性能を重視する部分)、
  - STT-MRAM: SSDなどのキャッシュ。

この考え方が正しいとすると、今後は半導体メモリを多階層に組み合わせたものが、ストレージの主流になっていくのかもしれない。

2012年7月10日火曜日

HP のメモリスタの開発が遅延

製品化に苦労しているようです。

HP's faster-than-flash memristor at least TWO years away
http://www.theregister.co.uk/2012/07/09/hp_memristor_and_photons/
Communication is done by photons, computation by electrons and storage by ions

これは、なかなか分かりやすいキャッチフレーズですね。果たして、このキャッチフレーズ通りの世界はやってくるのでしょうか。

2012年7月9日月曜日

Xilinx の Vivado Design Suite

Xilinx 自身による Vivado Design Suite の解説記事が公開されている。

Xilinx、次の10年のAll Programmableデバイス向けVivado Design Suite発表
http://news.mynavi.jp/articles/2012/07/09/xcell_journal/index.html

配置エンジンでSAを止めた理由は、ディレイの中で配線ディレイが占める割合が多くなったことと、ゲート規模の増大に対応できなくなったことだそうだ。従来はタイミングのみを考慮した1次元のタイミングドリブン配置配線エンジンであったが、新しいエンジンではタイミング、配線密度、配線長の3つの要素が最小となる解を見つけることができるとのこと。多次元解析に対応した評価関数を用意すれば、SA自体は止める必要はないと思うのだが、実は規模の問題の方が大きいのではないだろうか。


まあ、とりあえずASICではとっくの昔にできていることをやっているだけで、配置配線エンジンとして何か目新しいことをやっているというわけではなさそうだ。

プロセッサのキャッシュに MRAM を使う

プロセッサのキャッシュに不揮発性メモリを使う
http://pc.watch.impress.co.jp/docs/column/semicon/20120703_544296.html

書き換え回数の点から、不揮発性メモリをキャッシュに適用しようとする研究のほとんどは、MRAM技術を想定しているそうだ。

プロセッサのキャッシュにMRAMを使う
http://pc.watch.impress.co.jp/docs/column/semicon/20120709_545712.html

Intel、Qualcomm-TSMC、IBM-Seagateの、少なくとも3つのグループがプロセッサのキャッシュ用途を想定してMRAMを研究している。

MRAMはSRAMよりもメモリセル面積を小さくすることができ、キャッシュ容量の拡大、あるいは、チップ面積の縮小を可能とする。また、キャッシュ用途では、データ保持期間を半導体メモリとして一般的な10年よりも短くすることで、弱点である書き込み時間を改善できる可能性があるそうだ。

2012年5月30日水曜日

Filesystem Hierarchy Standard

UNIXの標準的なディレクトリ構成が規定されている。


Filesystem Hierarchy Standard
http://www.pathname.com/fhs/

2012年4月18日水曜日

TSMC が 20nm プロセスの方針を変更

TSMC to offer only one process at 20-nm
http://www.eetimes.com/electronics-news/4371203/TSMC-to-offer-only-one-process-at-20-nm

TSMCは20nmプロセスでは、ハイパフォーマンス向けとローパワー向けの2種を予定していたが、これを変更し、両者を一本化した1種類のプロセスのみとすることを決定したそうだ。開発の段階で両者の性能に大きな差がなかったことが、その理由である。微細化が進み、プロセスにバリエーションを持たせることが困難になりつつあるということだろう。

20nmプロセスの生産開始は来年を予定。14nmプロセスではFin-FETを採用し、2015年に生産開始を予定している。

なお、14nmプロセスのコストを十分下げられなかった場合は、18、ないし、16nmプロセスを提供することになるとのこと。

2012年4月13日金曜日

Internet-on-a-chip

Mesh net ties Internet-on-a-chip with multi-cores
http://www.eetimes.com/electronics-news/4370783/Mesh-net-ties-Internet--on--a--chip-with-multi--cores

将来のマルチコアプロセッサは、コア間の通信もパケットでやり取りするようになるらしい。コア1つ1つがルーターを持つようになるんだとか。

2012年4月11日水曜日

Intel が出資した EDA スタートアップ企業

Intel, Xilinx back EDA startup
http://www.eetimes.com/electronics-news/4370666/Intel--Xilinx-back-EDA-startup

Intel Capital と Xilinx が出資した Oasys Design Systems は physical synthesis tool を提供するスタートアップ企業だそうだ。

Oasysは自社の製品、RealTime Designer について、100Mゲート規模のRTL物理合成に対応した最初の製品であると主張している。

2012年3月30日金曜日

STMicro による Verdi Interoperability App(VIA) プラットフォーム適用事例

STMicro、SpringSoftのVerdiをカスタマイズしてデバグを効率化
http://techon.nikkeibp.co.jp/article/NEWS/20120328/210349/
今回、STMicroは、歩留まりや信頼性、フィールド違反に関連した問題を特定するための論理シミュレーションの違反レポートの確認や、チップ・レポートの解析工程を自動化する独自のソフトウェアを、VIAプラットフォームをベースにして開発した。このチップ・レポートによって、潜在的な異常を自動的に特定することが可能になった。特定した潜在的な異常はフィジカル・レイアウト上で詳細に解析することになる。
内製CAD部隊の生きる道として、こういう設計者に近い領域を頑張るというのは、アリかもしれない。

2012年3月28日水曜日

Intel のデータセンターの処理能力の 70% が半導体設計に使われる

Intel、EDA処理の異常終了予測を実施して700万米ドルのコストを削減
http://techon.nikkeibp.co.jp/article/NEWS/20120328/210345/

Intel全体のデータセンター数は87と2009年の95から少し減った(図1)。一方で、ストレージ容量やネットワーク帯域幅は2009年の倍以上になっている。「処理能力の70%以上を使う、半導体設計の複雑度が急速に高まっていることがその背景にある」(富澤氏)。実際、半導体設計向けの処理能力は急上昇している。2008年比で2011年の半導体設計の処理能力は159%増加(約2.6倍)になったという。
儲かってるところは、リソースにも投資できて良いですなあ。とは言え、
処理能力は向上しているが、同時に効率化を進めており、2011年は半導体設計関係で1990万米ドル(約16億5200万円)のコストを削減した(図2)。
もちろん効率化も進めていると。
このうち、700万米ドル(約5億8100万円)が「設計コンピューティング予測エンジン」の導入によるものだ(図3)。これは、収束しないなどの異常終了によって結果が出ない処理を、異常終了前に検知することで、無駄な処理を減らす。
どんな超技術やねん! って思ったら、

以前に正常終了した同種の処理時間から推定して時間がかかりすぎていると、異常終了の危険性が高いと判断しているという。
そういうことか。

これ以外にも、
設計コンピューティング予測エンジンのほかに、「NUMA Booster」とうアルゴリズムも、半導体設計業務の効率化に寄与しているという。NUMA Boosterはコンピューティング・ジョブの計算資源への割り付けを最適化するためのアルゴリズムである。
なんてものが。

うちの会社にはこういう技術は無いのかしらね。どこかでやってそうな気はするのですが。まあ、たとえ技術があったとしても、それを使うために投資できるかどうかは別の話ですね。

2012年3月6日火曜日

Springsoft の Verdi3

SpringSoftがRTLデバッガの新製品、Verdi3を発表した。

SpringSoft、RTL設計デバガ「Verdi」を「Verdi3」に更改
http://techon.nikkeibp.co.jp/article/NEWS/20120305/207410/

簡単にまとめると以下のようになる。

- GUIのパーソナライズの容易化
 + MotifからQtへ移行。
 + ウィンドウが1画面に集約され、サブウィンドウの大きさや配置を調節可能。

- 機能のカスタマイズが可能
 + VIA (Verdi Interoperability Apps) フレームワークベース
 + VIAのユーザー向けソフトウェア部品を提供

- データベースの改良
 + マルチスレッド型リーダー
 + ファイルサイズを30%圧縮
 + シミュレーションにおけるマルチスレッド・ダンピング
 + 言語パーサーをSystemVerilogにフル対応

VIA (Verdi Interoperability Apps) フレームワークというのは、なかなか面白そうだ。

Intel の技術の今後の方向性

ISSCCを受けての後藤さんのまとめ。

省電力と効率化にフォーカスした今後のIntel
http://pc.watch.impress.co.jp/docs/column/kaigai/20120306_516630.html

- レギュレータのチップ統合→細粒度の電力制御
- RFモジュールのチップ統合
- DRAMの3Dスタッキング
- オンチップインターコネクトの一新
- Near-Threshold Voltage技術

多くが省電力を意識した技術となっている。

もっとも他社をリードしていそうなのは、やはり、Near-Threshold Voltage技術だろうか。半導体プロセス、回路技術、論理設計、全てを持っていないとなかなかこういうことはできない。唯一対抗できそうなのは、IBMくらいだろうか。そのうち、Samsungあたりも割って入ってくるかもしれないが。

2012年3月2日金曜日

Snapdragon S4 の動的周波数制御

Snapdragon S4で、個々のコアが負荷に応じて動的にクロックが変わる様子が公開されていたそうだ。

【MWC 2012レポート】【Broadcom/NXP/Qualcomm編】
BroadcomのICS向けSoCや、NXPの新NFC、Qualcommの11acなど
http://pc.watch.impress.co.jp/docs/news/event/20120301_515715.html

写真を見ると、各コアの動作周波数が、1.27GHz、1.01GHz、1.19GHz、0.90GHzとなっており、周波数が非常に細かく制御されていることが分かる。

TI が OMAP 5 をデモ

TIが、他社のクアッドコアCPU (当然、Tegra 3のことと思われる) と比較して、OMAP 5の方が性能が高いとするデモを行ったそうだ。


【MWC】「クアッドコアよりも高性能」、OMAP 5の処理性能をアピールするTI社
http://techon.nikkeibp.co.jp/article/NEWS/20120228/206297/

デモに使われたOMAP 5の動作周波数は1.5GHzである。これに対し、NVIDIAの発表によればクアッドコアTegra 3の最大動作周波数は1.4GHzだそうだ。

以下は、関連記事である。


【Mobile World Congress 2012】TI、“マルチコア”で2GHz駆動のOMAP5をデモ
http://k-tai.impress.co.jp/docs/event/mwc2012/20120301_515700.html

この記事によると、OMAP 5のスペックは以下のようになる。

OMAP 5
- CPUコア: Cortex-A15 x 2, Cortex-M4 x 2
- 最大動作周波数: 2GHz

OMAP 5のCPUコアはCortex-A15ということで、Tegra 3との比較において動作周波数が高いだけでなく、マイクロアーキテクチャの差もあっての勝利ということなのかもしれない。ただし、NVIDIAも次世代では当然Cortex-A15ベースとしてくるはずで、現時点で勝った、負けたというのは、技術的にはあまり意味が無さそうだ。また、いずれの記事にも消費電力に関する記述が無いが、消費電力を考えずに性能の比較をしていたのであれば、それこそ全く意味は無いだろう。

OMAP 5では、低消費電力コアがCortex-M4であり、論理的(ISA的)にはホモジニアスなアプローチであるARMのbig.LITTLEと微妙に方向性が異なるのは興味深い。TIは以前から、SoCにおいてヘテロジニアスなマルチコアを手がけており、それの発展形ということだろうか。もちろん、OMAP 5の企画段階ではbig.LITTLEは発表されておらず、使いようがなかったわけだが、次の世代ではbig.LITTLEに合わせてくるのだろうか、それとも、OMAP 5における組み合わせを踏襲してくるのだろうか。

2012年2月29日水曜日

Atom Z シリーズのロードマップ

# ロードマップというほどのものでは無いような気もしますが。

インテルがAtomプロセッサーの協力関係を強化、ロードマップも
http://k-tai.impress.co.jp/docs/event/mwc2012/20120228_515169.html

Atom Z2460 (現行)
- 最大動作周波数: 2.0GHz

Atom Z2580
- Z2460の2倍のパフォーマンス (デュアルコア化?)

Atom Z2000
- 動作周波数: 1.0GHz

次世代では、ハイパフォーマンス向けとローパワー向けに2極化するようです。

2012年2月28日火曜日

GLOBALFOUNDRIES 28nm SLP プロセス向け Coretex-A9 MPCore POP

ARMが、GLOBALFOUNDRIESの28nm SLP (Super Low Power) プロセス向けに、Cortex-A9 MPCore POP (Processor Optimization Pack) の提供を開始した。

ARM、GLOBALFOUNDRIES 28nmプロセス向けのCortex-A9 POPの提供を開始
http://news.mynavi.jp/news/2012/02/28/014/index.html

このProcessor Optimization PackをArtisan Physical IPと組み合わせることで、容易に柔軟性に富んだSoCの構成が可能となるそうだ。

28nm SLPプロセス向けのArtisan Physical IPには、以下のものが含まれる。

- 9track/12track Multi-Vt Standard cell libraries
- 電力管理キット
- ECOキット
- 高密度/高速のメモリコンパイラ
- GPIO

standard cellに、9trackのものと12trackのものがあるのが興味深い。それぞれ、どのような用途が想定されているのだろうか。

また、Processor Optimization Packには、以下のものが含まれる。

- Artisan Physical IP の Logic Libraries と Memory Instances
- コアの構成による性能の変化に関する詳細なベンチマークレポート
- POP Imprementation Guide

Huawei の K3V2

HuaweiがTegra3対抗のチップを開発した。

Huawei claims quad-core chip outguns Tegra3
http://www.eetimes.com/electronics-news/4236937/Huawei-claims-quad-core-chip-outguns-Tegra3

K3V2
- TSMC 40nm LPプロセス
- 動作周波数: 1.2-1.5GHz
- CPU: Cortex-A9 x 4
- GPU: 16コア、35 frames/sec (cf. Tegra3: 13fps、Dual core Snapdragon: 8.4fps)

GPUはアメリカの会社(名前は非公開)との共同開発で、詳細は不明。ブロックの実装はアメリカ側で行われたそうだ。当然、NVIDIAではないだろうし、S3はHTCなのでこれも違う。ひょっとして、AMDだったりするんだろうか?

Huaweiはさらに、12ヶ月以内に Cortex-A15/A7を用いた次世代チップを出すつもりのようだ。28nmプロセスを使用する予定とのこと。

以下は日本語の関連記事。

【MWC】Huaweiがハイエンド・スマートフォンに本格参戦、
独自の4コア・アプリケーション・プロセサ搭載機を発表
http://techon.nikkeibp.co.jp/article/NEWS/20120227/206092/

2012年2月24日金曜日

Samsung の Exynos

なるほど。発表としてはExynosのものだけど、Apple A6 の仕様を予測する材料になるわけか。

ISSCCでSamsungが32nmプロセス版のスマートフォン用チップを発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20120223_514027.html

Exynos
- CPUコア: Cortex-A9 x 2 or x 4
- GPUコア: Mali-T400MP4
- L2$: 1MB共有
- メモリ: LPDDR2デュアルチャネル(32x2 bit), 6.4GB/s (800Mbps時)
- 32nm HKMG
- 動作周波数: 最大1.5GHz

モバイル向けということもあって、省電力化技術もてんこ盛りである。45nm版は性能優先で設計したが、32nm版では省電力を優先したそうだ。

- CPUコア単位のパワーゲーティング
- L2$も半分ずつオフにすることが可能
- DVFS (Dynamic Voltage and Frequency Scaling)
- Body Bias (パフォーマンスを13.5%向上、リーク電流を21%削減)

さらに、温度管理ユニット (Thermal Management Unit:TMU) を組み込み、温度上昇時にはCPUのスロットリングやシャットダウンが行われる。

2012年2月23日木曜日

AMD が Piledriver で共振クロックメッシュを採用

【ISSCC】AMDが次期プロセサ・コア「Piledriver」に、Cyclosの共振クロック・メッシュを実装
http://techon.nikkeibp.co.jp/article/NEWS/20120221/205374/

共振クロックメッシュとは、クロックメッシュをキャパシタとして、それに接続したインダクタとでタンク回路を構成し、共振周波数で変化する電流をクロック信号として使用する技術だそうだ。

共振クロックメッシュの採用により、クロック分配の消費電力を最大24%削減することが可能だそうだ。チップ全体の消費電力としては、最大10%減が見込まれる。クロックスキューも小さくできるとのこと。

以下の記事には、PiledriverのCPUモジュールのダイ写真があり、クロック分配で使用されるインダクタの配置の様子を見ることができる。

ISSCCで各プロセッサベンダーが発表、IntelはIvy Bridgeを公開へ
http://pc.watch.impress.co.jp/docs/column/kaigai/20120222_513581.html

チップ電力を最大10%削減可能ということだが、ダイ写真を見る限りでは、面積ペナルティもかなりのものになりそうに見える。インダクタがブロック間の配線の障害にならないのか、ということも気になる。

Cylosの説明では、インダクタの追加などによる面積ペナルティは4~5%とのこと。ただし、最近のSoCでは、チップ面積はI/Oパッド数で決まっており、チップには「空き地」が存在するため、実質的な面積ペナルティを0とすることが可能なのだそうだ。


['12.03.06 追記]


AMDが2013年に投入するPiledriverコアの新技術とは?
http://ascii.jp/elem/000/000/675/675860/

5ページ目にPiledriverで使用されているインダクターマクロの概略図が載っている。

2012年2月22日水曜日

Complex logic cores will become uninteresting

探し物のついでにたまたま見つけた、Exascale computing に関するIntelの発表資料の中に、興味深い記述があった。

Technology and Design Challenges to Realize Exascale
http://www.orau.gov/archI2011/presentations/borkars.pdf

P.25に "Toshiba's Experiment" として、CellのSPUを論理合成で設計して、IBMのカスタム設計と比較して、面積を30%、配線長を28%、それぞれ減らしたという例が挙げられている(ただし、動作周波数は確か4.5GHzから4GHzに低下していたはず)。これまでCPUコアの多くの部分をカスタム設計することで成功を収めてきたはずのIntelが、このような発表をするとは少し驚かされた。


さらに、次ページには "Complex logic cores will become uninteresting" などという記述もある。メニーコアともなるとCPUコア単体のシングルスレッド性能は問題ではなくなり、システム全体のアーキテクチャが重要となる。よって、CPUコアは性能的には論理合成で十分であり、むしろASIC的な手法によりコンパクトに作る方が有利ということだろうか。


何か、どこかで聞いたことのあるような話である。

IBM と Tezzaron の3次元実装技術

【ISSCC】最先端テクノロジによる回路技術と3次元実装を使ったシステム化技術に注目
http://techon.nikkeibp.co.jp/article/NEWS/20120222/205493/

IBM
- L3$用eDRAMチップと擬似プロセッサをTSVで3次元接続
- 接続ピッチは50um
- スタック前のチップ単体とスタック後のチップの試験を両立可能な設計
- クロック分配は Shorted Clock 手法 (各レイヤーのバッファを短絡) により、低スキュー化
- 45nm SOI プロセスで、動作周波数は 2GHz

Tezzaron
- TSVとFace-to-faceのCuボンディング技術を併用
- チップ厚を12umとすることで、Face-to-faceと同等の接続ピッチ5umを実現
- Michigan大学が、64個のARMコアを搭載したプロセッサチップとSRAMチップを積層
- プロセッサを650mV動作、SRAMを870mV動作とすることで、高い電力効率を実現


IBMの3次元実装技術については、以下の記事がもう少し詳しい。

【ISSCC】疑似プロセサとキャッシュをTSVで積層、IBM社が2.7GHz動作を実現
http://techon.nikkeibp.co.jp/article/NEWS/20120222/205603/

マイクロプロセッサとキャッシュメモリを積層した3次元システムを実現するには、

- 熱をいかに逃がすか
- 積層間の電力供給
- 積層前の良品ダイの確保
- 3次元システム特有の回路や技術の開発

という4つの課題があり、今回の開発では、これらの技術の確立が目標とのこと。

通常の厚さのプロセッサチップに薄いメモリチップを積層する形で、TSVはメモリチップ側であるため、メモリチップを複数積層することが可能となっている。今回は3個までの積層を想定しているそうだ。プロセッサチップの裏側はヒートシンクに接触しており、C4バンプはメモリチップの裏側に付けられている。この形であれば、発熱量の多いプロセッサチップの冷却も可能ということであろう。

こちらの記事では動作周波数が2GHzではなく2.7GHzとなっており、最初の記事と矛盾するが、電圧とクロック周期の関係を表した図を見ると、最高値が2.7GHzであることは間違いなさそうだ。2GHzというのは、ある特定の条件の下での動作周波数なのかもしれない。




['12.02.23 追記]


Tezzaronの3次元実装技術。Georgia Tech. の例。

【ISSCC】3次元構成のメニーコア・プロセサが登場、64コア・チップとSRAMチップを積層
http://techon.nikkeibp.co.jp/article/NEWS/20120223/205710/

現在は、次世代システムとして、2個の128コア・プロセサ・チップ(SRAM内蔵)と3個のDRAMチップ(チップ当たりのメモリ容量64Mバイト)の計5チップを3次元積層したサブシステム「3D-MAPS V2」を開発中という。

['12.02.24 追記]

関連記事。図が多い。

 3D processor/memory mashups take center stage
http://www.theregister.co.uk/2012/02/24/3d_chips/

チップの電力を削減する5つ(+1)のやり方

How best to reduce power on future ICs
http://www.eetimes.com/electronics-news/4236645/How-to-reduce-power-on-future-ICs

- Embrace co-design
- Lower the operating voltage
- Scale performance
- Adopt 3-D/optical interconnect
- Try new materials
+ Smarter power management schemes

2012年2月16日木曜日

Internet enclosure

AppleとFacebookがInternetという開放耕地のエンクロージャを行っている。

アップルとFacebookの繁栄、そして「オープン」が廃れた理由
http://japan.cnet.com/sp/businesslife/35014114/

しかし、注目を集めているテクノロジー業界の2つの企業は、1つ大きな共通点を持っている。どちらも、テクノロジーの世界で古くから継承されているオープンエコシステムを拒絶し、囲い込みアプローチを取ったということだ。
この記事には書かれていないが、Googleだってエンクロージャを行っている。違いがあるとすれば、AppleとFacebookの壁は高くて外からは見えないけれど、Googleはガラス張りで外から見えるようになっていること。
現在、テクノロジー業界の一般的な期待は、ユーザーが独占的な閉じたシステムを不快に感じてうんざりすれば、振り子は再びオープンシステムの方に揺り戻ってくるだろうというものだ。
しかし、今のところその兆候は見られない。ますます大きくなるAppleとFacebookの成功は、依然として閉じたシステムが隆盛する流れにあるという証拠だ。
そういう意味では、「もしもしゲー」バブルも当分安泰ということかな。

囲い込みにより活躍の場を奪われたオープンソフトウェアプログラマは、次代の産業革命の礎となるのであろうか。 (ちょっと格好良いことを言おうとしてるだけで、特に意味のある発言ではありません :)

ARM の Skrymir と Tyr

GPUコアはbig.LITTLEとは異なるのではないかとの予想。

ARMの次世代GPU「Skrymir」と「Tyr」の謎
http://pc.watch.impress.co.jp/docs/column/kaigai/20120215_511949.html

確かにGPUでは、使わないユニットの電源を切ることで省電力化が可能なので、big.LITTLE的なアプローチはそれほど有効ではないと思われる。ハイエンドのGPUコアとローエンドのGPUコアを並行して開発するだけなのかも知れない。

後半は、POP (Processor Optimization Pack) のお話。後藤さんはソフトマクロのCPUコアの話として書いてるんだけど、図中にPOPと Osprey Hard Macro を組み合わせた記述があるので、CPUコアに限定された話ではないんじゃないかと思う。

というところで、ググってみた。

ARMとTSMC、20nmのCortex-A15 MPCoreをテープアウト
http://techon.nikkeibp.co.jp/article/NEWS/20111018/199474/
POPは特定のプロセスやプロセサ・コアに最適化したArtisan物理IPや、EDAツールの制約条件、設計上の留意点など、そのプロセサ・コアをハードウェアとして実装するために必要なデータを集めたものである。
特定のプロセスに最適化したメソドロジーを提供してくれるということらしい。

で、Osprey Hard Macro と POP physical IP を組み合わせて使うことも可能というわけだ。

2012年2月15日水曜日

ARM の Atlas と Apollo

ARMが次世代CPU「Atlas」と「Apollo」の計画を発表
http://pc.watch.impress.co.jp/docs/column/kaigai/20120214_511793.html

後藤さんは、big.LITTLE Processing 戦略を採ることで、ハイパフォーマンスコアが最低電力に気を配る必要がなくなり、設計をよりハイパフォーマンス側に振ることができると推測している。

ところで、Cortex-A15の最適化では、Cadenceが買収したAzuroの技術を投入することで、より低消費電力化することが可能になったそうだ。

2012年1月27日金曜日

エルピーダの次世代 ReRAM

エルピーダ、2013年に8Gbitの抵抗変化メモリを製品化へ
http://pc.watch.impress.co.jp/docs/column/semicon/20120126_507306.html

エルピーダの次世代ReRAMの構造は、DRAMのキャパシタ形成技術を生かした縦積み構造のRRAM素子を、やはり縦積みの3Dトランジスタの上に形成するというものだそうだ。

ところで、エルピーダはPCRAMの開発からは撤退してしまったようだ。
現在は相変化メモリの開発からは完全に撤退している

2012年1月20日金曜日

富士通とルネサスの3次元実装技術

はんだ使わずCuバンプ同士を低温で接合、
富士通研究所が3次元実装向けのチップ接続技術を参考出展
http://techon.nikkeibp.co.jp/article/NEWS/20120118/203716/

積層するチップ同士を接続する技術の展示。

Cuバンプを切削してできた平坦面同士を熱圧着することで接合する技術だそうだ。切削面は非晶質であるため、低温で再結晶化し、接合されるということだ。
マイクロプロセサとキャッシュ・メモリの積層接続などに利用できる。2018~2020年ころのハイエンド・コンピューティング用途に向ける。

とあるが、将来のスパコン用プロセッサなどに使おうとしているということだろうか。

ルネサス、Wide I/O DRAMに対応したモバイルSoC向けTSV技術を2013年に量産化
http://techon.nikkeibp.co.jp/article/NEWS/20120118/203715/

こちらは、モバイルSoC向けTSV技術の展示。
Wide I/O DRAMは(中略)1200端子のマイクロバンプを介してSoCの背面に積層接続されるため、SoC側にはTSVが必要となる。
ロジック側に穴を開けるわけか。
TSVを導入すると、SoCの回路レイアウトを変更しなくてはならないため、現在はTSVに合わせてレイアウト変更を施したIPを、TEGによって検証しているという。
TSVが周囲に与える影響みたいなものは、どうやって評価するのだろう。
なお、ルネサス エレクトロニクスでは先端SoCの製造を外部のSiファウンドリーに委託する方針であり、TSVの製造もSiファウンドリーに委託する考えである。
ルネサスは一部を除きTSMCに委託するはずだが、これもTSMCなのだろうか。

2012年1月18日水曜日

不確定性原理は間違っていた?

分かっていると思われる人の解説。

小澤の不等式,実験的に検証される
http://slashdot.jp/~phason/journal/545225

「後者の二項を大きくする」のをどうやって実現しているのかは、ちょっと分からない。

そして、スラドのストーリーでのコメント。

http://science.slashdot.jp/comments.pl?sid=557437&cid=2081491http://science.slashdot.jp/comments.pl?sid=557437&cid=2081497http://science.slashdot.jp/comments.pl?sid=557437&cid=2081745

観測問題が解決するわけではない、と。

以下のコメントも分かりやすい。

http://science.slashdot.jp/comments.pl?sid=557437&cid=2081507

# phasonさんって何者なんだろう…

2012年1月17日火曜日

三菱重工の3次元LSI用常温ウェハー接合装置

【ネプコン・プレビュー】三菱重工が300mm対応の3次元LSI用常温ウエハー接合装置を開発
http://techon.nikkeibp.co.jp/article/NEWS/20120116/203643/
常温ウエハー接合とは、真空中でイオン・ビームや中性原子ビームを半導体のウエハー表面に照射することによって接合面を活性化し、従来は加熱して接合していたウエハーを室温で接合する技術。
加熱する必要がないため、熱膨張による歪の発生や加工精度の悪化が抑えられるだけでなく、ウェハー同士を直接接合できるため、半田や接着剤も不要のようだ。

2012年1月5日木曜日

NEC の次世代スパコン


世界一よりも世界のトップクラスを――次世代スパコンの開発を始動するNECの狙い
http://www.itmedia.co.jp/enterprise/articles/1201/03/news001.html

「次世代機の開発ではTOP500を意識してはいない」ということで、LINPACKは捨てるということのようだ。

この記事について、似鳥先生。(Togetterもどき)


http://twitter.com/#!/k_nitadori/status/154745342171164672
アムダールの法則の典型的な誤用といえましょう。数式と数字を一人歩きさせるとこうなる。
http://twitter.com/#!/k_nitadori/status/154745855092592640
個々のCPUが強力な方が便利というのは間違いない。でも個々のCPUでもきっちりベクトル化できてないといけないわけでして、、、
http://twitter.com/#!/k_nitadori/status/154746176313376768
今の数字なら全部スカラーでおk「演算性能を優先するものはスカラーで、メモリ性能を優先するものはベクトル型でというように、効率的に計算ができるようになります。」
http://twitter.com/#!/k_nitadori/status/154746384531210240
だから全部(ry「演例えば、データの初期処理はスカラー型で行い、ベクターで計算して、その結果の検証は再びスカラーで行うといった連携型のワークフローが可能になります。運用形態もユーザーの必要に応じて変更できるようになります」
http://twitter.com/#!/k_nitadori/status/154746744977104897
あこれならありうる。「例えば、データの初期処理はx86で行い、京で計算して、その結果の検証は再びx86で行うといった連携型のワークフローが可能になります。運用形態もユーザーの必要に応じて変更できるようになります」
http://twitter.com/#!/k_nitadori/status/154759397980127232
スケーラビリティを制限しているのは0.1%の逐次処理部だ、というのがほとんど事実誤認で、というかその理屈では到底ベクトルを正当化できない。ベクトル機のデザインとしてスカラ部にもベクトル部の1割ぐらいの性能は持たせましょう、というのなら間違いではないのだけど。
逐次処理部を速くするには、ベクトル型CPUではなく、速いスカラ型CPUを使うべきってことでしょうか?

2012年1月1日日曜日

謹賀新年

あけましておめでとうございます。今年もよろしくお願いいたします。