ignore please: NVIDIA の Fermi

NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表

倍精度演算を単精度×2で実現するとか、全てのメモリ階層にECCを付加するとか、汎用コンピューティング向けの拡張がちらほら。

トランジスタ数が 3 billion てことで、もの凄く大きなチップになりそう。それでも、GRAPE-DRよりは安くなりそうってんで、牧野先生が愚痴りたくなるのも仕方がないか。

以下の記事にはダイ写真も。

【GTCレポート】NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開

['09.10.03 追記]

安藤さん。

最近の話題 2009年10月3日

浮動小数点演算がIEEE754-2008に精度を含めて完全準拠
各CUDA Coreで倍精度浮動小数点のFused Multiply Addが実行可能に
汎用CPUと同様の読み書きができるキャッシュを搭載
各Coreは64KBのメモリを持ち、そのうちの16KB、あるいは48KBを１次キャッシュとして、残りをシェアードメモリとして使用可能
全Core共通の768KBの2次キャッシュを搭載
レジスタファイルから1次、2次キャッシュ、そしてメモリまでSECDEDのECCをサポート

ということで、

今回のFermiは科学技術計算用として，まともに設計したGPUとなっています。

とのこと。

で、早速 Oak Ridge National Laboratories (ORNL) が Fermi を使ったスパコンを作ると発表したそうで。

Oak Ridge National Laboratory Looks to NVIDIA “Fermi” Architecture For New Supercomputer

CPUとGPUの統合が、いよいよ現実味を帯びてきた昨今、NVIDIAも生き残りに必死といった感じか。

['09.10.07 追記]

笠原さん。

次世代GPUアーキテクチャ「Fermi」の内部構造に迫る

もう一つ、関連記事。

NVIDIA社がGPUアーキテクチャを一新，次世代版「Fermi」を発表，

GPUで初の本格的キャッシュ機構を搭載

この64Kバイトのスクラッチ・パッドは非常にユニークな構成を採用している。具体的には64Kバイトの容量を2分割し，L1キャッシュおよびローカルなスクラッチ・パッド・メモリのそれぞれに割り当てることができる。構成は，（A）48KバイトのL1キャッシュ＋16Kバイトのスクラッチ・パッド，（B）16KバイトのL1キャッシュ＋48Kバイトのスクラッチ・パッド，の2種類から選択できる。
こうしたスクラッチ・パッドを分割する仕組みは，あの「ヘネパタ本」で有名なDavid Patterson氏（University of California Berkeley）らが「Virtual Local Store」として研究しているようで，NVIDIA社のFermiのサイトにもPatterson氏による同アーキテクチャの講評が掲載されている。

へぇ。

ignore please

2009年10月2日金曜日

NVIDIA の Fermi

0 件のコメント:

コメントを投稿