NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表
倍精度演算を単精度×2で実現するとか、全てのメモリ階層にECCを付加するとか、汎用コンピューティング向けの拡張がちらほら。
トランジスタ数が 3 billion てことで、もの凄く大きなチップになりそう。それでも、GRAPE-DRよりは安くなりそうってんで、牧野先生が愚痴りたくなるのも仕方がないか。
以下の記事にはダイ写真も。
【GTCレポート】NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開
['09.10.03 追記]
安藤さん。
最近の話題 2009年10月3日
- 浮動小数点演算がIEEE754-2008に精度を含めて完全準拠
- 各CUDA Coreで倍精度浮動小数点のFused Multiply Addが実行可能に
- 汎用CPUと同様の読み書きができるキャッシュを搭載
- 各Coreは64KBのメモリを持ち、そのうちの16KB、あるいは48KBを1次キャッシュとして、残りをシェアードメモリとして使用可能
- 全Core共通の768KBの2次キャッシュを搭載
- レジスタファイルから1次、2次キャッシュ、そしてメモリまでSECDEDのECCをサポート
ということで、
今回のFermiは科学技術計算用として,まともに設計したGPUとなっています。とのこと。
で、早速 Oak Ridge National Laboratories (ORNL) が Fermi を使ったスパコンを作ると発表したそうで。
Oak Ridge National Laboratory Looks to NVIDIA “Fermi” Architecture For New Supercomputer
CPUとGPUの統合が、いよいよ現実味を帯びてきた昨今、NVIDIAも生き残りに必死といった感じか。
['09.10.07 追記]
笠原さん。
次世代GPUアーキテクチャ「Fermi」の内部構造に迫る
もう一つ、関連記事。
この64Kバイトのスクラッチ・パッドは非常にユニークな構成を採用している。具体的には64Kバイトの容量を2分割し,L1キャッシュおよびローカルなスクラッチ・パッド・メモリのそれぞれに割り当てることができる。構成は,(A)48KバイトのL1キャッシュ+16Kバイトのスクラッチ・パッド,(B)16KバイトのL1キャッシュ+48Kバイトのスクラッチ・パッド,の2種類から選択できる。
こうしたスクラッチ・パッドを分割する仕組みは,あの「ヘネパタ本」で有名なDavid Patterson氏(University of California Berkeley)らが「Virtual Local Store」として研究しているようで,NVIDIA社のFermiのサイトにもPatterson氏による同アーキテクチャの講評が掲載されている。
へぇ。
0 件のコメント:
コメントを投稿