2009年10月2日金曜日

NVIDIA の Fermi


NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表


倍精度演算を単精度×2で実現するとか、全てのメモリ階層にECCを付加するとか、汎用コンピューティング向けの拡張がちらほら。

トランジスタ数が 3 billion てことで、もの凄く大きなチップになりそう。それでも、GRAPE-DRよりは安くなりそうってんで、牧野先生が愚痴りたくなるのも仕方がないか。

以下の記事にはダイ写真も。


【GTCレポート】NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開


['09.10.03 追記]


安藤さん。

最近の話題 2009年10月3日

  • 浮動小数点演算がIEEE754-2008に精度を含めて完全準拠 
  • 各CUDA Coreで倍精度浮動小数点のFused Multiply Addが実行可能に 
  • 汎用CPUと同様の読み書きができるキャッシュを搭載 
  • 各Coreは64KBのメモリを持ち、そのうちの16KB、あるいは48KBを1次キャッシュとして、残りをシェアードメモリとして使用可能 
  • 全Core共通の768KBの2次キャッシュを搭載 
  • レジスタファイルから1次、2次キャッシュ、そしてメモリまでSECDEDのECCをサポート

ということで、
今回のFermiは科学技術計算用として,まともに設計したGPUとなっています。
とのこと。

で、早速 Oak Ridge National Laboratories (ORNL) が Fermi を使ったスパコンを作ると発表したそうで。

Oak Ridge National Laboratory Looks to NVIDIA “Fermi” Architecture For New Supercomputer

CPUとGPUの統合が、いよいよ現実味を帯びてきた昨今、NVIDIAも生き残りに必死といった感じか。


['09.10.07 追記]


笠原さん。

次世代GPUアーキテクチャ「Fermi」の内部構造に迫る

もう一つ、関連記事。

この64Kバイトのスクラッチ・パッドは非常にユニークな構成を採用している。具体的には64Kバイトの容量を2分割し,L1キャッシュおよびローカルなスクラッチ・パッド・メモリのそれぞれに割り当てることができる。構成は,(A)48KバイトのL1キャッシュ+16Kバイトのスクラッチ・パッド,(B)16KバイトのL1キャッシュ+48Kバイトのスクラッチ・パッド,の2種類から選択できる。
こうしたスクラッチ・パッドを分割する仕組みは,あの「ヘネパタ本」で有名なDavid Patterson氏(University of California Berkeley)らが「Virtual Local Store」として研究しているようで,NVIDIA社のFermiのサイトにもPatterson氏による同アーキテクチャの講評が掲載されている。
へぇ。




0 件のコメント:

コメントを投稿