Skip to content

Instantly share code, notes, and snippets.

@yue82
Created September 24, 2017 07:28
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save yue82/9422393262e22241e5f2db8a13d43f7e to your computer and use it in GitHub Desktop.
Save yue82/9422393262e22241e5f2db8a13d43f7e to your computer and use it in GitHub Desktop.
FPGAエクストリーム・コンピューティング 第9回 2017.09.24 memo

NVIDIA TeslaV100 & CUDA9 アップデート

NVIDIA 村上さん

Tesla V100

  • Pascalシリーズの次がVolta
    • 性能は1.5倍
    • いま発表されてるのはTeslaのみ

形は両方出る

  • NV Link
    • 7.5 FP64 TFLOPS
    • 15 FP32 TFLOPS
  • PCI Ex
    • 7 FP64 TFLOPS
    • 14 FP32 TFLOPS
  • DC向けに低消費電力の推論特化型GPUなどもある

構成

  • 210億トランジスタ
  • 5120 CUDAコア
  • 640 Tensorコア

HBM2メモリアーキテクチャ

  • P100から1.5倍のバンド幅
  • 実測値も理論値により近づいている

性能比較(P100 vs V100)

  • トレーニング高速化 x12(とてもいい場合で)
  • 推論高速化 x6
  • L1 Cache x7.7

GV100 SM

  • 1 SMあたり
  • FP32 x64
  • FP64 x32
  • INT32 x64
  • Tensor コア x8

シェアードメモリとL1キャッシュ

  • Pascalでは別
    • シェアードメモリは低レイテンシ
    • L1キャッシュはストリーミングによい
  • Voltaでは統合
    • 物理的に同じ
    • ユーザが配分を設定できる
  • シェアードメモリをつかわなくても性能が出るようになってきている

マルチプロセススケジューリング

Pascalスケジューリング

  • タイムスライス
  • マルチプロセスサービス(MPS)
    • GPU内ではプロセスを束ねる Volta
  • MPS機能を強化

Tensorコア

  • 混合精度行列演算
    • PascalでFP16を推奨したが流行らなかった
    • 精度を下げないFP16化を図る
    • アキュムレータのみFP32を使う
  • CUDA 9から読み出せるようになる

アップデート

  • CUDA 9.0
    • Volta対応
  • cuDNN 7
    • Volta対応
  • NCCL 2
    • GPUのマルチノード集合通信
    • 元OSS
    • 主要フレームワークのサポート

if文に弱いNIVIDIA

  • Voltaから変わる
  • プログラムカウンタの単位がWarp単位からスレッド単位へ

Amazon AWS F1インスタンスとその開発環境を試してみる

クラスメソッド(株) 高橋(@edy555)さん

AWS

F1インスタンス

  • Xilinx UltraScale Plus 16nm
  • FPGA毎に DDR4 4x16GB
  • CPUとの専用PCIe x16
  • FPGA Direct LinkでFPGAx8
  • 2M個以上のセル、6000以上のDSP
  • FPGAインスタンス: 1.65$/h~
  • 開発用インスタンス: ~1$/h

FPCA Developer AMI

  • Xilinxツールがあらかじめセットアップされたマシンイメージ
  • ライセンス費用不要(インスタンス料金のみ)
  • 基本的にはコマンドライン
  • GUIの場合はデスクトップ環境の追加が必要

AWS-FPGA HDK/SDK

  • F1インスタンス向けに必要なツールやコード
  • Githubで提供

HDK

  • shell
  • サンプル
    • CL(Custom Logic)
    • CL RTL
    • IPI(IP Integration)

SDK

  • linux kernel driver
    • edma(Elastic DMA)/xdma/xcldma
  • userspace
    • 管理コマンド群
    • ホスト用ライブラリ

SDAccel

  • ソフトウェア開発者に優しいFPGA環境
  • Xilinxのサンプルがインポートされる

ソフトウェアエンジニアのための高位合成エンジンsigboost

筑波大学 青木さん

プログラマブルな電子楽器 sigboost

Cycling'74 Max

  • コンピュータ上で電子楽器を作って演奏できるソフト
    • 最大同時発音数
    • レイテンシのズレ
    • 等に課題あり

sigboost

  • http://sigboost.audio/
  • 演奏をFPGA化
    • MAXで楽器をつくる
    • sigboost HlSでHDL化
    • SDカードに入れてzybo入りのボードにさして楽器とつなぐと演奏できる
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment