Ubuntu14.04にChainer1.19.0インストール

対象は、CUDA8.0 + cuDNN5.1 + GTX1050Tiです。
CUDAのインストールはこちらの記事を参考にして下さい。

まず、cuDNNをインストールします。
NVIDIAHPからDLできます。DLには登録と簡単な質問への回答が必要です。
Download cuDNN v5.1 (August 10, 2016), for CUDA 8.0 → cuDNN v5.1 Library for Linux
を選択します。なお、Ubuntu14.04向けのdebパッケージもありますが、/usr/local/cuda以下でなく/usr以下にインストールされるため、使用しません。

tar xvfz cudnn-8.0-linux-x64-v5.1.tgz
sudo mv cuda/include/* /usr/local/cuda-8.0/include/.
sudo mv cuda/lib64/* /usr/local/cuda-8.0/lib64/.

次に、chainerをインストールします。
この記事を参考にしたのですが、途中、何度もエラーが発生してやり直したため、以下の手順通りに実行して実現できる保証はまったくありません。orz

# 下準備
sudo apt-get install build-essential
sudo apt-get install python3-dev
sudo apt-get install python3-pip
sudo pip3 install --upgrade pip3
sudo apt-get install libhdf5-dev
sudo pip3 install h5py
# chainerのインストール
sudo CUDA_PATH=/usr/local/cuda-8.0 pip3 install chainer --no-cache-dir -v
# MNISTサンプルの取得
wget https://github.com/pfnet/chainer/archive/v1.19.0.tar.gz
tar xvfz v1.19.0.tar.gz
# GPUを利用したchainer実行
python3 chainer-1.19.0/examples/mnist/train_mnist.py -g 0

当方の環境での実行結果は以下の通りです。

GPU: 0
# unit: 1000
# Minibatch-size: 100
# epoch: 20

epoch       main/loss   validation/main/loss  main/accuracy  validation/main/accuracy  elapsed_time
1           0.190735    0.0940083             0.94245        0.9693                    2.15671       
2           0.0747346   0.0865228             0.976149       0.9732                    3.97802       
...
19          0.00876789  0.100427              0.99735        0.9825                    35.1507       
20          0.00851457  0.113583              0.997449       0.9797                    37.0101       

nvidia-smiの結果も以下の通り、GPUが働いているのがわかります。

Sun Jan  8 00:17:58 2017       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.20                 Driver Version: 375.20                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 105...  On   | 0000:01:00.0      On |                  N/A |
|  0%   35C    P0    44W /  75W |    513MiB /  4067MiB |     70%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 105...  On   | 0000:02:00.0     Off |                  N/A |
|  0%   21C    P8    35W /  75W |     11MiB /  4070MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
...

なお、CPUでの実行は非常に遅いです。1エポックが終了した段階で 346.974s経過。
Pascal最弱クラスのGTX1050Tiですが、CPU(i7-6700)より約170倍も高速という結果が得られました。