G5 like functions in OpenCL

Phantom-GRAPE: Numerical Software Library to Accelerate Collisionless N-body Simulation with SIMD Instruction Set on x86 Architecture by Tanikawa, Yoshikawa, Nitadori & Okamoto

AVX命令を利用して、高速にGRAPE-5相当の重力相互作用計算を行う手法についての論文が投稿された。我々のグループでも、2011年の卒業研究(鈴木裕太さん)で、OpenCLによる重力相互作用計算をテーマとして、以下のような結果が得られている。

AMDのGPUでは、最新のOpenCL実装であればILと同程度の性能を得ることができる
この時、一番高速になるのはfloat4を使ったベクトル化バージョンである
Core i7 2600Kにおいては、AMDのSDKではfloat4を使ったベクトル化バージョンが速く、IntelのSDKでは明示的なベクトル化にはあまり効果がなく、ベクトル化せずとも同等の速度
Core i7 2600Kでの性能は最大2.1 G interactions/sec (2.1e9)

この卒業論文の結果の一部は天文学会発表のスライドで流用している。 float4を使ったベクトル化バージョン(鈴木バージョンを中里がアップデート)は、以下のようなものになる(gist)。

#define READONLY_P const * restrict __kernel void grav1( __global float4 READONLY_P x, __global float4 READONLY_P y, __global float4 READONLY_P z, __global float4 READONLY_P m, __global float4 *ax, __global float4 *ay, __global float4 *az, __global float4 *pt, const int n, const float eps2 ) { unsigned int g_xid = get_global_id(0); unsigned int g_yid = get_global_id(1); unsigned int g_w = get_global_size(0); unsigned int gid = g_yid*g_w + g_xid; unsigned int i = gid; float4 xi = x[i]; float4 yi = y[i]; float4 zi = z[i]; float4 e2 = (float4)(eps2); float4 a_x = (float4)(0.0f); float4 a_y = (float4)(0.0f); float4 a_z = (float4)(0.0f); float4 p_t = (float4)(0.0f); for(unsigned int j = 0; j < n/4; j++) { float4 xj = x[j]; float4 yj = y[j]; float4 zj = z[j]; float4 mj = m[j]; for(unsigned int k = 0; k < 4; k++) { float4 dx, dy, dz; dx = xj - xi; dy = yj - yi; dz = zj - zi; float4 r2 = dx*dx + dy*dy + dz*dz + e2; float4 r1i = native_rsqrt(r2); float4 r2i = r1i*r1i; float4 r1im = mj*r1i; float4 r3im = r1im*r2i; a_x += dx*r3im; a_y += dy*r3im; a_z += dz*r3im; p_t += -r1im; uint4 mask = (uint4)(3, 0, 1, 2); xj = shuffle(xj, mask); yj = shuffle(yj, mask); zj = shuffle(zj, mask); mj = shuffle(mj, mask); } } ax[i] = a_x; ay[i] = a_y; az[i] = a_z; pt[i] = p_t; }

コードを見るとわかるように、これはI粒子4個 x J粒子4個でループアンローリングするコードに相当する。 AMDのVLIW5やVLIW4のGPUでは、この方法が一番速いと思われる。このコードでは共有メモリは使っていない。1行がそのためのおまじないである。今はいらないかもしれない。

このカーネルで、改めてベンチマークを取ってみた。 Plummer sphereを適当なステップ数だけ積分して、一秒あたりの相互作用の演算回数を計測した。

GPUのほうはまだ性能がサチってはいない。 CPUは、できるだけ谷川(2012)と同じ条件で計測してみたが、我々の環境ではHTはonになっている。結果、AMDのSDKを使った場合約 4 Gint/secくらいになり、Intel SDKを使った場合約 2 Gint/secくらいになった。谷川(2012)と比べるとほぼ2分の1の性能である。上に示したような単純なコードで、inline assemnlyを使ったものと比べてこれくらいの性能がでるのなら、案外いいともいえるし、OpenCLってやっぱり微妙だよねともいえる。

谷川(2012)との違いは、彼らのコードはI粒子 4 個 x J粒子 2 個で計算をしていて、かつ、I粒子をOpenCLでいうところのfloat8変数にいれて、明示的にAVX命令を使うようにしていることである。こうすると、上のOpenCLコードでの”shuffle”の部分がいらない。実際に上のコードから生成されるx86_64のアセンブリコードを見てみると、”shuffle”の部分に結構な手間がかかっている。 AMDのVLIW5やVLIW4のGPUでは、VLIWなのでこのようなシャッフル(正確には水平方向のシフト)は、読み出しレジスタのポートを変更するだけであり、特にオーバーヘッドがない。しかし、SSEやAVX命令には、水平方向のシフトを効率よくおこなうための命令がない(ようだ)。

谷川(2012)と同じようなコードをOpenCLで書くことは難しくない。ので、やってみたのが以下の結果。

“v4v2”というのが下に貼り付けた(gist)のコードによる結果である。 AMDのSDKでは、このコードは非常に遅いので、結果を載せていない。 “hint 8”とある線は、ベクトル化のヒントを与えた場合である。詳しくは省略。

結果として、谷川(2012)と同じような実装にすると性能は大きく向上した。具体的にはもともと最大で約 2 Gint/secだったのが、最大で約 5.6 Gint/secになった。それでも、まだ彼らの結果(約 8 Gint/sec)には及んでいない。これ以上は命令を並び替えるなどして、レジスタの利用を最小限とするような最適化が必要だろう。なおIntelのSDKでは、自動ベクトル化をするため、それが悪影響を及ぼしている可能性がある。これは生成されたアセンブリを見ればわかるはず。というのは宿題にする。また、他のアーキテクチャのCPU (AVXをサポートしているBulldozerや、あるいはAMDのAPUやCellBE)ではどうなるかなど、試すべきことは色々ある。これもそのうちの宿題。

最後に、谷川(2012)と決定的に違うのは、Nに対する立ち上がりのゆるさ。ここが今の結果では致命的に遅い。本当はもっと速くてもいいはずであるが。。でも、数時間でちょいちょいとやった割には、結構よい性能じゃないですか？

追記：AMDのSDKの最新バージョンでも試してみた。全体的に性能が上がり、立ち上がりの問題も消えている。

__kernel void grav3( __global float4 READONLY_P x, __global float4 READONLY_P y, __global float4 READONLY_P z, __global float4 READONLY_P m, __global float4 *ax, __global float4 *ay, __global float4 *az, __global float4 *pt, const int n, const float eps2 ) { unsigned int g_xid = get_global_id(0); unsigned int g_yid = get_global_id(1); unsigned int g_w = get_global_size(0); unsigned int gid = g_yid*g_w + g_xid; unsigned int i = gid; float8 xi = (float8)(x[i], x[i]); float8 yi = (float8)(y[i], y[i]); float8 zi = (float8)(z[i], z[i]); float8 e2 = (float8)(eps2); float8 a_x = (float8)(0.0f); float8 a_y = (float8)(0.0f); float8 a_z = (float8)(0.0f); float8 p_t = (float8)(0.0f); for(unsigned int j = 0; j < n/4; j++) { float4 xxj = x[j]; float4 yyj = y[j]; float4 zzj = z[j]; float4 mmj = m[j]; { float8 xj = (float8)(xxj.x, xxj.x, xxj.x, xxj.x, xxj.y, xxj.y, xxj.y, xxj.y); float8 yj = (float8)(yyj.x, yyj.x, yyj.x, yyj.x, yyj.y, yyj.y, yyj.y, yyj.y); float8 zj = (float8)(zzj.x, zzj.x, zzj.x, zzj.x, zzj.y, zzj.y, zzj.y, zzj.y); float8 mj = (float8)(mmj.x, mmj.x, mmj.x, mmj.x, mmj.y, mmj.y, mmj.y, mmj.y); float8 dx, dy, dz; dx = xj - xi; dy = yj - yi; dz = zj - zi; float8 r2 = dx*dx + dy*dy + dz*dz + e2; float8 r1i = native_rsqrt(r2); float8 r2i = r1i*r1i; float8 r1im = mj*r1i; float8 r3im = r1im*r2i; a_x += dx*r3im; a_y += dy*r3im; a_z += dz*r3im; p_t += -r1im; } { float8 xj = (float8)(xxj.z, xxj.z, xxj.z, xxj.z, xxj.w, xxj.w, xxj.w, xxj.w); float8 yj = (float8)(yyj.z, yyj.z, yyj.z, yyj.z, yyj.w, yyj.w, yyj.w, yyj.w); float8 zj = (float8)(zzj.z, zzj.z, zzj.z, zzj.z, zzj.w, zzj.w, zzj.w, zzj.w); float8 mj = (float8)(mmj.z, mmj.z, mmj.z, mmj.z, mmj.w, mmj.w, mmj.w, mmj.w); float8 dx, dy, dz; dx = xj - xi; dy = yj - yi; dz = zj - zi; float8 r2 = dx*dx + dy*dy + dz*dz + e2; float8 r1i = native_rsqrt(r2); float8 r2i = r1i*r1i; float8 r1im = mj*r1i; float8 r3im = r1im*r2i; a_x += dx*r3im; a_y += dy*r3im; a_z += dz*r3im; p_t += -r1im; } } ax[i] = a_x.s0 + a_x.s4; ay[i] = a_y.s0 + a_y.s4; az[i] = a_z.s0 + a_z.s4; pt[i] = p_t.s0 + p_t.s4; }