“Threads should be run in groups of at least 32 for best performance”。
不知这个32 threads 是怎么到出来的。你说的流处理器每五
个一组。ATI有800 core 的。Nvidia有128,256,512,960 core 的,都是32的倍数。但有一个是240 core的。
几个thread一起执行,是和SIMD差不多的思路。但总的thread数大一点。
C语言的有些功能还不能用,还说“However, a single process must run spread across multiple disjoint memory spaces”。好像目前主要是用作专门的计算。