不懂硬件,只知道在mutli-core上需要使process独立才能发挥最好的性能
所有跟贴
·
加跟贴
·
新语丝读书论坛
送交者: conner 于 2009-03-18, 19:26:44:
回答:
主要问题
由 竹间棋 于 2009-03-18, 19:04:18:
引用:
和CPU不同,线程在GPU上的执行并不是相互独立的。通常GPU上线程被分成若干组,每组的线程必须进行完全一样的操作。那么在算法上,就导致了如果出现分支结构,性能就会出现很大的降低。从根本上讲,这种硬件结构要求除非万不得已,不要出现算法上的分支和其他的需要进行流控制的情况发生。
你的这个线程是指什么?
所有跟贴:
not true, multicore runs multithreads not multi-processes. (无内容)
-
steven
(0 bytes)
2009-03-18, 19:35:27
(307478)
你的意思是cores共享一些cache?我说的程序和操作系统上的概念 (无内容)
-
conner
(0 bytes)
2009-03-18, 19:43:01
(307479)
我是这么理解的:
-
竹间棋
(257 bytes)
2009-03-18, 19:50:58
(307483)
你可以理解成一个核或者流处理器的一个任务
-
竹间棋
(85 bytes)
2009-03-18, 19:32:57
(307477)
不懂GPU。查了下wiki的CUDA条,里面说到些跟你说的比较接近的事
-
投影
(454 bytes)
2009-03-19, 00:03:06
(307566)
这个分支的粒度要多大呢?处理器命令级别的? (无内容)
-
conner
(0 bytes)
2009-03-18, 19:46:30
(307480)
最终是。现在的开发环境基本是 c /C++的
-
竹间棋
(35 bytes)
2009-03-18, 19:54:28
(307484)
听上去这又像早年要了解GPU内部构造,用汇编语言搞手工优化。 (无内容)
-
爱人同志
(0 bytes)
2009-03-18, 22:08:55
(307516)
你的这个分支可不可以先map出来然后再reduce回去? (无内容)
-
conner
(0 bytes)
2009-03-18, 20:15:23
(307492)
问题:
-
竹间棋
(104 bytes)
2009-03-18, 20:09:43
(307489)
最简单的例子,就是分段函数的计算
-
竹间棋
(20 bytes)
2009-03-18, 19:59:14
(307485)
加跟贴
笔名:
密码:
注册笔名请按这里
标题:
内容: (
BBCode使用说明
)