Jetson TK1多流并行执行



考虑到Tk1只有一个SM,是否真的可以同时运行流?我一直无法做到这一点,即使有最新版本的库达图书馆。

那么这真的有可能吗?任何示例代码都会很棒。cudaBlas下的示例代码也按顺序运行,如可视化探查器上所示。

还可以更好地了解"流"在单个SM中有什么好处?

[已经在nvidia开发论坛上被问到了,我认为论坛不是很活跃]

对于单个开普勒SM,不可能同时运行多个流。开普勒不支持先发制人。这与CUDA版本无关,而是与SM的能力有关。在GTC 2016上,Pascal讨论了一些与抢占有关的问题,但之前没有讨论过。

关于具有单个SM的流的实际使用,一些异步函数在流0和其他流之间的行为可能略有不同。因此,我假设异步memcopy和执行的某些角落情况可能会受益于具有单个SM的流,因为TK1设备查询读取到它具有具有1个复制引擎的并发复制和执行。(尽管零拷贝可能是TK1上更好的方法)。

最新更新