对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
愿平安!!! 6月17日全县范围内就已经“五停”了。 ...
" 先问是不是 再问为什么"是不是已经不流行了? 在我看来 ...
我个人是用的阿里云做的内网穿透,阿里云有个峰值带宽200M不...
没有。 实际上核弹打击现代城市,特别是国内城市的效果非常差...
2025.6.16 更新: 随手写的答案破百赞了。 如果有条...
辟个谣,锦鲤容易死,必须打氧,停电就死。 还有那些原生鱼如溪...