柒号客栈
首页
生活随笔
编程记录
游戏心得
蒜头山
动态
相册
关于
柒叁
累计撰写
10
篇文章
累计创建
5
个分类
累计收到
0
条评论
导航
首页
生活随笔
编程记录
游戏心得
蒜头山
动态
相册
关于
目录
标签
CUDA
最好的矩阵乘——CUTLASS核函数解读(1)
2024-03-21 18:00
441
2
72.1℃
编程记录
CUTLASS的api CUTLASS库是NVIDIA的开源库,能够通过调节各种参数逼近甚至超越传统cuBLAS库的矩阵乘性能,但是其C++风格式的源码晦涩难懂,通常需要联系多个类才能看懂源码,本文从CUTLASS的表层api入手,逐层递进,对最终的核函数进行解释分析。注意,本文看重的是大矩阵乘法最
弹