CUTLASS的api CUTLASS库是NVIDIA的开源库,能够通过调节各种参数逼近甚至超越传统cuBLAS库的矩阵乘性能,但是其C++风格式的源码晦涩难懂,通常需要联系多个类才能看懂源码,本文从CUTLASS的表层api入手,逐层递进,对最终的核函数进行解释分析。注意,本文看重的是大矩阵乘法最