测试flashinfer是否正确编译安装

字号+ 编辑: 种花家 修订: 种花家 来源: 网络转载 2025-04-05 我要说两句(0)

一个简单的编译flashinfer后检查该工具是否正常安装的脚本,留作记录。

先写个python脚本, test.py, 保存后运行, 或者直接在命令行里输入python回车后粘贴运行下方代码:

import torch
import flashinfer
 
kv_len = 2048
num_kv_heads = 32
head_dim = 128
k = torch.randn(kv_len, num_kv_heads, head_dim).half().to('cuda')
v = torch.randn(kv_len, num_kv_heads, head_dim).half().to('cuda')
 
# CUDA Decoding for single request
q = torch.randn(num_kv_heads, head_dim).half().to('cuda')
o = flashinfer.single_decode_with_kv_cache(q, k, v)
print("FlashInfer seems ok.")

如果报运行脚本时TORCH_CUDA_ARCH_LIST变量找不到, 那是因为你编译的时候没限定用了哪些CUDA计算能力, 不指定CUDA架构号(CUDA计算能力/cuda compute capability)会让编译后的二进制包很大, 想减少二进制包大小, 见传送门 https://www.wkwkk.com/articles/4c51566535e88f71.html

阅完此文,您的感想如何?
  • 有用

    1

  • 没用

    0

  • 开心

    0

  • 愤怒

    0

  • 可怜

    0

1.如文章侵犯了您的版权,请发邮件通知本站,该文章将在24小时内删除;
2.本站标注原创的文章,转发时烦请注明来源;
3.Q群: 2702237 13835667

相关课文
  • 通过i参数使用国内镜像给pip安装提速

  • Conda删除不用的虚拟环境

  • flask框架知识点总结

  • linux - centos 7.x安装python3.10教程

我要说说
网上嘉宾点评