时政
财经
科技
虚拟货币
其他
登录
#Qwen3-0.6B
关注
karminski-牙医
3周前
看到个不错的项目,一个从0实现的推理引擎,专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:
#Qwen3-0.6B
#推理引擎
#3050-8GB
#llama.cpp
#大模型推理
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞