karminski-牙医 0 关注者 关注 3周前 看到个不错的项目,一个从0实现的推理引擎,专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo: #Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理 前往原网页查看