#Qwen3-0.6B

karminski-牙医

3周前

看到个不错的项目，一个从0实现的推理引擎，专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:

#Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理