karminski-牙医

karminski-牙医

0 关注者

3周前

看到个不错的项目,一个从0实现的推理引擎,专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:

#Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理

相关新闻

placeholder

守晨💤

5小时前

才发现termux官方仓库已经上架了llama.cpp的vulkan后端,不需要编译可以直接用,顺手整理了篇在手机上用vulkan加速推理llm的教程参考

© 2025 news.news. All rights reserved. 0.06008 秒. v1.0.46
我的评论