#llama.cpp

4小时前

才发现termux官方仓库已经上架了llama.cpp的vulkan后端，不需要编译可以直接用，顺手整理了篇在手机上用vulkan加速推理llm的教程参考

#termux #llama.cpp #vulkan #LLM #手机

karminski-牙医

3周前

看到个不错的项目，一个从0实现的推理引擎，专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:

#Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理