karminski-牙医

karminski-牙医

0 关注者

2个月前

看到个不错的项目,一个从0实现的推理引擎,专门面向 Qwen3-0.6B 设计, 在3050-8GB 上能跑到 116.15 token/s 比llama.cpp 还快. 想学习大模型推理引擎原理的同学可以参考这个项目 repo:

#Qwen3-0.6B #推理引擎 #3050-8GB #llama.cpp #大模型推理

相关新闻

placeholder

AIGCLINK

3周前

阿里刚刚发了一个智能简历解析系统:SmartResume,直接把PDF/图片/Office文档简历变成结构化数据 HR部门的手动录入工作可以直接秒级完成了 系统融合了OCR与PDF元数据完成文本提取,结合版面检测重建阅读顺序,通过LLM将内容转换为结构化字段 能够提取基本信息、工作经历、教育背景等结构化信息 模型用的微调版Qwen3-0.6B,版面检测模型用的YOLOv10 可API及本

placeholder

守晨💤

1个月前

才发现termux官方仓库已经上架了llama.cpp的vulkan后端,不需要编译可以直接用,顺手整理了篇在手机上用vulkan加速推理llm的教程参考

© 2025 news.news. All rights reserved. 0.10557 秒. v1.0.46
我的评论