利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。今天vibe coding 的成果之一：

#LLM #prefix特性 #小模型 #大模型 #首句延迟

相关新闻

Y11

11小时前

如果你也想深入了解<LLM-based planning agents>领域，推荐参考三篇研究：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》揭示了思维链提示如何激发模型推理；《HuggingGPT》展示了多模态工具协同的实践；《Understanding the planning of L

吕立青_JimmyLv (🐣, 🐣) 2𐃏25 | building bibigpt.co

13小时前

再尝试复刻 dont 哥的工作流， MCP 截图 tweet 👉 自动发小红书 round 1 chrome-devtools-mcp 果然失败了，很弱鸡😂 round 2 playwright mcp 也失败了，各自的 tools 很多 round 3 cursor 自带的 Browser 细节其实很多，比如 3:4 比例 + 仅保留内容主体翻看 dont 哥的 tweet 发现

karminski-牙医

16小时前

收手吧阿问，外面全是你家大模型了.... 📷 所以下周要发的是 Qwen3.1 系列还是 Qwen-Image 更新还是啥... #qwen

Y11

2天前

如果你还没注意到这个变化，那现在应该关注一下：计算的重心正在从预训练转向推理。我们发现，通过在测试时扩大计算资源的投入，效率提升非常显著，而且这种提升的空间似乎还很大。在人工智能领域，预训练阶段就像给模型打好基础，用海量数据让模型学会知识和规律。但真正让模型服务于实际问题的，是推理阶段——就像让学会了知识的人去解决具体问题。过去，大家可能更关注如何让预训练模型变得更大更强，比如用更

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2天前

预训练应该应该增加推理语料的多样性，然后SFT阶段使用一小套高质量数据监督微调，然后用奖励稳定下来。预训练阶段逼着LLM自己学习内化，然后用sft高质量数据强化，最后用reward策略优化固化。 ---- Paper – arxiv. org/abs/2510.03264 Paper Title: "Front-Loading Reasoning: The Synergy between

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。 今天vibe coding 的成果之一：

相关新闻

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。今天vibe coding 的成果之一：