2025-06-11 16:44:06
推荐个好东西:火山引擎的 PromptPilot。 之前看 Google 的提示词白皮书,有个点让我印象很深: 他们直接用 Google Doc 管理 prompt,写任务、版本、评估效果。 那时候我就在想,有没有人真把这事儿做成一套完整系统? 现在看到火山这套,有点意思了。 它不只是“帮你写好提示词”,而是把这事儿当作工程问题来解的。 最打动我的,是它在 prompt 优化这件事上做得极其系统,甚至有点狠。 ✅ 从任务出发构造 prompt(带结构、带变量、不是拍脑袋) ✅ 每一版 prompt 都挂着独立评测集 + 自动评分机制 ✅ 没有理想答案也能比对打分(GSB 模式) ✅ 每轮迭代都能 trace 效果,版本可控、可回溯 我们之前做客服对话调 prompt,最常见的就是“改了一句,但说不上来到底有没有变好”。 很多时候上线的版本其实就是“看着还行就先上”。 现在它是:“打一套样本集,系统直接帮你跑出哪一版效果稳定”。 我一直坚持: 模型越强,对 prompt 的要求只会更高。 尤其是在多轮任务、复杂场景里,prompt 不只是“写得好”,而是“是否可控、可管理、可进化”。 PromptPilot 解决的,是这个底层问题。 它不仅能让 prompt 生出来,更重要是——能持续改下去。 版本有 trace,样本能评分,逻辑能反推,工具还能外接, 整个就是“prompt 的 AutoML + GitOps” 一体化工具链。 顺带说一句:这是 2025 火山引擎 FORCE 大会上刚发布的产品,免费版和 Plus 版都开放,9 月前能直接上手全功能体验。 现在市面上很多 prompt 工具做的是“编辑器 + 改写器”, 但你会发现,真正上线之后需要的是一整套治理机制。 PromptPilot 是我目前看到国内第一个跑通这个闭环的, 不是 fancy 的界面,而是认真在解决 prompt 系统演化能力这个问题。 如果你也在做 AI 应用落地,推荐你认真研究一下。 要说缺点:自定义模型没找到海外模型,差评!
2025-06-11 16:44:06
2025-06-11 15:03:54
2025-02-07 18:06:16