#概率模型

1周前

大模型天生只输出“主流共识内容”，不会给你输出“非经典的创新内容”，所以最适合“跨领域基础知识对齐”，别让它给你直接搞一个某领域的“局部最优解方案”。根本原因就是，输入层的“训练语料”的数据源就是“幂律分布”的，主流内容占比非常高；输出层又是个概率模型，输出“下一个最可能出现的词”，导致更倾向于输出“主流共识内容”。如果问题的答案主要来自“公开语料中的稳定规律”，就适合LLM，比如通用知识问答，新闻解读等。如果问题的答案主要来自“私有反馈环中的局部试错”，就不能指望LLM直接给最优解，比如量化交易等等。

#大模型 #主流共识 #输入层 #幂律分布 #输出层 #概率模型 #稳定规律 #公开语料

1周前

人们总是说，未来 Token 会越来越不值钱，但我觉得人们仍然低估了 Token 性价比的意义。只要 LLM 模型的底层原理不变，它永远就是一个概率模型，人们围绕 LLM 的工作方式，永远是用各种工程化的技巧和手段，从无限可能的词元组合里压榨出最有价值的那部分。没有任何模型可以一次性给出银弹一样的结果，因此，通过循环不断萃取一定是常态，用时间和 Token 空间换质量也是常态。因此 LLM 真正的 ROI 是其目前 Token 价格的指数级叠加以后的成本 VS 收益。 Token 便宜和快速的价值会在人类想明白如何压榨 top1% 的价值的方法之后，被迅速放大。单次效果好，但是慢的模型，使用场景会被严重制约。 --- 我很少断言一些事儿，但这是我最近自认最有价值的思考结论和思考痕迹了。供大家参考和讨论。不知道值不值得录一期播客呢。

#token经济 #LLM模型 #概率模型 #工程化技巧 #挖掘价值 #模型限制

7个月前

agent无法在垂直行业落地，因为他是概率模型，都是可对可不对领域才可以用，需要精确的医疗金融法律等领域是没办法用的。这种观点你同意？

#agent #垂直行业 #概率模型 #医疗金融法律 #精确性要求