#AI评估

3个月前

karpathy 的“LLM 议会”，把全人工流程的“llm 专家团”/“llm 三人行”提升了一个高度！ - 先是 n 个llm 独自答题； - 然后分别peer review，每个人给所有人打分； - 最后由“议会主席”（gemini 3.0 pro）总结发言。在我以前的实践中，第二第三步是自己人脑执行的。和kaparthy 这种全自动化的方式还是有差异。例如，我自己的判断是gemini 3.0 pro 的回答更好（依据是作为思想实验的启发性）。而ai 的判断是 gpt-5.1 更好（更多聚焦于问题本身）。 karpathy vide coding 出来的这个 app 很好，只要配置一个 openrouter key 就可以立刻跑起来。期待的更新：分享功能。不足：太费钱了。这几个llm 会员我都有啊，完全可以有一个chrome extension，用会员的额度来做这件事，而不要单独用 api 烧钱🤣 （独立开发者们？）

#LLM议会 #Karpathy #Gemini 3.0 Pro #GPT-5.1 #AI评估

11个月前

未来的软件工程师将从“写代码”转变到“管理/审阅 AI”，成为想法与需求的提出者。20VC 最新一期播客采访了 Anthropic CPO Mike Krieger，对谈中 Mike 预测差不多一年后，工程师的工作将是你教给 AI 一项任务，当你回头来看时，AI 会告诉你它已经评估了它实现的三种方法，并让不同的 Agent 在浏览器中试用过了，这个效果最好；还让另一个做漏洞测试的 Agent 运行了一下，一切看起来都很好。。。你只需要 Review 一下关键代码，确保它符合要求。 AI 能在编写与调试中处理绝大多数流程，工程师更多需要进行架构设计、需求理解、代码审阅和质量把控，针对安全性、性能或风格做指导。对谈中还有一点印象很深刻，Mike 拿当年在 Instagram 的工作做了类比，他们考虑产品的三点：形态、用户与 Vibe（氛围感）。现在大模型看上去很趋同，但因为各自训练数据品味的区别，在“微观体验”和“特定功能”上会越来越不同，氛围感也因此而凸显。模型要留住用户，需要用这这种懂你的 Vibe来和用户形成长期的“AI 伙伴”关系，这样用户就不会随意替换。在我用过的所有模型之中，Anthropic 的 Claude 氛围感很到位✨

#未来软件工程师 #AI管理 #20VC播客 #Mike Krieger #技术变革 #AI评估