时政
财经
科技
虚拟货币
其他
登录
#AI评估
关注
howie.serious
1个月前
karpathy 的“LLM 议会”,把全人工流程的“llm 专家团”/“llm 三人行”提升了一个高度! - 先是 n 个llm 独自答题; - 然后分别peer review,每个人给所有人打分; - 最后由“议会主席”(gemini 3.0 pro)总结发言。 在我以前的实践中,第二第三步是自己人脑执行的。和kaparthy 这种全自动化的方式还是有差异。 例如,我自己的判断是gemini 3.0 pro 的回答更好(依据是作为思想实验的启发性)。而ai 的判断是 gpt-5.1 更好(更多聚焦于问题本身)。 karpathy vide coding 出来的这个 app 很好,只要配置一个 openrouter key 就可以立刻跑起来。 期待的更新:分享功能。 不足:太费钱了。这几个llm 会员我都有啊,完全可以有一个chrome extension,用会员的额度来做这件事,而不要单独用 api 烧钱🤣 (独立开发者们?)
#LLM议会
#Karpathy
#Gemini 3.0 Pro
#GPT-5.1
#AI评估
分享
评论 0
0
indigo
10个月前
未来的软件工程师将从“写代码”转变到“管理/审阅 AI”,成为想法与需求的提出者。20VC 最新一期播客采访了 Anthropic CPO Mike Krieger,对谈中 Mike 预测差不多一年后,工程师的工作将是你教给 AI 一项任务,当你回头来看时,AI 会告诉你它已经评估了它实现的三种方法,并让不同的 Agent 在浏览器中试用过了,这个效果最好;还让另一个做漏洞测试的 Agent 运行了一下,一切看起来都很好 。。。你只需要 Review 一下关键代码,确保它符合要求。 AI 能在编写与调试中处理绝大多数流程,工程师更多需要进行架构设计、需求理解、代码审阅和质量把控,针对安全性、性能或风格做指导。 对谈中还有一点印象很深刻,Mike 拿当年在 Instagram 的工作做了类比,他们考虑产品的三点:形态、用户与 Vibe(氛围感)。现在大模型看上去很趋同,但因为各自训练数据品味的区别,在“微观体验”和“特定功能”上会越来越不同,氛围感也因此而凸显。模型要留住用户,需要用这这种懂你的 Vibe来和用户形成长期的“AI 伙伴”关系,这样用户就不会随意替换。 在我用过的所有模型之中,Anthropic 的 Claude 氛围感很到位✨
#未来软件工程师
#AI管理
#20VC播客
#Mike Krieger
#技术变革
#AI评估
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞