Barret李靖
3个月前
Andrej Karpathy 将软件发展分为三个阶段,Software 1.0,是通过编写计算机代码来解决问题,标志性产物是 Github;Software 2.0,神经网络扮演了重要角色,编程工作变成了训练和调参,通过调试不同的数据集,来修改神经网络每一层、每个节点的权重,标志性产物是 Hugging Face;而 Software 3.0 最本质的变化是,神经网络变得“可编程”了,且编程语言不再是传统代码,而是提示词,你可以通过自然语言跟大模型交互来找到问题解。 从写代码,到训模型,再到写提示词,软件的本质始终是:寻找让机器解决问题的最优表达方式。 再去看编程范式的变化,在神经网络出现之前,软件属于“确定性编程范式”,if A then B else C,逻辑规规矩矩,一条逻辑解决一个明确问题;而到了 LLM 时代,演进成了“概率性编程范式”,软件输出结果由权重叠加完成,可能性变多了,能解决的问题也更多、更大、更复杂,因此未来大量的长尾需求也会得到好的满足。 回到人机交互这个命题,问题也随之而来,代码过于精确(输入高成本),而自然语言过于模糊(输出低质量)。要做好人机交互,需要有一层规约(Specification),把事情有条理地讲清楚。事实上,我们日常的需求拆解、需求澄清,其实就是在“写 spec”,它的价值不在于文档本身,而在于帮助人类和机器对齐意图。这也是为什么越来越多的 AI 编程工具(如 Kiro Spec、Trae Solo)本质上都在探索新的 spec 模式。 可以预见,当机器拥有更强的“自主意识”、能够解决更复杂的问题后,未来的人机协同、机机协同也会变得频繁,要解决“人-机-机”三方协同问题,软件工程的核心势必会转向定义规则、目标与价值观上。对工程师来说,或许就是,从编码切换到写规则。
宝玉
3个月前
#AI开源项目推荐:VisualStoryWriting 可视化故事创作:让你笔尖起舞,文思泉涌 想象一下,在你写作的同时,你笔下的世界就活生生地展现在眼前——时间线、世界地图、人物关系图……这一切都会被自动可视化。 更神奇的是,你对这些视觉元素的任何修改,都会立刻同步到你的故事文本中(比如,在地图上拖动一个角色,他在文中的位置也随之改变)。 这就是我们将要在 UIST2025 大会上分享的论文精髓。 我们开发了一款智能文字处理器,它能自动生成三种可视化视图:人物关系图、故事地图和场景时间线。这些视图能清晰地展示角色间的互动、他们在世界各地的足迹,以及故事场景的先后顺序,极大地帮助作者审阅和编辑自己的作品。 审视角色的移动轨迹,从此变成了一项直观的视觉任务。想改变一个角色在某个场景中的位置?太简单了,直接在地图上把他从一个地方拖到另一个地方就行。 调整故事场景的顺序,也只需要在时间轴上拖拽几下,就像整理幻灯片一样轻松。 想要创造一个新角色,或是让他们之间产生新的互动?同样简单,在关系图里新建一个节点,再连上一条线就搞定了。 我们邀请了经验丰富和初出茅庐的创作者们进行了两轮用户研究。结果发现,这些自动生成的可视化图表,能有效地帮助参与者规划故事的宏观修改、追踪故事元素,并探索情节的多种可能性,极大地激发了他们的创造力。 当然,能够帮助作者的可视化方式还有很多。因此,我们提出了一个设计框架,希望能启发未来更多样的可视化故事创作工具的设计。 我们的工作为未来的写作辅助工具奠定了基础——它不再仅仅依赖文字,更能借助视觉的
AI正在一场智能革命,这也伴随着一场巨大的财富机会。 那么普通人如何抓住呢?这也是我一直在思考的问题。 最近一直有一种感觉,AI的技术更新实在太快,很快会出先的概念,比如GPTS、AI Agents、MCP、vide coding。而自己只是一个跟随者,一有新东西就去学习,看看有没有什么机会?但是实际下来,一是感觉一直这样会很累,二是其实是迷茫,因为不知道哪个会未来? 因为很多一年前的概念,当时号称炸裂、逆天,现在已经完全out了。 所以,应该跳出这个跟随的节奏,静下心来思考,未来AI的革命,底层的逻辑是什么? 我的答案(可能还不成熟),就是将稀缺能力规模化。 之前的工业革命,分别进行了将生产能力规模化、将物质传输规模化,以及将信息传递规模化。 而稀缺能力,成为很多人想要的内容。比如一名老医生、专业律师、高级工程师。这些在现在的社会都是稀缺资源。 这些其实也都是有钱人的特权,富人就能拥有专家级的医生给出健康建议,可以请到好律师为保障自己的法律权利等等。 而AI时代,会可能全部都变了。打造特定领域的专业的AI, 可以让大部分人获得专家的服务。 就比如现在的vide coding,本质上就是让普通人都拥有了一个专业的编程团队,完成了自己的想法。而未来可能有更多这方面的应用会冒出来。