Orange AI
2个月前
AK 写了一篇播客回顾 2025 年的 AI 发展,它评价 nano banana 是 2025 年最具革命性的模型。 它的意义不止是个卓越的绘图模型,而是一种以图像为媒介的沟通方式。 🍌是图像版的 LLM。 未来还会有的视频版的 LLM。它会是什么? 🍅🥔🌶🍋? AK 原文的翻译: Google Gemini Nano Banana 是 2025 年最令人惊叹、具有范式转移意义的模型之一。 在我的世界观里,大语言模型(LLM)是继 20 世纪 70、80 年代个人电脑之后的又一个重大计算范式。因此,基于本质上相似的逻辑,我们将会见证类似的创新浪潮: 我们将看到个人计算的重生、看到微控制器的等价物(认知核心)、看到互联网的进化(智能体网络)等等。 特别是在用户界面与体验(UI/UX)方面,目前与 LLM 的“对话”模式,其实有点像 80 年代向计算机控制台输入命令行。 文本虽然是计算机(以及 LLM)最原始、最偏好的数据表现形式,但它并不是人类偏好的格式,尤其是在输入端。 事实上,人类并不喜欢阅读长篇累牍的文字——这既缓慢又费神。 相反,人类天生喜欢以视觉和空间的方式来摄取信息,这也是为什么传统计算领域会发明图形用户界面(GUI)。 同理,LLM 也应当以我们偏好的方式与我们交流 通过图像、信息图、幻灯片、白板、动画/视频以及 Web 应用等。 这种趋势的早期雏形当然就是表情符号(emoji)和 Markdown,它们通过标题、加粗、列表和表格等方式对文本进行“装饰”和排版,使其更易于阅读。 但究竟谁能真正构建出 LLM 时代的 GUI? 在这种视角下,Nano Banana 为我们展示了这种未来形态的初步端倪。 更重要的一点是,这种能力的显著之处不在于单纯的图像生成,而在于模型权重中将文本生成、图像生成和世界知识深度交织在一起所产生的“共生能力”。
Orange AI
2个月前
2025 年末,我在阳朔出差的时候,收到了知乎科技的年度盘点邀请。在我坐飞机从桂林回北京的时候,对着窗外的云层,我拿起 iPad 把我的2025年的创业故事记录了下来。 这一年过得太惊心动魄了。前三个季度,我们被传统世界的“慢”拖得几乎窒息,融资流程的繁琐、团队协作的内耗,让我一度看不到希望。后来我们决定孤注一掷,彻底拥抱 AI Native。 以前觉得不可能的事,现在变成了日常。用 AI Coding 让全员全栈,5分钟上线 Nano Banana 2 的新功能……当速度提上来的时候,焦虑反而消失了。 在知乎的「AI 中场时刻」里,我看到了子羽歌的万字长文。他说 AI 眼镜正在成为新的器官。从 Ray-Ban Meta 到国内的雷鸟、魅族,AI 找到了最好的容器。甚至豆包手机的出现,让系统级 Agent 开始接管我们的生活。软件变硬了,体验变实了。 我也看到了许华哲 Harry 对具身智能的回望。他提到的那个焦虑让我感同身受:我们是不是太忙着做量产、做应用,而错过了通用智能那个最大的“西瓜”? 中美在机器人赛道上的分野,软件在 Vibe Coding 下的狂奔,硬件在眼镜和手机上的博弈……这就是 2025 年的众生相。 大家都在这场风暴里,有人迷茫,有人狂奔,但都在用力地活着。 如果你也身处这个行业,或者对 AI 的未来感到好奇,推荐去知乎搜一下「AI 中场时刻」。那里没有宏大叙事的公关稿,只有我们这些从业者最真实的2025年。