#多模态大模型话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

4个月前

刚刚2025百度世界大会，百度发布全球首个统一原生全模态大模型——文心5.0 所谓的原生全模态，就是解和生成文本，还能同时处理图像、视频、音频。我测试一下乌蝇哥的经典场面，做了个情感分析，感觉效果不错。目前，能做到原生多模态，国外就百度和 Openai，国内就百度百度一技术储备一直可以的，起大早，赶大集

#文心5.0 #百度世界大会2025 #多模态大模型 #情感分析 #技术领先

AI产品黄叔

5个月前

一个AI应用如何4个月做到3000万美金年收入？一个AI设计工具，5月内测，7月公测，到9月底，日活跃用户（DAU）就冲到了15-20万，预估年收入（ARR）超过3000万美金。这家公司叫Lovart，它的创始人陈冕说，增长的秘诀不是信息流投放，而是“把未来会发生的东西提前描绘出来，然后等它发生了。” 这听起来有点玄学，但在技术范式剧烈变革的AI时代，这可能就是唯一的答案。 01 “未来”发生时，你必须在场 2025年5月，Lovart开启内测，DAU维持在一两万的水平。7月底，产品全面开放，DAU迅速涨到8-10万。紧接着，新的多模态大模型“Nano Banana”发布，Lovart因为早已做好产品适配，无缝衔接了模型能力，DAU再次跃升至15-20万。 “我们基本上是一个月上一个台阶。”陈冕说。收入曲线与用户增长几乎完全同步，从测试期几乎为零，到9月底，ARR突破3000万美金。这一切只用了短短4个月。惊人的增长背后，是陈冕对AI时代节奏感的精准判断。她认为，AI应用公司并不掌握底层模型的创新能力，增长的核心驱动力，来自于对模型演进方向的“预判”。 “你就得预判模型会有的演化方向，然后你提前把模型成熟后，它对用户交互（interface）的颠覆先描绘出来，等模型ready的那一刻，你就疯狂地秀出来。” Lovart的“Chat Canvas”功能，就是这个方法论最完美的实战案例。 02 实战案例：Chat Canvas的诞生在Lovart之前，大部分AI设计工具的交互都停留在“对话框”——你输入提示词，AI给你一张图。但这种方式完全不符合真实的设计工作流。 “你跟一个设计师沟通，你不会只对着他的脸说话。”陈冕打了个比方，“你们一定需要一个屏幕或者桌子去做视觉的对齐，你指着那个视觉产物说我要改这里，我要改那里。” 这个行业痛点显而易见，但为什么没人做？因为在过去，模型根本听不懂这么复杂的需求。对着图片“指指点点”，AI改不准，也理解不了。但陈冕赌模型的能力一定会进化。 “我们最开始做Lovart的时候，连GPT-4o的图像功能（GPT image one）都还没出来。”但通过与模型公司的交流，她预判到，更强的多模态理解和图像编辑能力，一定是技术演进的下一个方向。于是，在模型能力还未“Ready”时，Lovart团队就超前提开发了“Chat Canvas”功能——一个允许用户在画布上直接与AI沟通、实现“指哪改哪”的全新交互界面。后果可想而知。当GPT image one、Nano Banana等一系列支持复杂指令遵循的新模型发布后，整个行业还在研究如何接入API时，Lovart早已万事俱备。 “别人还没来得及做，我们已经上了。”陈冕说。这种快，不是源于蛮力，而是源于对未来的清晰描绘和提前布局。 03 护城河：比模型更重要的是上下文当所有应用都能用上同样强大的模型时，新的问题出现了：你的产品凭什么比别人更好？陈冕的答案是：Context，即上下文。 “其实大家模型都一样，所以谁能收集更多的Context，就意味着谁的体验更好。” 她再次用与真人设计师沟通的场景举例： “如果要为‘晚点’做一个系列海报，一个优秀的设计师首先要理解，‘晚点’是一家什么调性的媒体？它过往的物料是什么风格？它的受众是谁？” 这些信息，就是最关键的Context。一个刚毕业的实习生和一个资深设计总监的差距，本质上就是对这些行业经验、客户偏好等隐性知识的掌握程度。 Lovart正在做的，就是把这套真人设计师的工作流，复刻给AI。 “我们会做一个Context模块。当你输入需求时，我们的小模型会快速思考，然后反问你，可能需要你提供更多信息，比如公司的官网链接、过往的设计图，或者让你从最近流行的几种风格里选一个你的偏好。” 通过多轮交互，Lovart就能逐渐沉淀出每个用户专属的“风格库”和“偏好库”。当这个用户再次创作时，AI就能像一个合作多年的老搭档，快速调取这些Context，交付出更精准、更个性化的结果。这就是应用层的护城河——当模型能力趋同，数据成为新的壁垒，而最核心的数据，就是用户在真实场景中沉淀下的、独一无二的上下文。 04 赌AI会越来越像“人” 从预判技术趋势，到构建原生交互，再到沉淀核心数据，Lovart的增长飞轮，建立在一个最底层的信念之上。 “我就是赌一件事儿，AI最终会越来越像一个人。”陈冕说。 “所以我们回到与‘人’沟通最自然的方式去设计产品。如果技术发展慢了，那我们可能看起来有点傻。但是，一旦它的速度就是这么快，它就是越来越像人，那我们的产品就越来越强，我们就提前拥有了正确的答案。” 在AI时代，技术的发展曲线陡峭得超乎想象。正如陈冕所说：“你往往在觉得短期可能有点高估它的时候，过两天你就发现，你低估了它。” 4个月，3000万美金年收入，这只是一个开始。真正的壁垒，是在技术浪潮来临前，就已经描绘出未来的蓝图，并坚定地把它造出来。 from 晚点聊 LateTalk 136: Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|Agent#5

#AI设计工具 #Lovart #陈冕 #多模态大模型 #Chat Canvas

Shaolei Zhang

9个月前

👏🏻Stream-Omni：一个类GPT-4o的文本-视觉-语音多模态大模型（1）同时支持文本、视觉、语音输入，生成文本和语音回复。（2）语音交互过程中，同步生成中间的语音识别、文本回复结果，提供更加全面的多模态交互体验！ 📝论文： 🔗代码&Demo：

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成

央视网-新华社

9个月前

我国科学家研究揭示多模态大模型概念表征机制

记者6月9日从中国科学院自动化研究所获悉，该所与中国科学院脑科学与智能技术卓越创新中心的联合团队在《自然·机器智能》发表相关研究，首次证实多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统，为人工智能认知科学提供了新路径，也为构建类人认知结构的人工智能系统提供了理论框架。

#多模态大模型 #概念表征机制 #科学研究 #中国科学家

九原客

1年前

2025年LLM趋势个人预测： 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用，端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型（不仅是数学、代码）从通用模型分化并提升效果。

#LLM趋势 #Test-time compute #多模态大模型 #模型推理速度 #领域级小模型