#多模态

池建强
5小时前
今天阿里 Qwen 系列大模型的 C 端产品 千问 App 上线了,我参与了产品内测,写了一篇评测笔记: 对它的第一感受是:简洁、克制、All‑in‑one,阿里终于把产品做简单了。复杂能力收进一个主对话窗口,核心在主 Chat:结构化回答、长文档理解更加稳健,图片、音视频、深度思考和深度研究能力都装一起了。在我看这不是一次升级,应该是重做了一款新产品,并做了品牌升级。 产品简介,有些设计非常精巧: 比如底部这个「+」,用户可以一键录音/录像/拍照/传文件,现场捕捉直接纳入对话链路;比如我想现场录音现场分析转译,并不需要专门的录音软件和设备,录完后导出文件,再把文件喂给大模型,在千问里,这些操作是一步到位的。 「实时记录」这个功能不仅能够录现场,还能直接录制手机系统里的音频,我看了下采用的直播屏幕的技术,比如我想录制一段视频号里的话,并转文字,非常方便。 看英文书,拍张照片给千问,我可以拿到翻译好的文字,也可以得到一个中文图片,拍的书页里的图片都能保留。 多模态真正放到手边了,还贼方便,图、文、音、PDF 在一个窗口里连续处理,体验像瑞士军刀:偏工具属性,面向效率而非陪聊。 显然,千问这个产品阿里是很重视的,他们开始从 B 端基座走向 C 端入口,发力很明显。还有一点是,现阶段全功能免费,额度基本够用。非常值得试一试的产品。
Y11
2周前
在AI竞争的浪潮中,字节跳动以“豆包”为支点,正撬动着国内AI服务市场的格局。 作为10年技术积累的实践者,我们可以看到,字节通过“技术+产品+生态”的协同战略,正在构建一套独特的AI发展逻辑。 从用户体验到商业变现,豆包的攻守之道 豆包App自2023年8月上线以来,用两年时间实现了用户规模的快速突破,目前月活已达1.57亿,成为国内移动端最大的AI对话助手。 这份成绩背后,是字节对用户需求的精准把握——不同于西方AI工具的强功能导向,豆包更注重“亲近感”和“易用性”,支持语音、视频、方言等多元交互,图标设计也采用了亲和力强的卡通形象,降低了普通用户的使用门槛。 这种“降低门槛”的策略,也体现在产品定位上。 针对部分用户反馈的“深度问题回复不够好”,字节的解释是,豆包的核心是“展示模型能力的窗口”,其企业级服务会提供专业级回复。 这种“大众市场免费体验+企业级付费服务”的模式,既避免了“一刀切”收费对用户规模的冲击,也为未来商业变现埋下伏笔。 从赵祺接手豆包产品来看,字节正加速将豆包推向“用户规模+商业变现”的双轨发展。变现路径可能包括场景化按次收费、超额使用付费、抖音生态联动分成等。值得关注的是,抖音10亿级的月活为豆包提供了天然流量池,未来两者的深度整合或将成为新的增长极。 技术突围:从“沉默期”到多模态领先 豆包的崛起,离不开背后豆包大模型的技术支撑。今年初,面对DeepSeek、Qwen等竞品的冲击,字节没有选择盲目跟进,而是沉下心来快速迭代模型。6月发布的1.6版本,凭借国内首个原生多模态能力,在长上下文理解、性价比上实现突破,迅速跻身国内第一阵营。 目前,豆包大模型日均tokens调用量已突破30万亿,半年增长超80%,生态扩张速度惊人。在多模态领域,豆包在视频(Seedance)、图像(Seedream)、语音克隆等产品化矩阵上优势明显,场景落地更深。不过,在海外市场,由于不开放API且缺乏开源动作,豆包的声量仍落后于部分竞品。 “一盘棋”战略:技术与生态的深度协同 在大厂中,字节的AI战略最具“协同性”。这种“一盘棋”体现在三个层面: 一是产品矩阵联动。豆包大模型不仅支撑C端的豆包App,更向手机、汽车、AI玩具等硬件延伸。vivo、荣耀等手机厂商已将其作为助手底座,字节还与多家车企在智能座舱领域展开共创。 二是内部流量闭环。抖音作为核心入口,不仅为豆包App引流,更在开发内置AI功能,测试直接接入豆包能力的入口。同时,豆包生成的内容可一键分享至抖音,形成“创作-分发”闭环。 三是企业服务与内部场景联动。火山引擎的企业级服务,均在抖音、飞书等产品内部跑通验证后推出,如Data Agent数据工具已在抖音内部使用。这种“对内验证-对外输出”的模式,大幅降低了商业化风险。 挑战与展望 尽管字节AI战略展现出强大的执行力,但仍需面对三大挑战:一是与OpenAI、谷歌等巨头的模型技术差距;二是国内外市场的差异化变现难题;三是自研芯片与基础设施的支撑能力。 从行业角度看,字节的“技术+生态”模式正在改写AI竞争规则。当多数企业还在单打独斗时,字节用“一盘棋”思维将技术、产品、流量拧成一股绳。对于追求长期价值的企业而言,这种“从用户中来,到生态中去”的发展路径,或许正是突围的关键。
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 3. 可以用双向注意力 这是技术细节。传统的text-to-text是自回归的(从左到右)。图像输入可以用双向注意力,看到全局信息,更强大。 4. 删除tokenizer(重点!) Andrej很讨厌tokenizer。 他的吐槽: - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险(如continuation bytes攻击) - 两个看起来一样的字符,在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token,不是一张真正的笑脸图片 他希望tokenizer消失。 他的vision是什么 - 输入:全部是图像(即使原本是文本) - 输出:还是文本(因为输出像素不现实) OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。 我的理解 Andrej这个观点很激进,但确实有道理。 从信息论角度,图像确实比文本更高效。DeepSeek-OCR证明了这一点:64个vision tokens就能表达2000个文本tokens的信息。 从通用性角度,图像输入天然支持各种格式(粗体、颜色、图表),不需要tokenizer这个中间层。 但问题是: 1. 计算成本:处理vision tokens比text tokens贵。虽然token数量少了,但每个vision token的计算量更大。 2. 训练数据:现有的大部分训练数据都是纯文本。要全部渲染成图像,成本很高。 3. 输出问题:他也承认,输出像素不现实。所以只能是图像输入→文本输出的混合模式。 但长远看,这个方向可能是对的。 特别是考虑到: - 人类的输入本来就是多模态的(文字、图片、视频) - Tokenizer确实有很多问题(安全、Unicode、历史包袱) - 未来的AI应该能直接理解像素,而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来:一个没有tokenizer的世界,所有输入都是图像,所有输出都是文本。 这会不会成为现实?不知道。 但至少,这个方向值得探索。
Tom Huang
4个月前
Refly 正式进入新篇章!🎉 我们正式发布全球首个开源的 「Vibe Workflow」平台,并同时登录云服务和开源社区版!🚀 现在你可以直接动动嘴就能构建复杂的 Workflow 并生成多模态工作结果如 PPT、网页、播客、视频等💥 后续我们还将支持 Workflow 一键运行并输出成 API 💪 此次 v0.7.0 更新超过 50000 行代码的重大版本中,我们将用户与 Agent 协作完成工作任务的体验推向了下一个阶段,给全球的 Vibe Coder 带来了如下令人振奋的能力: 1️⃣ 首创 「Vibe Workflow」,让工作过程真正「起飞 Refly😋」,用户动动嘴就能够完成复杂工作流搭建并直接完成工作结果交付 2️⃣ 最独特的是🤯,你还能修改 Agent 生成的 Workflow 的中间节点实现对结果的精细化微调,完成生产可用结果交付的最后一公里 💥 3️⃣ 提供可能是业界首个支持自由配置的 MCP 的 AI 画布产品,结合 Agent + MCP 自由配置+自由画布上下文组织能力,探索 AI 创作无限可能 作为首创开源 Agent + 自由画布的先行者, 我们后续将持续在多模型,多模态产物交付、Agent、MCP 和 Vibe Workflow 上积累工程和体验能力,为社区注入活力🥳💪 目前 Refly 已收获了数万名用户的私有化部署或云端使用,并且得益于 Refly 独特的产品能力,我们已经实现了真正的正向盈利☄️ 为了迎接接下来 Refly 新阶段的发展,我们提出全新使命,我们坚信「让 Workflow 不再神秘,变成每个人都真正可用的强大 AI 创作工具!」🌈 期待与社区的大家一起探索「Vibe Workflow」的能力边界🚀! 去 Github 中了解 Refly v0.7.0 👉 在云服务中直接体验 Refly Agent + MCP 带来的强大「Vibe Workflow」能力 👉 #Refly #VibeCoding #VibeWorkflow #Agent #MCP #Workflow
AI Agent随想(一):“不立文字,教外别传” 行情有点枯,不定期闲聊一些其他内容。 Chat bot式自然语言交互模式Agent,虽然是最早找到PMF的,但也限制了AI Agent的进一步发展。 原因1️⃣是在这种微信式的聊天语境下,人的指令输入过于碎片化,往往需要多轮对话才能表达完整。 原因2️⃣是90%以上的人缺乏问出正确问题的能力。 所以要发挥Agent的强大能力,从输入端来看,有能力输入中长brief/proposal的人更具备优势。 而我之前没意识到的是,语言其实也是一种编程能力: 不同语言的信息密度的智能程度是有高下之分的。像中文的信息密度明显是在世界语言前列的。 不同人的语言组织能力也是有高下之分的。就像我和诺贝尔奖得主的差别。 所以AI从大语言模型开始找到突破,是因为语言文字本身就是智能的凝结。 但继续往下发展的话,仅仅靠自然语言输入可能不够。世界上还有很多智能是难以言表的。就像禅宗说“不立文字,教外别传”。道德经说“道可道非常道”。 1️⃣要么,就像最早的计算机一样,从命令行界面(CLI)走向图形用户界面(GUI),Agent从自然语言界面最终走向多模态。 2️⃣要么,就是AI Agent之间,发明一种信息密度更高的Agent语言。以现有计算机的数据量和记忆存储能力,也是有可能发生的事。 我们这代人比任何时间都更靠近AI 奇点,一切指数增长在拐点前,看上去都像线性增长。iq50和iq150的智能差距,在AI看来可能是微不足道的。 在可预见的未来里,AI终会迈过这个奇点,成为我们难以理解的存在。到时候人道的善恶规则可能并不在AI的价值体系之内。 在这之前呢,我将先每天吃点好的😋。 未完待续。。。