#阿里云

一年一度的云栖大会,吴泳铭开场这场就扔了个长线炸弹“AGI只是起点,ASI才是终极目标。” 直接把话题拉到了“超级人工智能的三阶段进化路线” 这个提法我还是第一次在国内大厂 CXO 层面听到这么系统地说。 跟我的判断一样,阿里云真的在按操作系统的方式做 AI。如果说 OpenAI 和 Anthropic 还在强调模型智能,阿里现在直接开始讲系统调度和电网级布局了。 他讲 AI 的三阶段进化路径: 1)智能涌现,2)自主行动,3)自我迭代。 这条路径其实暗含了一个判断:人类对 AI 控制权的下沉,是随着“数据-工具-反馈”这个三元系统一点点转移的。越往后,AI 自主权越强,人类在链条上的必要性越低。 常年做 Agent 系统的人真的很有体感,从workflow到agentic,真正的自我推进式 AI,从系统设计上还远远没做好。 “自主行动”这一阶段我觉得非常关键。吴说核心是 Tool Use + Coding + Agent,这一段我直接脑补公司正在构的 agent 编排平台的最大痛点就是:模型能调用工具,但不会判断工具是否合适;能 coding,但缺少代码行为的后果感知。 现在大多数系统都停留在调用工具这一层,有开始往下延伸到 agent 能否规划子任务、能否收集结果反推 prompt 的部分,但做的都一言难尽。 所以他说:“未来,自然语言就是 AI 时代的源代码”,我个人非常认同,但补一句:要让自然语言真的成为源代码,Agent 必须会调试自己。 然后讲到第三阶段自我迭代,我能关联到开头asi,这是真系统了。 吴用了“连接原始数据 + 自主学习”来解释这个阶段,说白了就是 AI 不再靠人类喂数据,而是能像机器人那样自己感知世界 + 自己训练自己。 我们现在做的 AI 训练,几乎都是在 人类整理后的结构化结果上精调,你从来不给它原始混乱数据,后训练时代也鲜有加入做错后的直接代价。 但没有代价,哪来迭代?没有原始世界的反馈闭环,AI 只能永远在 沙盒里复读旧人类。 所以才有了模型为了输出一个所谓的答案,全是幻觉。 (未完)
ginobefun
4个月前
#BestBlogs 一文带你 "看见" MCP 的过程,彻底理解 MCP 的概念 | 阿里云开发者 深度解析 AI 上下文协议(MCP),对比 RAG 与 Function Calling,并通过实践演示理解其工作流程。 摘要: 文章详细介绍了模型上下文协议(MCP),一个旨在标准化 AI 助手与外部系统连接的开放标准。作者首先回顾了 RAG 和 Function Calling 等相关概念,阐述了它们与 MCP 的联系和区别。接着,文章深入讲解了 MCP 的核心组件(主机、客户端、服务器)及客户端-服务器架构,并对比分析了 MCP 相较于传统 API 在动态适应性方面的优势。随后,文章通过 ModelScope 的 MCP 市场和 Cherry Studio 客户端,一步步演示了 MCP 的实际配置和调用过程,通过开发者模式让读者“看见”并理解模型选择工具并请求服务器的数据交互流程。最后,文章总结了 RAG、Function Calling 和 MCP 在借助外部工具增强大模型能力上的共同本质。 主要内容: 1. MCP 是连接 AI 助手与外部数据/工具的开放标准 -- 模型上下文协议(MCP)由 Anthropic 开源,旨在为 AI 模型访问内容、工具提供标准化的“USB-C”式接口,提升 AI 应用的互操作性。 2. MCP 采用客户端-服务器架构,组件包括主机、客户端、服务器 -- 主机提供 AI 交互环境,客户端运行于主机内与 MCP 服务器通信,服务器暴露工具、资源、提示等功能,实现结构化互动。 3. MCP 通过动态能力描述克服传统 API 硬编码问题 -- 客户端能查询服务器当前功能并动态适应,无需硬编码参数变更,提高了 AI 应用与外部系统集成的灵活性和稳定性。 4. RAG、Function Calling、MCP 本质都是增强大模型外部能力 -- 这几种技术殊途同归,都是为了让大模型能够获取外部信息或使用外部工具,以完成更复杂、更准确的任务。 5. 通过开发者工具可“看见”MCP 调用的实际过程 -- 文章通过工具演示,展示了 AI 应用选择 MCP 工具、发送请求、接收结果,并最终由大模型生成回复的完整流程,增强体感理解。 文章链接:
Jeff Li
7个月前
【李飞飞团队“50美元”复刻DeepSeek的R1真相:基于阿里云Qwen模型监督微调而成】财联社说李飞飞团队训练出s1人工智能推理模型,在数学和编码能力测试中与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。 我看了原始paper,核心信息如下: 【1】s1的基座模型为阿里通义千问Qwen 2.5-32B(图二红线部分)。在已经训练好的模型基础上,通过监督微调(supervised finetuning)并进行budget forcing后,模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%(MATH 和 AIME24)。李飞飞只是第五作者。 【2】s1模型只是在配置了16块H100 GPU的机器上训练了26分钟(图三),就达到了这样的效果,机时折合费用不足50美元。 【3】之所以只需要如此短的训练时间,关键之一是因为团队通过精选训练数据,提炼出1000个精心设计的问题(图四)。跑完这1000个问题,就能让模型能力有巨大提升。 【4】这1000个问题包含了思维链(reasoning traces)和正确答案,从Google的 Gemini Thinking Experimental 提炼蒸馏而来。 【5】可贵的是,使用同样知识覆盖,但不够精炼的5.9万个问题(1000个问题的超集)进行模型训练,与1000个问题相比,并没有带来显著的性能提升!! 【6】同时使用的关键技术还有 budget forcing。这是强制模型在测试时间上所花费的token数量。过短的思考时间/token数量会导致模型准确度不佳。而强制模型“深入思考”则线性提升了模型的回答质量(图五)。 【7】图六可以看到,黄色是s1在1000条数据训练后三大测试的结果,而绿线是s1的基座模型Qwen 2.5-32B的原始结果。AIME2024(美国数学邀请赛)从26.7直接拉升到56.7;MATH-500(竞赛数学问题集)从84 提升到93;GPQA(生物、化学和物理博士研究问题)从49提升到59.6。注意,这只是26分钟高质量数据训练的成果,已经接近蒸馏后的DeepSeek r1的水平。 这个模型的出色表现充分说明了高质量训练数据“画龙点睛”的作用,同时在强制模型“深度思考”方面加以控制的话,可以更加充分挖掘出现有大模型的潜力。