阑夕
3个月前
昨天Coze的两款核心产品被开源到GitHub了,分别是Agent的开发平台Coze Studio和管理平台Coze Loop,迎来了开发者阵营的一片好评。 今年是Agent大年,Coze也是起了个大早的标杆,但是因为主要价值在于服务专业用户搭建工作流,Coze和后面的那一拨AI Agent反倒没有走进同一条河流,于是各有各的热闹。 我自己对Coze「搭积木」的玩法还挺喜欢的,比起全托管的Agent,这种半托换的控制力更好,不会出现AI干AI的、我急我的这种矛盾。 比如你们可能记得,前段时间我发了百度的市值被大家用来听歌的腾讯音乐给超了的截图,那个其实就是更早时候在群里看到两家公司市值接近的话题,但当时还有一点差距。 我觉得这是很戏剧性的时刻,但自己肯定没时间每天都去盯着两家公司的股价然后等到市值交错的瞬间赶紧截图,这也太蠢了,当时就是去Coze搭了一个非常简单的智能体,让它每天在美股收盘时去查询百度和腾讯音乐的市值,并对比做出判断,一旦发现百度的市值低于腾讯音乐,就给我发一条消息。 之后我就扔着没管了,直到一天起床后收到提醒,马上就知道节目效果终于出现了,所以对我来说,这样可持续工作的智能体,和我在通用Agent里需要的一次性代码服务,是不一样的,很多Agent产品,我用得频繁,换得也频繁,但Coze我虽然用得不多,每次遇到事儿却是真会「复购」。 这次开源的Coze Studio,就是Coze的核心开发模块,明确意义上的六边形战士,应用接口非常丰富,可以很爽的调用第三方工具,另一个Coze Loop就跟我这样的非商业用户关系不大了,是为智能体的产品化提供支持的。 比较值得点出来的是,Coze开源选择了Apache 2.0开源协议,这是对商业化最友好的开源协议,没有之一,几乎不会对使用者做出任何限制,一视同仁的将技术开放给从个人开发者到各种体量的公司,而且它不但授予用户版权,还明确授予了与贡献相关的专利许可,确保了商用场景的法律安全性。 多少能够理解Agent赛道的开发者们为此开香槟的态度,技术的流动加速,对于一个新兴多变的行业来说,永远都是不嫌多的,开源社区越是繁荣,AGI平等降临到每一个人手上的概率就会越高。
阑夕
3个月前
昨天那个淘宝闪购专家纪要,不出意外的被阿里「辟谣」了,但用词很软,只说内部没有冲单计划,很形式主义的口吻。 其实看过原始PDF的应该都清楚,那个信息量是没法编出来的,更别说用AI去生成了,更直接的证据就是,我那条微博没有被投诉,阿里也没找我「沟通」⋯⋯ 挺好的,相互理解。 今天来说说专家纪要这种大厂深恶痛绝的情报外流模式吧,所谓的专家,一般都是大厂中层的内鬼,能拿到一手业务数据和战略执行细节,而这些材料存在水下的市场需求,包括券商、投行、竞对、股东都想了解,于是就会有咨询公司从中撮合,按小时付费拉群开电话会,成本摊派。 至于具体价格,受到内鬼的职级权限、交流主题、客户份量等变量影响,波动很大,从最低档的每小时千把块钱,到高价值的可以冲到每小时6位数,就很浮夸,但因频次也没那么高,说赚大钱也不至于,只是内鬼赚外快的一种方法,比不上其他类型的贪腐机会,当然被发现的风险也更低。 阿里这次交流里的专家被频繁问到淘宝的打法到底和美团有什么区别,但解释得很勉强也相当不耐烦,我感觉也就是一个P8,拿不到太多敏感数据,主要是用来确认阿里对外卖的投入边界的,资本市场希望基于真实信息再去用脚投票。 一个合格的内鬼必须清楚怎么安全的把情报送出去,比如对终端数据加减5%都算基操,或者把边角料包装成核心信息,有些特别重要的数据就算知道也不能随便说,否则还是经不起查。 可以参考的一个案例,是去年快手通过内部检举制度撸掉了投资发展部的一个员工,就是因为接单太勤了,「早9晚12的躲起来开会」,618刚结束就把精确到小数点后两位数的交易数据卖给外部,让公司特别难受,所以就算她用了变声器开会,该被揪出来还是躲不掉,但她这么把副业当主页干了大半年,最后获利有多少呢,也就70多万,真的算体力活了。 另外就是,有的时候,在不影响全局规划的情况下,大厂也会适度利用专家纪要这种形式,去向市场传递一些自己作为官方不便输出的信号,这个时候的内鬼则相当于喂料的角色,反过来薅咨询公司的信用,很有意思。
阑夕
3个月前
阑夕
3个月前
「华尔街日报」对于硅谷AI抢人大战的报道写得既流畅又简洁,可读性太高了: - 上周五,AI初创公司Windsurf的几百名员工聚集在办公室准备开Party,庆祝即将被OpenAI以30亿美金收购,市场团队甚至都准备好了宣传视频; - 然后发生了的意外,公司的CEO悄悄带着一小部分「被选中」的员工转会加入了Google,这些人拿到了7位数的转会费,而剩下的员工则被遗弃在已成空壳的公司里,听到这个消息后,不少员工哭了起来; - 到了第一个工作日早晨,新的转折又出现了,剩下的Windsurf员工再次被喊到了一间办公室里,获悉了第二份通知,他们作为公司的剩余部分,将被曾经的一家竞争对手收购; - 这只是2025年硅谷的一个普通周末; - 地球上最富有的公司之间为了争夺人才而发起的战争,正在以前所未有的效率、交易和背叛上演,那些头脑聪明的、不曾被如此重视的研究员,身价已经达到NBA顶级球员和好莱坞明星的水平; - 处于风暴中心的一家公司当然是Meta,扎克伯格为了组建一支AI「梦之队」,开始用限时有效的报价策略疯狂挖人,被邀约的研究员必须在当天做出决定,否则offer就失效,这让被挖公司的传统谈判策略完全失效; - 作为被挖墙脚的最主要竞争对手,OpenAI的Sam Altman将这种行为称作「传教士和雇佣兵之争」,认为那些为了钱而投奔Meta的研究员是见钱眼开的雇佣兵,而选择留在OpenAI的人才是意志坚定的传教士; - 扎克伯格很是介意这番话,专门写了帖子回应,说Meta真正吸引人才的关键在于能够提供研究者实现突破所需的天量计算资源,论及人均可支配算力,没有任何公司比得上Meta; - 不过确实有不少人证明了钱不是最重要的,其中就包括OpenAI的首席研究员马克·陈,在面谈时,扎克伯格给陈开出了10亿美金的总包待遇,陈犹豫了一会儿,回答说自己在OpenAI挺开心的,暂不考虑; - OpenAI至少还有10名员工拒绝了扎克伯格开出的3亿美金/4年——其中1亿美金将在第一年就打到账户里——的转会条件; - 陈说这就像是眼睁睁的看着入室抢劫的发生,并帮助安抚员工,说管理层并没有袖手旁观,新的薪酬激励方案很快出台,「如果其他公司给你们上压力,比如荒谬的不答应就作废那种方案,就告诉他们别逼人,这是很重要的决定,逼迫是在不尊重你」; - 不过,和陈的面谈间接启发了扎克伯格用钱砸人的可能性,他随后列出了一份清单,主题是「想要的人」,团队搞到了这些人的联系方式,并安排他们去扎克伯格的家里——而非公司——见面; - 扎克伯格最终选定了数据标注公司Scale的创始人、28岁的亚历山大·王来领导Meta的超级AI实验室,为此花了140亿美金作为转会费,王在Scale的总部向全体员工宣布自己要离开公司加入Meta,在雷鸣般的喝彩里,场面就像「一部迪士尼电影的结尾」; - 几乎就在这几天里,OpenAI和Google立刻切断了和Scale的合同,Scale也开始裁员; - Meta还挖到了GitHub的前CEO和SSI的现CEO,这俩人本来还共同经营着一家风险投资公司,扎克伯格非常够意思的连带着出钱买了这家公司49%的股份,用来给投资者解套,然后干净利落的解散; - 如果你们还记得,SSI就是OpenAI当年宫斗大戏里被踢出局的首席科学家Ilya Stuskever单飞创立的新公司,扎克伯格在家里请Stuskever吃饭,提议买下SSI,遭拒绝后,就挖走了SSI的CEO,Stuskever得知同事就这么跑了之后「非常震惊」; - 回到Windsurf的故事,和OpenAI的交易之所以失败,是因为OpenAI的最大投资者反对,而在CEO扔下公司加入Google之后,临时CEO收到了同为AI编程公司Cognition(Davin的开发商)的一封邮件,标题是和简单的一个词:「聊聊?」; - 用了一个周末的时间,Windsurf敲定了被收购的方案,临时CEO告诉员工,所有人都能从交易中得到收益,这一次,被期待已久的全场鼓掌终于响了起来。
阑夕
3个月前
葵司引退的消息其实算不得意外,毕竟身为S1的专属,她已经有长达快一年的时间没有发过任何一部新片了,15年的职业生涯也足够有始有终了。 但一路看过来的观众终究还是会发现天空塌了一小块。 从少女演到少妇,葵司一直属于实力大于名气的那种,或者说线上和线下的声望差别巨大,什么意思呢,就是实体销量经常查无此人,数字业绩却从未差过,获奖基本颗粒无收,粉丝结晶到处都是,本来是一个适合互联网冲浪的好苗子,又因惰于营业而四大皆空,总之就是,可餐,更可惜。 去年S1给她拍了一部纯爱题材的SONE-184,剧情是作为UP主的男友该如何自处,虽然俗套无趣,质量也相当一般,但让老搭档童帝在里面劝她从良未果,就算男味爆炸,这份心思还是很有意思的,个人以为将此片作为葵司的告别作,是再适合不过了。 从婴儿肥到丰腴再到臃肿,生理过程的不可逆,既残酷无情,又力不从心,像是新有菜的那种心态,可能才是UP主们的共识:在开始变老前、变得不好看之前就离开行业,只留下自己最漂亮的镜头以供观赏。 不过作为不太多见的短发UP主,葵司的历史地位有目共睹,可以说出道以来的前10年全都处在巅峰期,花期之长让人赞叹,而且从到头到尾只签过两家片商,前5年在ALICE JAPAN,后10年在S1,都被当成宝,给足了待遇,据我所知连中出都没拍过(假的不算),而葵司基本上也尽职尽责的贡献了不少佳作,可以说是标准的双向奔赴了。 细说的话,大部分好片都是在S1时期拍出来的,比如年度Top 250级别的SSNI-454、SSNI-324、SSNI-411、SSNI-987等等,属于镜头美感和个人素质双双拉满的档位,早年的A社也贡献了DV-1622、DVAJ-0033这种回头来看青涩纯然的代表作,代表着刚从偶像事业下海时期饱满湿润的学习欲望。 再就是葵司是那种共演起来既不偷懒摸鱼也不喧哗取众的UP主,虽然合作类型的片子不多,但配合起来的化学反应都很不错,比某名声大于实力的某四字UP主好太多了,比如和新有菜共演的SSNI-056、和小岛南二番共演的SSNI-879、和坂道美琉共演的SONE-288,全是冲着一滴都没有了而去的演技,越往后越香醇。 众里嫣然通一顾,人间颜色如尘土,2025年过半,又送走一位,送的是远方的老师还是躁动的青春,大伙自个品味。
阑夕
4个月前
继上次不少媒体拿大模型做了高考数学题以后,今年的高考全科真题测评结果也出来了,不过这次进行测评的是字节Seed团队,很明显能看出,他们对上次豆包的高考数学成绩是充满意外和惊喜的,也在摩拳擦掌想试试看它在全科试题里会表现如何。 老规矩,这次参战的5个大模型,仍然是市面上各种跑分都名列前茅的选手:Gemini 2.5Pro、DeepSeek R1、Claude 4、OpenAI o3,以及Seed1.6-Thinking。 高考其实是一种非常典型的测试场景,既能达到测试大模型泛化能力的目的,同时又兼具很高的实用性,也不难想象类似的使用场景,应该可以在教学、科研等方面发挥更大价值。 这次做的是「山东版」高考全科试卷,分文理科排名,为了确保公平,不仅评测方式完全对齐高考判卷方法,开放题由两名有资深联考判卷经验的高中老师进行评估,而且大模型也没有引入任何提示词工程,所有输入都是高考原题。 简单来说,这跟一名真实考生做卷子的环境几乎没有区别。 还是先说结论,大模型的整体能力目前已经能拿到一个相当高的分数,其中位列文、理科头名的豆包和Gemini,分别拿到了文科683和理科655分的成绩——这分数甚至可以冲击一下清北——截取一些测评结果里的关键信息给你们看看: - 不出意料的,大模型表现最好的学科是英语,几家测评成绩都很接近,难以拉开差距; - 普遍得分最低的学科是化学和生物,不过这跟试题本身有关,这两个学科涉及到的读图题很多,由于这套试题不是官方发布,所以有些图比较模糊,直接造成了大模型的失分; - 豆包在语文、英语、物理、地理、历史、政治六门学科里均拿到了最高分,其中文科类目里的地理、历史、政治优势明显,事实证明在不同语种的语境里,大模型的表现可能是天差地别的; - 与豆包相反,Gemini的理科表现很强劲,哪怕在图不清楚的情况下,化学、生物仍然拿到了最高分,它与豆包的路线差别很有观察价值; - 跟上次高考数学的测评结果略有差异,这次数学学科的榜首是DeepSeek,不过同样与其他大模型差距很小; - GPT o3又开始整活,上次它是唯一一个在数学客观题上丢分的大模型,结果这次语文作文直接写跑题了,这导致o3的语文分数成了所有大模型语数英主科15份成绩里,唯一一个没有过百的... - 在发现了化学、生物的读图问题后,测试团队找到了一份更高清版本的试卷,并且采用图文交织的方式把这两科重做了一遍,结果发现豆包通过这种方式,两科总分还能再提高30分左右,这就意味着图文同步的全模态推理,可以更大程度激发模型潜力,很值得深究; - 目前看来,大模型的视觉方案进步神速,但毕竟视觉的TOKENS消耗要比普通任务高得多,所以它眼下要解决的主要问题,还是如何降本; - 除了高考全科真题外,测试团队还进行了另一项印度理工学院JEE Advanced的考试测评,题目全部采用图片输入,总分仍然是Gemini和豆包领先,甚至两个模型的成绩,已经可以进到印度TOP 10了。 当然,大费周章做这么多测试,倒不是说它是测量大模型能力的唯一标准,比如今年年初AI行业知名的HLE基准刚出现的时候,各大主流模型的得分普遍低于10%,但HLE的开发团队也说了,按照历史规律来看,今年年底这个数字可能就会有50%。 我的意思是,无论人类如何绞尽脑汁让AI做题,把题目通关也都是假以时日的问题,但这不代表做题成绩就没有意义了,重要的是不断精进学习的过程,也是探索AI究竟能多大程度上为人类所用的必要步骤。 已经开始期待明年高考,AI会给我们一番怎样的景象了。
阑夕
4个月前
阑夕
4个月前
豆包新上线了AI播客,瑞士军刀功能再+1,目前支持PDF和网页链接的上传,总体来说,通过大模型的智能识别,豆包现在可以把任何内容转化成一条高度口语化的双人对话播客,属于趣味性和实用价值都很高的一次尝试。 熟悉大模型播客产品的人都知道,豆包这次对标的是谷歌NotebookLM——或者说是它最出圈的Audio Overviews功能——后者通过识别用户上传的文本、网页、视频,就可以转化成一条口语化且带有情绪表达的AI播客,深得用户喜爱。 Audio Overviews大约是在上个月开始支持中文的,但在中文播客市场砸出来的水花并没有想象中的大,一方面是众所周知的产品迁移成本,另一方面,中文播客市场体系化进度实在迟缓,用户习惯是高度分散的,这就导致了播客本身的适配场景很多,深究起来的播客用户以及潜在播客用户也不少,但商业化空间始终有限。 说回正题,我第一时间试了下豆包的AI播客,并分别投喂了两个不同的网站,一个是我写的刘强东前两天内部讲话的文章「刘强东的机巧」,另一个是B站UP主对Prompt, Agent, MCP等AI技术的科普文。 先说结论,在真正听完豆包生成的这两条AI播客之前,我对这项功能的完整程度预期并不高,原因在于,在这种复杂的任务上,目前很多主流大模型的做法还是「边吞边吐」,由此就会破坏内容输出的结构性。 但豆包已经可以做到在10分钟左右的播客篇幅里基于框架生成内容了,在「刘强东的机巧」生成AI播客的任务里,所有对话的前后呼应都很强,能听得出它是按照同一条逻辑线不断往下捋的,有点意外。 另外就是,豆包AI播客的拟人程度已经可以做到以假乱真了,这真的不是夸张,对话的流畅度、松弛感以及合时宜的抑扬顿挫,像我这种文字工作者,文章简单拿来改一改就能直接原地起个播客账号的程度。 那条硬核技术帖转播客的任务表现也相当亮眼,首次提及专业名词的时候,会贴心附上一段对这个概念的解释。整体的输出脉络,也都是建立在「我要深入浅出讲明白这条科普」这个最终目的上。 说人话,就是AI播客让内容的「可听性」变强了,哪怕注意力没有完全集中在耳朵上,这种通俗易懂的内容也变得更容易被消化。 播客——以及整个音频产业——一直以来的优势,是它不会完全参与到竞争用户注意力的零和博弈里去,大部分情况下,刷视频、聊微信、逛淘宝都是非此即彼的单一选项,但播客只占用一个耳朵,由此它能与很多不同的场景做适配。 豆包不是第一个推出这种功能的大模型,但它在应用场景上的成熟度是完全可以进到第一梯队的,不仅能把拗口的文字进行口语化改造再丝滑地表达出来,同时所有内容输出也都是基于原稿,不存在自己加戏的幻觉问题。 当然,作为新上线的功能,豆包AI播客还会经历一个漫长的迭代过程,比如目前它做不到像NotebookLM一样吃下视频内容,对话的声音、关键信息的提炼浓度,以及生成后的整体风格也都不是客制化的可选项,离用户可以随心所欲地深度使用它,尚且还有一段路要走。 但这并不妨碍我们从这个简单的小功能身上窥见AI在未来的使用场景,一切都是假以时日的问题。 虽然知道AI的技术一日千里,但每次实际体验的时候,那种奇妙感还是会忍不住涌上来。
阑夕
4个月前
阑夕
5个月前
阑夕
5个月前
晚点LatePost对外卖战争打响一个多月以来的数据和研判很有看点: - 去年中国外卖行业的峰值大约单日1亿单,而在今年这个数字已经被拔高到了单日1.4亿单,但这很显然不完全是增量订单——中国消费者突然真的多了40%的外卖消费需求——而是补贴造成的线下支付转移; - 美团为了「不计代价」的应战,甚至不惜放任对外卖业务的补贴冲击到自己利润更厚的到店业务,在财报会议里承认,因为刺激用户选择外卖下单,很多原本计划去店里消费的用户都不去了,所以预警到店业务的增速将小幅下滑; - 总体来说,每天多出来的那4000万外卖订单里,一半以上都是茶饮,这很容易理解,普通人很难从一日三餐变成一日五餐,但每天多喝两杯奶茶咖啡,是生理允许的,尤其是京东对于茶饮品类的依赖更高,据说占比超过50%,但京东否认了这个比例; - 不过一天新增2000万个茶饮订单也很可怕了,按照10家门店总量来算,平均每家店每天要新做200杯茶饮,品牌商已经在开内部会评估补贴造成的后果了,担心消费者在习惯了3块钱的一杯奶茶送上门后,以后会对10块钱的正常价格感到失望; - 在对手都在利用茶饮品类冲量的同期,美团还是选择了优势策略,拿「拼好饭」和「神抢手」两款主打低价的产品应对竞争,并成功的也让美团实现了增长,打出来的那4000万新增日订单里,有1000万订单是美团的; - 各家平台都在模糊外卖、闪购、电商之间的关系,它们在业务上或许各自独立,但用户的感知很弱,重新掀起价格战的序幕,都是在为即时零售的心智铺路,像是淘宝会把服装品类也塞到外卖里就是例证,有点离谱但又似乎没有那么离谱; - 平台之间吵得越凶,越是意味着它们实际上有着高度一致的共识,那就是笃信新一代的消费路径会建立在「半小时内万物送达」这个能力之上,复制外卖产业从无到有的神话——点外卖并不是中国人的传统需求——除了拼多多之外,哪家都不敢缺席这次浪潮。