时政
财经
科技
虚拟货币
其他
登录
#开源模型
关注
歸藏(guizang.ai)
1周前
昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini,20B 的相当于 o3-mini 120B 需要 80G 显存推理,20B 只需要 16G 显存设备。 目前你知道的所有 LLM 周边生态都已经支持这两个模型,比如 ollama 这种
#OpenAI
#开源模型
#gpt-oss
#LLM
#Ollama
分享
评论 0
0
wong2
1周前
看来今天OpenAI要发开源模型了
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#OpenAI
#开源模型
#技术发布
#人工智能
#中性
分享
评论 0
0
virushuo
2周前
glm4.5不错,比我近期用过的任何一个开源模型都更接近于行业顶级几家闭源。
Google Gemini 2.5发布引发AI模型性价比热议· 97 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#GLM4.5
#开源模型
#行业顶级
#闭源
#积极
分享
评论 0
0
Geek
3周前
我隐约记得 OpenAI 说要发布开源模型来着……
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#OpenAI
#开源模型
#发布计划
#技术
#讨论
分享
评论 0
0
宝玉
3周前
TheInformation:苹果为何在 AI 人才争夺战中节节败退(原因不止是钱) 一场旨在解决公司 AI 难题的苹果大规模重组,反而导致核心研究员纷纷投奔竞争对手。 核心要点 • 苹果基础模型团队的成员正考虑离职,以期在其他公司追求更宏伟的 AI 目标。 • 在前负责人庞若鸣(Ruoming Pang)离职后,苹果领导层已讨论为留下的团队成员提高薪酬。 • 该团队与苹果管理层在模型开源问题以及 AI 战略模糊不清等方面存在分歧。 --- 今年早些时候,负责苹果人工智能模型的团队希望将其中几款模型作为开源软件发布。这样做既能展示苹果在 AI 领域的技术进步,也能借助外部研究人员的力量来改进模型。然而,此举同样会向公众暴露,当苹果为了适配 iPhone 而缩减模型尺寸后,其性能相较于为更强大的个人电脑或数据中心计算机设计的版本,出现了多么显著的下降。 据两位知情人士透露,苹果的软件主管克雷格·费德里吉(Craig Federighi)并不同意走开源路线。他在一封邮件中告诉苹果基础模型团队的负责人庞若鸣,市面上已有足够多来自其他公司的开源模型来激励研究。尽管将模型开源会显示出该软件在性能上不如阿里巴巴和谷歌的某些竞品模型,但费德里吉表示,他更担心的是公众会认为苹果为了让软件在 iPhone 上运行而做出了太多妥协。1 这一事件凸显了苹果内部日益加剧的紧张关系:一方是更具研究思维的基础模型团队,另一方是费德里吉领导的、以产品为中心的软件部门。自三月份的一次重组后,费德里吉的部门开始主导公司的 AI 战略和 Siri 语音助手。这次重组的背景是,一款由 AI 驱动的新版 Siri 发布遭遇了令人尴尬的延迟,同时苹果为 iPhone 发布的一系列其他 AI 功能也反响平平。 苹果能否在 AI 领域站稳脚跟,一个重要因素在于其吸引和留住顶尖研究员的能力。而在这方面,它近来一直在失利。 上周,庞若鸣在 LinkedIn 上宣布,他已离开苹果,转投 Meta Platforms。此前,他是苹果基础模型团队的负责人。据彭博社报道,庞若鸣在 Meta 未来四年的收入可能高达 2 亿美元。 庞若鸣团队的一些成员已经开始追随他前往 Meta。据两位知情人士透露,其中一位是汤姆·冈特(Tom Gunter)。他最近刚离开苹果准备加入 OpenAI,但在庞若鸣被 Meta 聘用后,他突然改变主意,也加入了 Meta。冈特于 2017 年加入苹果,是公司内部最早探索大语言模型的人员之一,并经常作为庞若鸣团队的代表出现在公司级的大型活动中。 知情人士还表示,苹果基础模型团队(由几十人组成)的其他成员也正在寻找加入 OpenAI 和 Anthropic 等公司的机会。 对于许多研究人员来说,在这场历史性的 AI 人才争夺战中,其他公司开出的令人瞠目结舌的薪酬无疑是他们决定离开苹果的部分原因。 据两位了解该团队情况的人士透露,在庞若鸣宣布离职后,苹果领导层告诉留下的基础模型团队,公司正在重新评估薪酬体系,可能会为成员提供更多资金以挽留他们。从历史上看,苹果向员工提供的薪酬不如其他大型科技公司,它更多地是依靠其品牌影响力和在消费科技领域的巨大影响力来吸引人才。 但除了钱,还有其他因素。 据该团队的前成员透露,像其他公司的研究人员一样,苹果基础模型团队的许多成员都渴望站在 AI 的最前沿——特别是追求其终极目标:超级智能,这是一个用来描述 AI 能够匹敌甚至超越人类能力的术语。相比之下,他们表示,费德里吉的团队更专注于改进 AI 模型,以用于写作和总结等日常应用场景。 “拥有使命感和明确的目标,一直是吸引 AI 人才的有效方式。”阿里·法哈迪(Ali Farhadi)说,他曾于 2023 年前在苹果的 AI 团队工作,现在是非营利组织艾伦人工智能研究所(Allen Institute for AI)的首席执行官。 AI 人才的流失可能会危及苹果在 AI 领域追赶的进程,并加深其对外部 AI 合作伙伴的依赖。 据《The Information》此前报道,费德里吉接手后,指示 Siri 团队研究使用外部公司而非庞若鸣团队构建的模型。熟悉合作谈判的人士表示,该公司正在评估来自 OpenAI、Anthropic 和谷歌的外部模型,以驱动一个改进版的 Siri。 知情人士称,苹果有意与外部伙伴合作,这进一步让庞若鸣团队的一些成员感到心灰意冷。 ChatGPT 引发的仓促应对 苹果在 AI 领域的挑战由来已久。虽然苹果早在 2011 年就通过发布 Siri 将 AI 变成了大众市场产品,但多年来,该公司一直难以跟上 AI 的前沿发展,也难以吸引该领域的顶尖人才。 随着时间的推移,它做出了一些让步,为 AI 研究人员创造一个更具吸引力的环境。2018 年,它从谷歌挖来了约翰·贾南德雷亚(John Giannandrea),负责苹果更广泛的 AI 战略,他对 Siri 特别感兴趣。在他上任后,公司开始鼓励研究人员更频繁地发表他们的 AI 发现,这与其保密的文化背道而驰。 与科技界的许多公司一样,苹果对 2022 年末 OpenAI 发布的 ChatGPT 感到措手不及。起初,贾南德雷亚的团队并未以太大的紧迫感来应对。这为费德里吉软件团队的成员创造了机会,他们利用 OpenAI 的模型制作了一些演示,展示了 AI 如何实现更具对话性的语音交互和对 iPhone 的控制。尽管苹果也涉足了其他公司的技术,但它仍致力于构建自己的大语言模型来支持这类 AI 功能。 构建这些模型的任务落在了庞若鸣的基础模型团队身上,该团队隶属于贾南德雷亚的 AI 部门。 在 ChatGPT 发布前一年,贾南德雷亚和他手下的高级副手(其中许多人是从谷歌跟随他过来的)从谷歌 DeepMind 招募了庞若鸣,负责苹果构建基础模型的工作。庞若鸣带来了他在开发和训练大规模 AI 系统方面的丰富专业知识,这涵盖了从模型本身到其背后的支持软件等所有方面。 苹果允许庞若鸣在纽约工作,而没有强迫他搬到加州库比蒂诺的总部——对于这样一个关键职位来说,这是一种罕见的举动。起初,后来成为基础模型团队的那个小组规模很小,只有少数几名研究员。一些现有的苹果员工加入了进来,比如冈特,但庞若鸣也从谷歌 DeepMind、Meta、微软和亚马逊招募了人才。 到 2022 年末 ChatGPT 的发布让全世界为之着迷时,庞若鸣已经在苹果构建出了大语言模型。然而,贾南德雷亚却将它们搁置了,因为他不相信这项技术的实用性。 随着 ChatGPT 的重要性在整个行业内深入人心,苹果高管们意识到公司需要迅速跟上这项技术。2023 年,苹果正式成立了基础模型团队,由庞若鸣担任负责人。 该团队成立一年后,已发展到 40 名研究员。庞若鸣向新加入的成员承诺,他们将获得苹果计算基础设施的最高优先级访问权限,以便训练模型。在当时整个行业因 AI 芯片需求激增而面临短缺的情况下,这是一个极具吸引力的前景。一位知情人士表示,苹果的管理人员曾讨论过保持团队增长的方法,比如直接招募整个学术界或工业界的 AI 实验室。 尽管管理着一个日益壮大的 AI 研究团队,庞若鸣仍以其对技术事务的持续深入参与而闻名。据一位知情人士透露,他在冬歇期间亲自编写了 AXLearn(苹果用于训练其大型 AI 系统的开源工具)的原型代码,以证明其可行性。 2024 年 6 月,该公司发布了 Apple Intelligence,这是一套由生成式 AI 驱动的新 AI 功能套件,其技术基础正是由庞若鸣的团队开发的。这个新系统包括写作和图像生成工具,与 ChatGPT 集成以回答问题,以及最重要的是,一个更强大的 Siri,苹果表示将在稍后发布。 尽管公司发布了这些功能,但基础模型团队感到高层管理缺乏明确的方向。虽然公司有为苹果内部构建最佳 AI 模型的宏大目标,但团队成员并不知道他们应该专注于哪种类型的模型——无论是用于文本理解、语音还是图像。 团队成员感到失望的是,苹果设定的目标仅仅是追平 ChatGPT 的能力,而不是更具雄心。高层管理甚至向基础模型团队的一些成员征求关于苹果可以开发什么产品的想法,这加剧了团队对缺乏整体产品愿景来指导 AI 战略的担忧。 外部模型 尽管如此,在 2025 年初,庞若鸣团队的一些成员对他们在苹果基础模型上的技术进展感到满意。他们相信自己正按计划交付一个能够驱动新版 Siri 的模型,以赶上苹果原定于 2025 年 4 月推出的目标。该团队构建了一个功能性的 AI 系统,能够处理来回对话、回答问题并使用 Siri 完成任务。 今年早些时候,他们向贾南德雷亚和 Siri 团队展示了这个功能的演示。在整个会议期间,他大部分时间都保持沉默。但最后,他给出了一个热情的反应。 “这是公司的未来,”据一位直接了解会议情况的人士透露,他当时这样说道。“这很重要。你们做得很好。继续努力。” 这份热情并没有持续多久。今年 3 月,苹果发布消息称,将新版 Siri 推迟到 2026 年的某个时候。 这个消息让庞若鸣团队的一些成员感到震惊。过去,这个团队在很大程度上可以自由地进行工作,不受苹果其他部门的干扰,但这也意味着他们与决策过程脱节。因此,据一位前成员透露,团队没有被征求关于延迟的意见,也没有被告知他们的模型到底出了什么问题(如果有的话)。 苹果宣布延迟后不久,首席执行官蒂姆·库克将 Siri 团队从贾南德雷亚手中移交给了费德里吉和迈克·罗克韦尔(Mike Rockwell),后者是领导 Vision Pro 头显开发的苹果高管。庞若鸣的团队则继续留在贾南德雷亚的领导下。 庞若鸣试图安抚他的团队,告诉他们要专注于团队的使命——为整个苹果构建最好的 AI 模型。直接向贾南德雷亚汇报并协助管理基础模型团队的达芙妮·梁(Daphne Luong)也前来稳定军心。据知情人士透露,她告诉庞若鸣的团队,导致这次重组的问题出在 Siri 身上,而不是苹果的 AI 模型。 但新的进展很快削弱了这些安抚之词。今年 6 月,彭博社报道称,Siri 团队正在评估如果采用来自 OpenAI、Anthropic 或谷歌的外部 AI 模型,这款语音助手的表现会如何(知情人士证实了这一举动)。据与他们交谈过的人士透露,一些前团队成员感到士气低落,并开始考虑离开苹果。 据现任和前任员工称,庞若鸣的离职在苹果内部引发了一场地震。 许多人因庞若鸣的技术知识、职业道德和乐于奉献时间的精神而尊重他。据前员工称,他的团队成员也觉得他在苹果内部保护了他们。现任和前任苹果员工预测,没有他的存在,将会有更多的研究人员离职。 长期在谷歌工作的工程师陈志峰(Zhifeng Chen)最近加入了苹果,现在将领导基础模型团队。 在 LinkedIn 的告别帖中,庞若鸣重点介绍了他前团队发表的一篇新研究论文,该论文表明苹果在缩小模型以使其在 iPhone 上良好运行方面取得了进展。 “这对我来说是一篇苦乐参半的帖子,因为我昨天离开了苹果,”庞若鸣写道。“最难的部分是离开这个在过去四年里凝聚在一起的紧密团队。”
#苹果AI
#人才流失
#庞若鸣
#开源模型
#AI战略分歧
分享
评论 0
0
orange.ai
1个月前
Gemini 3.0 要来了 OpenAI 预告了很久的开源模型也终于要来了
Google Gemini 2.5发布引发AI模型性价比热议· 97 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#Gemini 3.0
#OpenAI
#开源模型
#技术发布
#AI
分享
评论 0
0
sitin
1个月前
Kyutai STT ——实时语音转文字(speech-to-text) 场景优化的开源模型,主要特点是 低延迟、高准确率、强并发处理能力。 内置语义语音活动检测模块,能智能判断用户是否说完话,提升对话自然度。而且支持多平台实现,包括 PyTorch、Rust 和 MLX,非常适合各种应用场景。#语音识别 #人工智能
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#Kyutai STT
#语音转文字
#开源模型
#低延迟
#人工智能
分享
评论 0
0
karminski-牙医
1个月前
MiniMax 开源周第二弹来啦!视频生成大模型—— Hailuo-02 这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 从官方放出的数据来看,目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了,稍后给大家带来实测视频! (这个帖子中的视频是官方的)
#MiniMax
#视频生成
#Hailuo-02
#开源模型
#排行榜
#Veo3
#豆包-seedance-1.0-pro
分享
评论 0
0
Gorden Sun
1个月前
MiniMax-M1:MiniMax开源的推理模型 分80K和40K两个版本,这里的80K和40K是指推理消耗的最大token数。456B总参数,激活参数45.9B。评分超过旧版DeepSeek R1和Qwen3-235B-A22B。 在线使用: 模型: Github:
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax
#开源模型
#推理模型
#DeepSeek R1
#Qwen3-235B-A22B
#人工智能
分享
评论 0
0
Tom Huang
1个月前
Minimax 也发布了自家的类 Manus Agent 产品⚡️ 伴随发布的是 Minimax M1,最强开源的 agentic 推理模型,配备超大上下文窗口以及极低成本的 RL 训练效率 产品体验地址👉
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax
#ManusAgent
#M1发布
#开源模型
#agentic推理
#RL训练
分享
评论 0
0
Tom Huang
1个月前
Minimax 开源世界首个长上下文推理模型 -Minimax-M1⚡️ - 1M token 输入,80K Token 输出 - 最强开源 Agentic 能力模型 - 仅 50 万刀 RL-based 训练成本效率
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax
#长上下文推理
#开源模型
#AI技术
#agentic能力
分享
评论 0
0
小互
1个月前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 7 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
宝玉
1个月前
请教一下,如果在国内要做AI生成图片的产品,如何做输出后内容的检测,比如色情的、政治敏感的?有没有什么开源小模型可以用的?有没有什么商业产品可以用的?
#AI生成图片
#内容检测
#色情检测
#政治敏感
#开源模型
#商业产品
分享
评论 0
0
Tw93
2个月前
一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖
#开源模型
#多模态模型
#BAGEl
#AI能力
#GPT-4o
#Gemini 2.0
#图片编辑
#文生图
分享
评论 0
0
EC Elliot
2个月前
字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github
#多模态模型
#BAGEl
#字节
#Qwen2.5-VL
#InternVL-2.5
#SD3
#图像生成
#图像编辑
#风格迁移
#自由视觉操作
#多轮对话
#复杂推理
#世界建模
#开源模型
分享
评论 0
0
AI Will
2个月前
订阅乱象... 这就是为什么我们需要开源模型来对大AI实验室施加压力。 deepseek和qwen可能不是最好的——但如果没有开源竞争,gemini和openAI就不会提供这么多免费的东西。 另外,openAI什么时候发布开源权重模型? 来自:Haider.
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#订阅乱象
#开源模型
#AI实验室
#DeepSeek
#Qwen
#Gemini
#OpenAI
#竞争
#开源发布
分享
评论 0
0
AI Will
2个月前
哇... 最新的DeepSeek R1现在是全球第四智能的模型,仅次于openAI的o4-mini、o3和Gemini 2.5 Pro。 它们竟然这么快就与封闭的AI实验室竞争上了。 看看与oAI和Anthropic模型相比的性价比,真是疯狂。 DeepSeek到底有什么秘密武器是这些大型AI实验室所没有的,尤其考虑到它是开源的? 来自:Haider
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek R1
#AI竞争
#开源模型
#智能模型
#性价比
#AI实验室
分享
评论 0
0
马东锡 NLP 🇸🇪
2个月前
OpenAI 悄然隐藏CoT推理过程,逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程,变的非常困难。 另一方面,近期的几篇 LLM RL 的论文的可靠性受到质疑, 让使用开源的 Qwen 模型的工作变得似乎意义虚无化。 另外,刷榜benchmarking的开源模型,又有多少存在 data contamination 的问题? 闭源的不让蒸馏,开源的又不完全可靠。 在LLM, Agent 一片火热的氛围下,benchmarking通货膨胀,AI 研究员除了收获了推特上的点赞,是否更迷茫了?
#AI乱象不止:内容注水,隐私堪忧· 155 条信息
#OpenAI黑箱化
#Agentic Reasoning
#LLM RL质疑
#Qwen模型
#开源模型
#data contamination
#刷榜benchmarking
分享
评论 0
0
karminski-牙医
2个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek-R1-0528
#开源模型
#Qwen3-235B-A22B
#编程能力
#数学能力
#OpenAI-o3
#Gemini
分享
评论 0
0
DeBill
2个月前
发现 DeepSeek 的开源模型大获成功后,好像没有人再提llama系统模型的事了,AI竞争真是太残酷了
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek
#开源模型
#llama系统
#AI竞争
分享
评论 0
0
歸藏(guizang.ai)
3个月前
我去,阿里的大招终于发布了!千问 3 开源 - 性能超越一众国内领先模型,也是全球最强的开源模型 - 开源8个尺寸模型最大235B,激活参数22B,最小0.6B - 支持类似Claude 3.7的混合推理,根据问题难度判断推理投入 - 原生支持各种 Agents 功能和 MCP 协议,对于Agents产品重大利好! 下面是详细介绍👇
#阿里巴巴
#千问3
#开源模型
#Claude 3.7
#混合推理
#Agents功能
#MCP协议
分享
评论 0
0
karminski-牙医
4个月前
刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一些的... 去年 Llama 用的真的很爽,然后 DeepSeek-V3 一出,就没 Llama 啥事情了...
#Meta
#AI
#离职
#llama-4
#Qwen
#Gemma
#Google
#开源模型
分享
评论 0
0
Michael Anti
5个月前
Sam的百度嘴脸就漏出来的,给你丫免费用开源模型、主机可以放到你家地下室,啥他妈国家补贴和国家控制?一个闭源模型,竟然以安全理由禁止开源模型。没竞争,再英雄,人最终都会难看。
#百度闭源
#开源模型
#国家补贴
#竞争
#安全理由
分享
评论 0
0
karminski-牙医
5个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
小互
5个月前
Llama 4将在未来几周推出 据金融时报报道 Meta 计划在其最新的开源模型Llama 4 中引入改进的语音功能,预计将在未来几周内推出。 知情人士表示,Meta认为未来的 AI 驱动代理将以语音对话为主,而非以文本为主,他们将押注语音功能。 Meta可能正在改进其AI的语音理解功能,使其更准确地识别人类语音,提高交互体验。 使其更接近OpenAI的ChatGPT或Google Assistant,并集成更多语音控制功能。 Meta可能计划将语音AI应用于社交媒体,如Facebook、Instagram和WhatsApp,使用户可以通过语音命令完成更多任务。 例如: - 自动回复消息:AI可以根据上下文自动回复WhatsApp或Messenger中的信息。 - 内容推荐:根据用户的兴趣,智能推送内容,如视频、新闻或广告。 - 虚拟助手功能:如预订餐厅、设置提醒、安排会议等。 据之前报道Llama 4 Mini 已完成预训练,Llama 4模型仍在训练中。Meta 可能在未来几周内发布初步结果或技术演示。
#Llama4
#Meta
#语音功能
#AI技术
#开源模型
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞