#开源模型

5天前

阿里又发布一系列新模型和新产品其中开源的是Qwen3-VL和Qwen3Guard。 · Wan2.5-Preview：最新版的视频模型，对标Veo 3 可以同时生成视频和音频。未开源。在线使用： · Qwen3-VL：开源最佳视觉模型。开源的是235B-A22B版本，包含推理和非推理模型，推理模型在推理任务上表现优异。之前基于Qwen 2.5 VL的Agent可以升级一波了。模型： · Qwen3-Max：Qwen系列最强模型之前是Preview版本，这次是正式版。未开源。在线使用： · Qwen3-LiveTranslate-Flash：实时多模态翻译能看懂嘴唇、手势、屏幕文字和现实场景，能听懂语音，并且用语音说出来。仅3秒延迟。未开源。在线体验： · Qwen3-Coder：版本升级提升在终端的表现。未开源。在线使用： · Qwen3Guard：安全审核模型多个大小的版本，支持实时监测和全文监测。模型： · 旅游规划AI助手由Qwen和高德地图、飞猪、搜索功能组合实现，能规划完整的旅游路线。在线使用：

#阿里 #Qwen3-VL #开源模型 #多模态翻译 #AI旅游助手

6天前

cloudflare和openai开源新模型的时候，不只是找大V付费宣传推广，还把cookbook以及对应sdk ，api用法，开源到了github... 而国内发布新模型，基本只是发一个完全用不了的精心制作的幻灯片，大V估计自己都完全没用过一次，就收钱瞎吹... 哎，真应该跟vercel、cloudflare学一学，多一些预算给开源界吧....

#CloudFlare #OpenAI #开源模型 #技术推广 #国内外对比

1周前

凌晨，阿里重磅开源三款模型，一举刷新32项业界SOTA 太卷了呀，兄弟们！我想回农村。今日凌晨，阿里通义大模型团队一口气发布三款开源模型：原生全模态大模型Qwen3-Omni；语音生成模型Qwen3-TTS；以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。其中，Qwen3-Omni可同时处理文本，图像，音频与视频输入，并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中，该模型斩获32项开源SOTA与22项总体SOTA，性能超越Gemini-2.5-Pro，Seed-ASR，GPT-4o-Transcribe等闭源强模型。同时，其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言，在语音稳定性与音色相似度方面优于SeedTTS，GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能，能够实现人物与人物，人物与物体等跨图像拼接，显著扩展了应用场景。此次开源还包括Qwen3-Omni-30B-A3B-Instruct（指令跟随）、Qwen3-Omni-30B-A3B-Thinking（推理）以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。相关开源地址已同步上线： Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力，也再次引爆了开源社区的关注。

#阿里 #开源模型 #Qwen3-Omni #多模态 #SOTA

歸藏(guizang.ai)

1周前

通义的开源图像编辑模型 Qwen-Image-Edit 也获得了大幅更新支持了多图编辑，可以进行多张图片的参考和融合了单图支持保持人像和产品一致性文字处理能力也获得了增强这次更新还内置了 Depth. Edges. Keypoints 三个 ControlNet 模型

深度学习模型升级引发AI能力大跃进，行业迎新变革· 95 条信息

#Qwen-Image-Edit #多图编辑 #ControlNet模型 #图像处理 #开源模型

1周前

抠脚大汉秒变性感女主播，使用的是阿里的开源模型 Wan 2.2 Animate

#阿里 #开源模型 #Wan 2.2 Animate #女主播 #技术

1周前

阿里巴巴发布 Wan2.2-Animate 角色动画生成与替换模型可精准复刻视频人物动作和进行角色替换核心能力：角色动画：输入一张角色图片和一段参考视频，精确复制源视频的表情和动作角色替换：将动画角色无缝替换到原始视频场景中，自动匹配光照和色调，实现完美的场景融合该模型为开源模型...

阿里开源Wan-Animate，角色动画与替换技术引发热议· 8 条信息

#阿里巴巴 #Wan2.2-Animate #角色动画生成 #角色替换 #开源模型

2周前

HuMo：专注生成人物的视频框架支持文本、图片、语音输入，生成人物为中心的视频。后续会开源HuMo-17B和HuMo-1.7B视频模型，目前也可以用Wan-2.1作为视频模型。项目地址： Github：

AI视频井喷：Midjourney领跑，多模态混战· 179 条信息

#HuMo #视频生成 #人物视频 #开源模型 #Wan-2.1

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3周前

大模型的知识只是一个方面，更重要的思考方法。开源模型就可以规避知识产权保护风险了吧？只是收算力的钱和API服务费。

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#大模型 #思考方法 #开源模型 #知识产权 #API服务

3周前

准确来说，我不认为anthropic算反华公司，它只是厌恶开源模型而已，开源模型让他以安全为名试图利用政治形成垄断的梦想破灭了，而中国恰好是最大的开源模型来源而已。如果印度提供了这么多开源模型，你会奇迹的发现他变成反印了。要说达里奥在百度学到了什么，大概是学会了拿政治破坏市场竞争吧。

DeepSeek数据泄露：德国下架，信任崩盘· 265 条信息

中国DeepSeek引发美国科技股暴跌事件· 135 条信息

#Anthropic #开源模型 #政治垄断 #反华 #市场竞争

1个月前

终于，声音驱动视频的开源模型来了！ Wan2.2-S2V，一个专为电影级音频驱动人体动画设计的 14B 参数模型。超越普通的对口型，用声音驱动角色动作！而且它还是开源的！这个模型非常内容创作者制作沉浸式 AI 故事。也是 ListenHub 和 FlowSpeech 的最佳搭档！

AI视频井喷：Midjourney领跑，多模态混战· 179 条信息

#声音驱动视频 #开源模型 #电影级音频 #人体动画 #AI故事

1个月前

微软昨晚开源新模型：VibeVoice-1.5B TTS，可一次生成90分钟语音、多人对话效果听起来质量很高，在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音，支持4个不同说话人，对像播客这种长篇音频内容生成比较实用基于Qwen2.5-1.5B理解上下文和语义，有两个连续语音分词器，这两个分词器以 7.5Hz的超低帧率运行，在保证音频质量的同时，提高了计算效率，使得处理长序列成为可能模型最终输出带 AI 声明水印支持中/英文 MIT许可证 #TTS #VibeVoice

#微软 #VibeVoice-1.5B TTS #开源模型 #语音生成 #多人对话

1个月前

字节跳动 #ByteDance 宣布开源 AI 模型 Seed-OSS-36B 系列，最高支持 512K 上下文适合处理极长的文档和复杂推理链。该系列模型应该是字节跳动基于豆包模型制作的开源版，采用 Apache-2.0 开放许可证，可以任意使用基本没有限制。查看全文：

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#字节跳动 #开源模型 #Seed-OSS-36B #AI #Apache-2.0

1个月前

分享openai最新发布的2个开源模型的System cards TLDR版本： GPT-OSS-120b 与 20b 的核心价值在于以开源生态打破技术壁垒，用混合架构实现性能跃升，凭工具整合重构应用场景。无论是开发者构建垂直模型，还是企业部署 AI 基础设施，这两款模型都提供了 “高性能、低门槛、可定制” 的一站式解决方案。正如 OpenAI 所言，它们标志着 “开放模型从学术实验走向工业级应用的里程碑”。这回真没有llama啥事儿了，中文用Deepseek，英文用openai就完事儿了。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#OpenAI #GPT-OSS-120B #开源模型 #工业级应用 #技术突破

歸藏(guizang.ai)

1个月前

昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini，20B 的相当于 o3-mini 120B 需要 80G 显存推理，20B 只需要 16G 显存设备。目前你知道的所有 LLM 周边生态都已经支持这两个模型，比如 ollama 这种

#OpenAI #开源模型 #gpt-oss #LLM #Ollama

1个月前

看来今天OpenAI要发开源模型了

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#OpenAI #开源模型 #技术发布 #人工智能 #中性

2个月前

glm4.5不错，比我近期用过的任何一个开源模型都更接近于行业顶级几家闭源。

Google Gemini 2.5发布引发AI模型性价比热议· 201 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#GLM4.5 #开源模型 #行业顶级 #闭源 #积极

2个月前

最近开源的的几个模型都号称能超越 claude 4，但实际用在Claude code中效果依旧差距很大。

AI编程工具激战：Claude Code、Gemini Cli崛起· 897 条信息

#开源模型 #Claude 4 #性能差距 #代码能力 #失望

2个月前

我隐约记得 OpenAI 说要发布开源模型来着……

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#OpenAI #开源模型 #发布计划 #技术 #讨论

2个月前

TheInformation：苹果为何在 AI 人才争夺战中节节败退（原因不止是钱）一场旨在解决公司 AI 难题的苹果大规模重组，反而导致核心研究员纷纷投奔竞争对手。核心要点 • 苹果基础模型团队的成员正考虑离职，以期在其他公司追求更宏伟的 AI 目标。 • 在前负责人庞若鸣（Ruoming Pang）离职后，苹果领导层已讨论为留下的团队成员提高薪酬。 • 该团队与苹果管理层在模型开源问题以及 AI 战略模糊不清等方面存在分歧。 --- 今年早些时候，负责苹果人工智能模型的团队希望将其中几款模型作为开源软件发布。这样做既能展示苹果在 AI 领域的技术进步，也能借助外部研究人员的力量来改进模型。然而，此举同样会向公众暴露，当苹果为了适配 iPhone 而缩减模型尺寸后，其性能相较于为更强大的个人电脑或数据中心计算机设计的版本，出现了多么显著的下降。据两位知情人士透露，苹果的软件主管克雷格·费德里吉（Craig Federighi）并不同意走开源路线。他在一封邮件中告诉苹果基础模型团队的负责人庞若鸣，市面上已有足够多来自其他公司的开源模型来激励研究。尽管将模型开源会显示出该软件在性能上不如阿里巴巴和谷歌的某些竞品模型，但费德里吉表示，他更担心的是公众会认为苹果为了让软件在 iPhone 上运行而做出了太多妥协。1 这一事件凸显了苹果内部日益加剧的紧张关系：一方是更具研究思维的基础模型团队，另一方是费德里吉领导的、以产品为中心的软件部门。自三月份的一次重组后，费德里吉的部门开始主导公司的 AI 战略和 Siri 语音助手。这次重组的背景是，一款由 AI 驱动的新版 Siri 发布遭遇了令人尴尬的延迟，同时苹果为 iPhone 发布的一系列其他 AI 功能也反响平平。苹果能否在 AI 领域站稳脚跟，一个重要因素在于其吸引和留住顶尖研究员的能力。而在这方面，它近来一直在失利。上周，庞若鸣在 LinkedIn 上宣布，他已离开苹果，转投 Meta Platforms。此前，他是苹果基础模型团队的负责人。据彭博社报道，庞若鸣在 Meta 未来四年的收入可能高达 2 亿美元。庞若鸣团队的一些成员已经开始追随他前往 Meta。据两位知情人士透露，其中一位是汤姆·冈特（Tom Gunter）。他最近刚离开苹果准备加入 OpenAI，但在庞若鸣被 Meta 聘用后，他突然改变主意，也加入了 Meta。冈特于 2017 年加入苹果，是公司内部最早探索大语言模型的人员之一，并经常作为庞若鸣团队的代表出现在公司级的大型活动中。知情人士还表示，苹果基础模型团队（由几十人组成）的其他成员也正在寻找加入 OpenAI 和 Anthropic 等公司的机会。对于许多研究人员来说，在这场历史性的 AI 人才争夺战中，其他公司开出的令人瞠目结舌的薪酬无疑是他们决定离开苹果的部分原因。据两位了解该团队情况的人士透露，在庞若鸣宣布离职后，苹果领导层告诉留下的基础模型团队，公司正在重新评估薪酬体系，可能会为成员提供更多资金以挽留他们。从历史上看，苹果向员工提供的薪酬不如其他大型科技公司，它更多地是依靠其品牌影响力和在消费科技领域的巨大影响力来吸引人才。但除了钱，还有其他因素。据该团队的前成员透露，像其他公司的研究人员一样，苹果基础模型团队的许多成员都渴望站在 AI 的最前沿——特别是追求其终极目标：超级智能，这是一个用来描述 AI 能够匹敌甚至超越人类能力的术语。相比之下，他们表示，费德里吉的团队更专注于改进 AI 模型，以用于写作和总结等日常应用场景。 “拥有使命感和明确的目标，一直是吸引 AI 人才的有效方式。”阿里·法哈迪（Ali Farhadi）说，他曾于 2023 年前在苹果的 AI 团队工作，现在是非营利组织艾伦人工智能研究所（Allen Institute for AI）的首席执行官。 AI 人才的流失可能会危及苹果在 AI 领域追赶的进程，并加深其对外部 AI 合作伙伴的依赖。据《The Information》此前报道，费德里吉接手后，指示 Siri 团队研究使用外部公司而非庞若鸣团队构建的模型。熟悉合作谈判的人士表示，该公司正在评估来自 OpenAI、Anthropic 和谷歌的外部模型，以驱动一个改进版的 Siri。知情人士称，苹果有意与外部伙伴合作，这进一步让庞若鸣团队的一些成员感到心灰意冷。 ChatGPT 引发的仓促应对苹果在 AI 领域的挑战由来已久。虽然苹果早在 2011 年就通过发布 Siri 将 AI 变成了大众市场产品，但多年来，该公司一直难以跟上 AI 的前沿发展，也难以吸引该领域的顶尖人才。随着时间的推移，它做出了一些让步，为 AI 研究人员创造一个更具吸引力的环境。2018 年，它从谷歌挖来了约翰·贾南德雷亚（John Giannandrea），负责苹果更广泛的 AI 战略，他对 Siri 特别感兴趣。在他上任后，公司开始鼓励研究人员更频繁地发表他们的 AI 发现，这与其保密的文化背道而驰。与科技界的许多公司一样，苹果对 2022 年末 OpenAI 发布的 ChatGPT 感到措手不及。起初，贾南德雷亚的团队并未以太大的紧迫感来应对。这为费德里吉软件团队的成员创造了机会，他们利用 OpenAI 的模型制作了一些演示，展示了 AI 如何实现更具对话性的语音交互和对 iPhone 的控制。尽管苹果也涉足了其他公司的技术，但它仍致力于构建自己的大语言模型来支持这类 AI 功能。构建这些模型的任务落在了庞若鸣的基础模型团队身上，该团队隶属于贾南德雷亚的 AI 部门。在 ChatGPT 发布前一年，贾南德雷亚和他手下的高级副手（其中许多人是从谷歌跟随他过来的）从谷歌 DeepMind 招募了庞若鸣，负责苹果构建基础模型的工作。庞若鸣带来了他在开发和训练大规模 AI 系统方面的丰富专业知识，这涵盖了从模型本身到其背后的支持软件等所有方面。苹果允许庞若鸣在纽约工作，而没有强迫他搬到加州库比蒂诺的总部——对于这样一个关键职位来说，这是一种罕见的举动。起初，后来成为基础模型团队的那个小组规模很小，只有少数几名研究员。一些现有的苹果员工加入了进来，比如冈特，但庞若鸣也从谷歌 DeepMind、Meta、微软和亚马逊招募了人才。到 2022 年末 ChatGPT 的发布让全世界为之着迷时，庞若鸣已经在苹果构建出了大语言模型。然而，贾南德雷亚却将它们搁置了，因为他不相信这项技术的实用性。随着 ChatGPT 的重要性在整个行业内深入人心，苹果高管们意识到公司需要迅速跟上这项技术。2023 年，苹果正式成立了基础模型团队，由庞若鸣担任负责人。该团队成立一年后，已发展到 40 名研究员。庞若鸣向新加入的成员承诺，他们将获得苹果计算基础设施的最高优先级访问权限，以便训练模型。在当时整个行业因 AI 芯片需求激增而面临短缺的情况下，这是一个极具吸引力的前景。一位知情人士表示，苹果的管理人员曾讨论过保持团队增长的方法，比如直接招募整个学术界或工业界的 AI 实验室。尽管管理着一个日益壮大的 AI 研究团队，庞若鸣仍以其对技术事务的持续深入参与而闻名。据一位知情人士透露，他在冬歇期间亲自编写了 AXLearn（苹果用于训练其大型 AI 系统的开源工具）的原型代码，以证明其可行性。 2024 年 6 月，该公司发布了 Apple Intelligence，这是一套由生成式 AI 驱动的新 AI 功能套件，其技术基础正是由庞若鸣的团队开发的。这个新系统包括写作和图像生成工具，与 ChatGPT 集成以回答问题，以及最重要的是，一个更强大的 Siri，苹果表示将在稍后发布。尽管公司发布了这些功能，但基础模型团队感到高层管理缺乏明确的方向。虽然公司有为苹果内部构建最佳 AI 模型的宏大目标，但团队成员并不知道他们应该专注于哪种类型的模型——无论是用于文本理解、语音还是图像。团队成员感到失望的是，苹果设定的目标仅仅是追平 ChatGPT 的能力，而不是更具雄心。高层管理甚至向基础模型团队的一些成员征求关于苹果可以开发什么产品的想法，这加剧了团队对缺乏整体产品愿景来指导 AI 战略的担忧。外部模型尽管如此，在 2025 年初，庞若鸣团队的一些成员对他们在苹果基础模型上的技术进展感到满意。他们相信自己正按计划交付一个能够驱动新版 Siri 的模型，以赶上苹果原定于 2025 年 4 月推出的目标。该团队构建了一个功能性的 AI 系统，能够处理来回对话、回答问题并使用 Siri 完成任务。今年早些时候，他们向贾南德雷亚和 Siri 团队展示了这个功能的演示。在整个会议期间，他大部分时间都保持沉默。但最后，他给出了一个热情的反应。 “这是公司的未来，”据一位直接了解会议情况的人士透露，他当时这样说道。“这很重要。你们做得很好。继续努力。” 这份热情并没有持续多久。今年 3 月，苹果发布消息称，将新版 Siri 推迟到 2026 年的某个时候。这个消息让庞若鸣团队的一些成员感到震惊。过去，这个团队在很大程度上可以自由地进行工作，不受苹果其他部门的干扰，但这也意味着他们与决策过程脱节。因此，据一位前成员透露，团队没有被征求关于延迟的意见，也没有被告知他们的模型到底出了什么问题（如果有的话）。苹果宣布延迟后不久，首席执行官蒂姆·库克将 Siri 团队从贾南德雷亚手中移交给了费德里吉和迈克·罗克韦尔（Mike Rockwell），后者是领导 Vision Pro 头显开发的苹果高管。庞若鸣的团队则继续留在贾南德雷亚的领导下。庞若鸣试图安抚他的团队，告诉他们要专注于团队的使命——为整个苹果构建最好的 AI 模型。直接向贾南德雷亚汇报并协助管理基础模型团队的达芙妮·梁（Daphne Luong）也前来稳定军心。据知情人士透露，她告诉庞若鸣的团队，导致这次重组的问题出在 Siri 身上，而不是苹果的 AI 模型。但新的进展很快削弱了这些安抚之词。今年 6 月，彭博社报道称，Siri 团队正在评估如果采用来自 OpenAI、Anthropic 或谷歌的外部 AI 模型，这款语音助手的表现会如何（知情人士证实了这一举动）。据与他们交谈过的人士透露，一些前团队成员感到士气低落，并开始考虑离开苹果。据现任和前任员工称，庞若鸣的离职在苹果内部引发了一场地震。许多人因庞若鸣的技术知识、职业道德和乐于奉献时间的精神而尊重他。据前员工称，他的团队成员也觉得他在苹果内部保护了他们。现任和前任苹果员工预测，没有他的存在，将会有更多的研究人员离职。长期在谷歌工作的工程师陈志峰（Zhifeng Chen）最近加入了苹果，现在将领导基础模型团队。在 LinkedIn 的告别帖中，庞若鸣重点介绍了他前团队发表的一篇新研究论文，该论文表明苹果在缩小模型以使其在 iPhone 上良好运行方面取得了进展。 “这对我来说是一篇苦乐参半的帖子，因为我昨天离开了苹果，”庞若鸣写道。“最难的部分是离开这个在过去四年里凝聚在一起的紧密团队。”

#苹果AI #人才流失 #庞若鸣 #开源模型 #AI战略分歧

2个月前

Gemini 3.0 要来了 OpenAI 预告了很久的开源模型也终于要来了

Google Gemini 2.5发布引发AI模型性价比热议· 201 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#Gemini 3.0 #OpenAI #开源模型 #技术发布 #AI

3个月前

Kyutai STT ——实时语音转文字（speech-to-text）场景优化的开源模型，主要特点是低延迟、高准确率、强并发处理能力。内置语义语音活动检测模块，能智能判断用户是否说完话，提升对话自然度。而且支持多平台实现，包括 PyTorch、Rust 和 MLX，非常适合各种应用场景。#语音识别 #人工智能

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 519 条信息

#Kyutai STT #语音转文字 #开源模型 #低延迟 #人工智能

karminski-牙医

3个月前

MiniMax 开源周第二弹来啦！视频生成大模型—— Hailuo-02 这个模型支持文生视频，图生视频，甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。从官方放出的数据来看，目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了，稍后给大家带来实测视频！（这个帖子中的视频是官方的）

#MiniMax #视频生成 #Hailuo-02 #开源模型 #排行榜 #Veo3 #豆包-seedance-1.0-pro

3个月前

MiniMax-M1：MiniMax开源的推理模型分80K和40K两个版本，这里的80K和40K是指推理消耗的最大token数。456B总参数，激活参数45.9B。评分超过旧版DeepSeek R1和Qwen3-235B-A22B。在线使用：模型： Github：

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#MiniMax #开源模型 #推理模型 #DeepSeek R1 #Qwen3-235B-A22B #人工智能

3个月前

Minimax 也发布了自家的类 Manus Agent 产品⚡️ 伴随发布的是 Minimax M1，最强开源的 agentic 推理模型，配备超大上下文窗口以及极低成本的 RL 训练效率产品体验地址👉

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#MiniMax #ManusAgent #M1发布 #开源模型 #agentic推理 #RL训练

3个月前

Minimax 开源世界首个长上下文推理模型 -Minimax-M1⚡️ - 1M token 输入，80K Token 输出 - 最强开源 Agentic 能力模型 - 仅 50 万刀 RL-based 训练成本效率

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#MiniMax #长上下文推理 #开源模型 #AI技术 #agentic能力