时政
财经
科技
虚拟货币
其他
登录
#开源模型
关注
Tz
6天前
当神的铠甲太重,已经勒进肉里 —— "神"开始流血了 2025年11月6日,Sam Altman 发了一篇1200字的声明。 语气很诚恳。姿态很低。但你能感觉到,他在出汗。 同一周,北京的月之暗面团队发布了 Kimi K2。训练成本:460万美元。在 SWE-Bench Verified 这个专业代码生成测试上,它跑出了71.3%的成绩——超过了 GPT-5。 OpenAI 的 CFO 前一天刚说"可能需要政府融资支持"。第二天就改口。 这不是巧合。这是流血的声音。 //什么是"神"// 神不是某个人,是一套信念。 这套信念说:只有闭源、重资本、天价算力,才能训练出最强的模型。它的代言人是 OpenAI,是 Sam Altman,是那份横跨8年、总额1.4万亿美元的基础设施承诺清单。 1.4万亿是个什么概念? 相当于整个非洲大陆2023年的 GDP。相当于可以建造140个三峡大坝。相当于给全球每个人发200美元。 这笔钱,OpenAI 准备用来建数据中心、买芯片、铺光纤。他们说服了 Broadcom、Oracle、Microsoft、Nvidia。差点说服了政府。 但现在,DeepSeek 用560万美元训练出了 R1。 Kimi K2 用460万美元,跑通了1T参数的 MoE 架构。 这两个数字,一个是1.4万亿,一个是460万。 差了多少倍? 30万倍。 //为什么流血// 想象一下这个画面: OpenAI 每年烧掉数千亿美元,像一台巨型蒸汽机,轰隆作响,吞吐着电力和芯片。 而月之暗面的团队在北京的办公室里,用384个"专家"(这是 MoE 架构里的技术术语,可以理解为384个小型专业模型)、32B激活参数,在15.5万亿 token 的训练过程中实现了零损失尖峰。 什么叫零损失尖峰?简单说,就是训练过程全程稳定,不需要重启,不需要人工干预,不需要"救火"。 在 SWE-Bench 这样的专业代码生成任务上,Kimi K2 逼近了 GPT-5 的水平。在推理场景中,它打败了 Claude Opus 4 的部分能力。 更要命的是,这些模型开源。 任何人都可以下载权重,部署在自己的服务器上。跑100万 token 只需要0.15美元输入、2.5美元输出。OpenAI 的 API 定价?十倍以上。 Sam Altman 在声明里花了三段篇幅解释"我们不需要政府担保",又花了两段解释"我们的收入增长计划"。他说,OpenAI 今年年化收入约200亿美元,预计2030年要涨到数千亿。 这套叙事建立在一个假设上:闭源模型的性能壁垒能维持足够长的时间,让用户愿意为高昂的 API 付费。 但中国实验室正在粉碎这个假设。 如果 Kimi K2 用不到500万美元的单次训练成本,就能达到与 GPT-5 相近甚至部分超越的表现,那1.4万亿美元的基础设施蓝图到底在买什么? 是买保险吗? 是买垄断吗? 还是买一套已经过时的军备竞赛规则? //伤口在哪里// 伤口不在技术上。 OpenAI 依然有 GPT-5 Pro,依然有企业客户,依然有品牌优势。但伤口在"必要性"上。 举个例子。 OpenAI 会说,那20%的差距是关键——是在极端边缘案例下的稳定性,是企业级的安全保障,是能让 AI 做出科学突破的最后一跃。 但问题是,当 All-In 播客的主持人 Chamath Palihapitiya 公开说"我们已经将大量工作负载转移到 Kimi K2,因为它性能更好且便宜太多"时,这个20%的叙事就开始失效了。 因为大部分用户不需要那最后20%。 他们需要的是"足够好"+"便宜10倍"。 这就像你去买车。一辆车从0加速到100公里需要3.5秒,另一辆需要4.2秒。但前者要100万,后者只要10万。 大部分人会选哪个? DeepSeek 和 Kimi K2 证明了什么 它们证明了一件事:当你用正确的架构设计(MoE + MLA)、正确的优化器(MuonClip 替代 AdamW)、正确的数据 pipeline(智能体模拟场景),1T参数的模型可以在15.5万亿 token 的训练过程中全程稳定。 不需要重启。 不需要人工干预。 不需要"战略国家算力储备"。 这不是技术追赶。 这是路线证伪。 就像当年苹果证明了"智能手机不需要键盘",特斯拉证明了"电动车不需要妥协性能",SpaceX 证明了"火箭可以回收"。 现在,DeepSeek 和 Kimi K2 证明了: 训练顶级 AI 模型,不需要1.4万亿美元。 //之后会发生什么// 神不会死。 OpenAI 还有现金流,还有 ChatGPT 的用户基数,还有企业版订阅。但神会缩小。 1.4万亿美元的承诺会被重新谈判。部分数据中心项目会推迟或取消。投资人会开始问"为什么不用开源模型做底座"。 政府会发现,建设"国家 AI 基础设施"其实可以部署 Kimi K2,而不是向 OpenAI 购买算力配额。 更重要的是,开发者会用脚投票。 当 Hugging Face 上 Kimi K2 的下载量接近10万、GitHub 星标5.6K、Perplexity 的 CEO 公开说要基于 Kimi K2 做后训练时,这场游戏的规则已经变了。 Sam Altman 说"我们相信市场会处理失败"。 但他没说的是:市场正在处理的,不是某家公司的失败,而是某种路径的失败。 那种认为"只有砸更多钱才能做出更好模型"的路径。 那种认为"闭源才能保持领先"的路径。 那种认为"政府应该为私营数据中心提供低成本资本"的路径。 神会继续存在。 但祂的铠甲会被卸下一些。那些用1.4万亿美元堆起来的、刻着"AGI 需要无限算力"的护板,会被一片片敲掉。 留下的可能是一个更轻盈的 OpenAI——依然强大,但不再垄断叙事。 或者,留下的只是一个教训: 当你把赌注压到"我们是唯一能做到这件事的人"上时,最危险的对手不是那些追赶你的人,而是那些证明"其实不需要这么多钱"的人。 Kimi K2 的团队没有试图打败 OpenAI。 他们只是在北京的办公室里,用460万美元,证明了一件事: 有些伤口,不是被对手砍出来的。 是自己的铠甲太重,开始勒进肉里。
OpenAI GPT-5发布引发用户不满,阿尔特曼回应质疑· 140 条信息
#kimi k2
#OpenAI
#低成本AI
#开源模型
#路线证伪
分享
评论 0
0
Kai
1周前
kimi k2 thinking 效果真的很棒,重点不在于现在有没有全面 超过 gpt/claude 重点在于 “神”开始流血了,很多大饼和泡沫是建立在闭源模型的领先上,但如果有个开源的替代品能贴近甚至超过闭源模型,很多事情应该会发生变化
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#Kimi
#K2
#开源模型
#gpt/claude
#技术
分享
评论 0
0
sitin
1周前
ComfyUI 终于上云了。👏 以前玩 ComfyUI,要自己搞显卡、装模型、配插件;现在直接一个浏览器就能用官方的 Comfy Cloud: 后端是 NVIDIA A100(40G)GPU 内置 400+ 开源模型 + 17 个热门扩展 公测期间直接注册就能用,不用排队 以后按「实际运行时间」计费,编辑空闲不算钱 对没有高配电脑、但想认真玩工作流的创作者 / 工作室来说,这波基本就是: 👉 从「本地玩家」升级成「随时随地开图的云端工作站」。
#comfyUI
#云端工作站
#NVIDIA A100
#开源模型
#工作流
分享
评论 0
0
小互
2周前
OpenAI 发布开源安全推理模型:gpt-oss-safeguard 专门用来进行内容审查 模型版本: gpt-oss-safeguard-120B gpt-oss-safeguard-20B 不同于传统“黑盒”内容审核算法: gpt-oss-safeguard 以推理代替记忆,能直接读取你的的安全政策,并在推理时遵循该政策执行判断进行内容审查。 无需学习... 这代表着内容安全从“被动学习规则” 进入“主动理解规则”的新阶段 意味着: - 政策不需要再重新训练,只需修改输入文本即可。 - 模型能输出自己的推理过程,说明为什么作出判断。 - 不同产品、不同场景可以自定义不同政策。新。 - 不同产品、不同场景可以自定义不同政策。
#OpenAI
#内容安全
#开源模型
#安全推理
#主动理解规则
分享
评论 0
0
Gorden Sun
2周前
MiniMax开源MiniMax-M2 230B总参数,10B激活参数,水平跟其他国产头部开源模型接近。 模型:
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#MiniMax
#开源模型
#MiniMax-M2
#230B参数
#国产头部模型
分享
评论 0
0
meng shao
3周前
[论文解读] DeepAnalyze: Agentic LLM 助力自主数据科学 来自中国人民大学和清华大学团队的论文,提出 DeepAnalyze-8B 模型,基于 Agentic LLM 实现从原始数据到深度报告的自主数据科学,突破传统固定流程的局限。 核心贡献 · DeepAnalyze-8B:80亿参数开源模型,自主协调规划、数据理解、代码生成等任务,通过提示或微调支持数据问答、建模及开放研究。 · 课程式训练:从单一技能(推理、代码)到综合能力,结合强化学习解决反馈稀疏问题。 · 轨迹生成框架:通过多智能体交互和关键词引导,从数据集生成50万条高质量训练样本(DataScience-Instruct-500K,已开源)。 · 实现从数据清洗到报告生成的端到端流程。 方法概述 基于 DeepSeek-R1-0528- Qwen3-8B,模型通过五类行动标记(如⟨Analyze⟩规划、⟨Code⟩代码生成)循环优化输出。训练分两阶段: 1. 单一技能微调:监督学习提升推理、数据理解、代码能力,关键词优化增强表格处理。 2. 多技能训练:交互轨迹微调后,用.GRPO 强化学习,结合规则、准确性和 LLM 评分优化。 训练在 NVIDIA A800 GPU 上完成,支持 32K tokens 序列,轨迹从 Spider/BIRD 等数据集生成并过滤。 主要成果 在12个基准测试中,DeepAnalyze-8B 表现优异: · 完整流程(DataSciBench):成功率59.91%,完成率66.24%,接近GPT-4o(66.31%),数据准备(71.68%)和可视化(69.09%)领先。 · 分析/建模(DSBench):准确率30.04%,成功率90.63%,超GPT-4o智能体。 · 多步推理(DABStep):准确率38.88%,远超ReAct+GPT-4o(15.77%)。 · 深度研究(DABStep-Research):内容得分3.81/5,格式4.39/5,优于GPT-4o(3.05/5),案例中识别18-27%费用优化和35-42%欺诈降低潜力。 · 代码/表格问答:代码生成61.7%(超GPT-4-turbo 53.9%),表格问答64.47%(SOTA)。 消融实验显示课程训练提升23.54%,轨迹优化增4.57%。模型、代码、数据集已开源。 论文地址:
#DeepAnalyze-8B
#agentic LLM
#自主数据科学
#数据分析
#开源模型
分享
评论 0
0
meng shao
3周前
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#开源模型
#DeepSeek-OCR
#VLM
#视觉-文本压缩
#文档数字化
分享
评论 0
0
Gorden Sun
4周前
谷歌的开源模型发现新的癌症治疗途径 谷歌的开源模型Cell2Sentence-Scale(基于Gemma系列),发现了一种新的癌症治疗途径,并已在活细胞中得到实验验证。 官方报道: 模型:
谷歌Deep Research:AI操作系统雏形?· 122 条信息
#谷歌
#开源模型
#癌症治疗
#Cell2Sentence-Scale
#Gemma系列
分享
评论 0
0
NanYi
4周前
一年的时间,顶级的开源模型已经都源自中国了,好的开源也是垄断👀
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#开源模型
#中国
#垄断
#技术
#积极
分享
评论 0
0
杀马特宅主
1个月前
这一次中国押注大模型的开源运动可能成功了,贸易战开始站在上风头了。 美国一直想靠封闭垄断卡中国脖子:OpenAI锁软件市场,英伟达整硬件需求,想把AI的虚拟代码到实体算力都攥在手里。问题是AI不只是软件,得靠稀土、光伏硅片、制造链这些“实在东西”才能落地,而这些中国正好有一些关键环节。 中国的应对很直接:一边搞DeepSeek,Qwen, GLM这类低成本开源软件,绕开美国的软件封锁;一边把“稀土-芯片材料-算力”的硬件闭环做扎实. 贸易战本质就是抢产业链的主导权。美国想搞“去中国化”重构分工,可开源偏不按这个规则来——技术不再被少数国家垄断,非美中小企业,用开源模型会更安心软件,加上稳定的硬件供应,这是刚需。以医疗大模型为例,任大模型公司赌咒发誓,患者资料也是不敢直接大规模上传apikey的。 现在局势很明了:美国前期砸的大量资金,在算力能源上可能被特朗普美丽的煤和中国双重卡脖子;而中国靠开源在AI工业运用领域可能会慢慢占上风。 未来工人能和开源模型支持的机器人竞争吗?
DeepSeek数据泄露:德国下架,信任崩盘· 423 条信息
中国DeepSeek引发美国科技股暴跌事件· 164 条信息
#中国
#开源模型
#贸易战
#AI
#产业链
分享
评论 0
0
Gorden Sun
1个月前
IBM开源高性能系列模型Granite 4.0 有几大核心亮点: · 全新的Mamba/Transformer 混合架构,不降低性能的前提下,大幅降低需要的内存,运行成本更低 · 世界上第一个获得ISO 42001 认证的开源模型 · 包括三个型号,Small(32B总参数、9B激活参数)、Tiny(7B总参数、1B激活参数)、Micro(3B参数),其中32B版本能力优秀,与Qwen3 30B-A3B接近。 官方介绍: 模型:
#IBM
#Granite 4.0
#开源模型
#Mamba/Transformer混合架构
#ISO 42001认证
分享
评论 0
0
Gorden Sun
1个月前
阿里又发布一系列新模型和新产品 其中开源的是Qwen3-VL和Qwen3Guard。 · Wan2.5-Preview:最新版的视频模型,对标Veo 3 可以同时生成视频和音频。未开源。 在线使用: · Qwen3-VL:开源最佳视觉模型。 开源的是235B-A22B版本,包含推理和非推理模型,推理模型在推理任务上表现优异。之前基于Qwen 2.5 VL的Agent可以升级一波了。 模型: · Qwen3-Max:Qwen系列最强模型 之前是Preview版本,这次是正式版。未开源。 在线使用: · Qwen3-LiveTranslate-Flash:实时多模态翻译 能看懂嘴唇、手势、屏幕文字和现实场景,能听懂语音,并且用语音说出来。仅3秒延迟。未开源。 在线体验: · Qwen3-Coder:版本升级 提升在终端的表现。未开源。 在线使用: · Qwen3Guard:安全审核模型 多个大小的版本,支持实时监测和全文监测。 模型: · 旅游规划AI助手 由Qwen和高德地图、飞猪、搜索功能组合实现,能规划完整的旅游路线。 在线使用:
#阿里
#Qwen3-VL
#开源模型
#多模态翻译
#AI旅游助手
分享
评论 0
0
Y11
1个月前
cloudflare和openai开源新模型的时候, 不只是找大V付费宣传推广,还把cookbook以及对应sdk ,api用法,开源到了github... 而国内发布新模型,基本只是发一个完全用不了的精心制作的幻灯片,大V估计自己都完全没用过一次,就收钱瞎吹... 哎,真应该跟vercel、cloudflare学一学,多一些预算给开源界吧....
#CloudFlare
#OpenAI
#开源模型
#技术推广
#国内外对比
分享
评论 0
0
Compute King
1个月前
凌晨,阿里重磅开源三款模型,一举刷新32项业界SOTA 太卷了呀,兄弟们!我想回农村。 今日凌晨,阿里通义大模型团队一口气发布三款开源模型:原生全模态大模型Qwen3-Omni;语音生成模型Qwen3-TTS;以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。 其中,Qwen3-Omni可同时处理文本,图像,音频与视频输入,并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中,该模型斩获32项开源SOTA与22项总体SOTA,性能超越Gemini-2.5-Pro,Seed-ASR,GPT-4o-Transcribe等闭源强模型。同时,其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言,在语音稳定性与音色相似度方面优于SeedTTS,GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能,能够实现人物与人物,人物与物体等跨图像拼接,显著扩展了应用场景。 此次开源还包括Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。 相关开源地址已同步上线: Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力,也再次引爆了开源社区的关注。
#阿里
#开源模型
#Qwen3-Omni
#多模态
#SOTA
分享
评论 0
0
歸藏(guizang.ai)
1个月前
通义的开源图像编辑模型 Qwen-Image-Edit 也获得了大幅更新 支持了多图编辑,可以进行多张图片的参考和融合了 单图支持保持人像和产品一致性 文字处理能力也获得了增强 这次更新还内置了 Depth. Edges. Keypoints 三个 ControlNet 模型
深度学习模型升级引发AI能力大跃进,行业迎新变革· 131 条信息
#Qwen-Image-Edit
#多图编辑
#ControlNet模型
#图像处理
#开源模型
分享
评论 0
0
宝玉
1个月前
抠脚大汉秒变性感女主播,使用的是阿里的开源模型 Wan 2.2 Animate
#阿里
#开源模型
#Wan 2.2 Animate
#女主播
#技术
分享
评论 0
0
小互
1个月前
阿里巴巴发布 Wan2.2-Animate 角色动画生成与替换模型 可精准复刻视频人物动作和进行角色替换 核心能力: 角色动画:输入一张角色图片和一段参考视频,精确复制源视频的表情和动作 角色替换:将动画角色无缝替换到原始视频场景中,自动匹配光照和色调,实现完美的场景融合 该模型为开源模型...
阿里开源Wan-Animate,角色动画与替换技术引发热议· 10 条信息
#阿里巴巴
#Wan2.2-Animate
#角色动画生成
#角色替换
#开源模型
分享
评论 0
0
Gorden Sun
2个月前
HuMo:专注生成人物的视频框架 支持文本、图片、语音输入,生成人物为中心的视频。后续会开源HuMo-17B和HuMo-1.7B视频模型,目前也可以用Wan-2.1作为视频模型。 项目地址: Github:
AI视频井喷:Midjourney领跑,多模态混战· 306 条信息
#HuMo
#视频生成
#人物视频
#开源模型
#Wan-2.1
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
大模型的知识只是一个方面,更重要的思考方法。 开源模型就可以规避知识产权保护风险了吧?只是收算力的钱和API服务费。
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#大模型
#思考方法
#开源模型
#知识产权
#API服务
分享
评论 0
0
virushuo
2个月前
准确来说,我不认为anthropic算反华公司,它只是厌恶开源模型而已,开源模型让他以安全为名试图利用政治形成垄断的梦想破灭了,而中国恰好是最大的开源模型来源而已。如果印度提供了这么多开源模型,你会奇迹的发现他变成反印了。要说达里奥在百度学到了什么,大概是学会了拿政治破坏市场竞争吧。
DeepSeek数据泄露:德国下架,信任崩盘· 423 条信息
中国DeepSeek引发美国科技股暴跌事件· 164 条信息
#Anthropic
#开源模型
#政治垄断
#反华
#市场竞争
分享
评论 0
0
orange.ai
2个月前
终于,声音驱动视频的开源模型来了! Wan2.2-S2V,一个专为电影级音频驱动人体动画设计的 14B 参数模型。 超越普通的对口型,用声音驱动角色动作! 而且它还是开源的! 这个模型非常内容创作者制作沉浸式 AI 故事。 也是 ListenHub 和 FlowSpeech 的最佳搭档!
AI视频井喷:Midjourney领跑,多模态混战· 306 条信息
#声音驱动视频
#开源模型
#电影级音频
#人体动画
#AI故事
分享
评论 0
0
AIGCLINK
2个月前
微软昨晚开源新模型:VibeVoice-1.5B TTS,可一次生成90分钟语音、多人对话 效果听起来质量很高,在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音,支持4个不同说话人,对像播客这种长篇音频内容生成比较实用 基于Qwen2.5-1.5B理解上下文和语义,有两个连续语音分词器,这两个分词器以 7.5Hz的超低帧率运行,在保证音频质量的同时,提高了计算效率,使得处理长序列成为可能 模型最终输出带 AI 声明水印 支持中/英文 MIT许可证 #TTS #VibeVoice
#微软
#VibeVoice-1.5B TTS
#开源模型
#语音生成
#多人对话
分享
评论 0
0
蓝点网
2个月前
字节跳动 #ByteDance 宣布开源 AI 模型 Seed-OSS-36B 系列,最高支持 512K 上下文适合处理极长的文档和复杂推理链。该系列模型应该是字节跳动基于豆包模型制作的开源版,采用 Apache-2.0 开放许可证,可以任意使用基本没有限制。查看全文:
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#字节跳动
#开源模型
#Seed-OSS-36B
#AI
#Apache-2.0
分享
评论 0
0
Y11
2个月前
分享openai最新发布的2个开源模型的System cards TLDR版本: GPT-OSS-120b 与 20b 的核心价值在于以开源生态打破技术壁垒,用混合架构实现性能跃升,凭工具整合重构应用场景。 无论是开发者构建垂直模型,还是企业部署 AI 基础设施,这两款模型都提供了 “高性能、低门槛、可定制” 的一站式解决方案。 正如 OpenAI 所言,它们标志着 “开放模型从学术实验走向工业级应用的里程碑”。 这回真没有llama啥事儿了,中文用Deepseek,英文用openai就完事儿了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#OpenAI
#GPT-OSS-120B
#开源模型
#工业级应用
#技术突破
分享
评论 0
0
歸藏(guizang.ai)
3个月前
昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini,20B 的相当于 o3-mini 120B 需要 80G 显存推理,20B 只需要 16G 显存设备。 目前你知道的所有 LLM 周边生态都已经支持这两个模型,比如 ollama 这种
#OpenAI
#开源模型
#gpt-oss
#LLM
#Ollama
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞