时政
财经
科技

#开源模型

马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-05-30 04:20:48

OpenAI 悄然隐藏CoT推理过程,逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程,变的非常困难。 另一方面,近期的几篇 LLM RL 的论文的可靠性受到质疑, 让使用开源的 Qwen 模型的工作变得似乎意义虚无化。 另外,刷榜benchmarking的开源模型,又有多少存在 data contamination 的问题? 闭源的不让蒸馏,开源的又不

#OpenAI黑箱化#Qwen模型#开源模型
karminski-牙医
karminski-牙医
2025-05-30 03:04:53

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-

#DeepSeek-R1-0528#开源模型#Qwen3-235B-A22B
DeBill
DeBill
2025-05-29 12:37:37

发现 DeepSeek 的开源模型大获成功后,好像没有人再提llama系统模型的事了,AI竞争真是太残酷了

#DeepSeek#开源模型#llama系统
歸藏(guizang.ai)
歸藏(guizang.ai)
2025-04-29 08:53:23

我去,阿里的大招终于发布了!千问 3 开源 - 性能超越一众国内领先模型,也是全球最强的开源模型 - 开源8个尺寸模型最大235B,激活参数22B,最小0.6B - 支持类似Claude 3.7的混合推理,根据问题难度判断推理投入 - 原生支持各种 Agents 功能和 MCP 协议,对于Agents产品重大利好! 下面是详细介绍👇

#阿里巴巴#千问3#开源模型
karminski-牙医
karminski-牙医
2025-04-04 07:37:00

刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一

#Meta#AI#离职
Michael Anti
Michael Anti
2025-03-14 10:41:03

Sam的百度嘴脸就漏出来的,给你丫免费用开源模型、主机可以放到你家地下室,啥他妈国家补贴和国家控制?一个闭源模型,竟然以安全理由禁止开源模型。没竞争,再英雄,人最终都会难看。

#百度闭源#开源模型#国家补贴
karminski-牙医
karminski-牙医
2025-03-13 05:05:47

刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Ge

#Google#开源模型#多模态
小互
小互
2025-03-08 13:22:38

Llama 4将在未来几周推出 据金融时报报道 Meta 计划在其最新的开源模型Llama 4 中引入改进的语音功能,预计将在未来几周内推出。 知情人士表示,Meta认为未来的 AI 驱动代理将以语音对话为主,而非以文本为主,他们将押注语音功能。 Meta可能正在改进其AI的语音理解功能,使其更准确地识别人类语音,提高交互体验。 使其更接近OpenAI的ChatGPT或Google Ass

#Llama4#Meta#语音功能
人民网-新华网
人民网-新华网
2025-03-02 06:20:00

中国AI开源模型推动全球共享智能红利

  新华社北京3月1日电 综述|中国AI开源模型推动全球共享智能红利  新华社记者  从工业革命到智能时代,进步的科学技术总是会激发人们共享人类文明成果的美好愿望,但技术垄断屡见不鲜,很多发展中国家难

#中国AI#开源模型#智能红利
AIGCLINK
AIGCLINK
2025-02-20 16:14:11

西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时

#西北工业大学#OSUM#语音理解
环球网-中国新闻网
环球网-中国新闻网
2025-02-18 14:37:49

OpenAI考虑开源某个模型?奥尔特曼在线发起投票

综合报道,当地时间2月17日,美国开放人工智能研究中心(OpenAI)首席执行官萨姆·奥尔特曼在社交媒体平台上,就该公司下一个开源项目发起投票调查。

#OpenAI#开源模型#奥尔特曼
Michael Anti
Michael Anti
2025-02-13 15:35:55

我只有一个问题:百度的人会如实告诉他们老板其实文心一言从Day One开始就完全不如其他中国开源模型、而且每个月都在加大差距吗?难道非要被苹果辞退了,才知道自己模型不行吗?

#百度#文心一言#开源模型
Gorden Sun
Gorden Sun
2025-02-11 19:49:05

FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:

#小红书#语音识别#开源模型
北美王路飞
北美王路飞
2025-01-31 13:52:42

勃勃是浙大毕业在伯克利拿了物理学博士的高华,智力水平是不容质疑的。 可惜搞意识形态把脑子给搞坏了。 我能理解为什么钱学森能写出亩产万斤了。 学物理的一碰意识形态就容易降智, 勃勃每天号称手写的玩意还不如开源模型生产出来的语料垃圾🤣 谢谢大家!

#勃勃#浙大#伯克利
新华网-新华网
新华网-新华网
2025-01-28 14:33:51

全球瞭望|英媒:DeepSeek最新开源模型将推动人工智能技术应用

全球瞭望|英媒:DeepSeek最新开源模型将推动人工智能技术应用-

#DeepSeek#开源模型#人工智能
-Zho-
-Zho-
2025-01-28 00:57:40

卧槽!!!DeepSeek 又直接发大招了!整上多模态大一统开源模型 Janus-Pro 系列了!!!卧槽了!!! 上一个开源多模态统一模型还是Emu3(10月21号左右),我发的测试原帖在: 模型(7B): 模型(1B): 等我过年期间写好JanusPro的插件和当时Emu3的插件一起发!

#JanusPro#开源模型#多模态
小互
小互
2025-01-27 12:08:17

阿里巴巴推出Qwen2.5-1M 支持100万Token上下文的开源模型,性能媲美GPT4o mini Qwen2.5-1M 在处理 超长文本任务 和 短文本任务 上都表现出了卓越的能力,尤其是在处理复杂的长上下文场景中,达到了开源模型的领先水平。 推理速度比传统方法快 3 到 7 倍,尤其在处理超长序列时表现优异。 推理阶段通过块状预填充(Chunked Prefill)技术,使显存需

#阿里巴巴#Qwen2.5-1M#开源模型
阿里巴巴推出Qwen2.5-1M 

支持100万Token上下文的开源模型,性能媲美GPT4o mini

Qwen2.5-1M 在处理 超长文本任务 和 短文本任务 上都表现出了卓越的能力,尤其是在处理复杂的长上下文场景中,达到了开源模型的领先水平。

推理速度比传统方法快 3 到 7 倍,尤其在处理超长序列时表现优异。

推理阶段通过块状预填充(Chunked Prefill)技术,使显存需
Michael Anti
Michael Anti
2024-12-27 18:13:31

今晚给10岁的小凯恩上算法课时,让他在常用AI中置顶新增DeepSeek v3,告诉他这是中国刚发布的开源模型。这次是做C++回溯算法题,有什么不懂的就让DeepSeek回答,他用得挺好。我说希望他以后成为像DeepSeek、Qwen里面的大哥哥们一样的AI程序员。男孩子需要榜样。

#小凯恩#算法课#C++
Michael Anti
Michael Anti
2024-12-27 14:40:16

其实有了DeepSeek、Qwen这样开源的中国模型,更能避免敏感审查。这个有点颠覆大家的常识。实际上因为开源,所以你可以把引用任何推理云上的这些开源模型,如果有几万元余钱,你自己买GPU服务器放在你卧室(暖气可以省了),所以反而没有传统中美AI服务的审查问题。

#DeepSeek#Qwen#开源模型
yihong0618
yihong0618
2024-12-27 13:29:23

中国最强的两个模型是开源的:Qwen, DeepSeek 美国最强的两个模型是闭源的:Claude , GPT

#中国模型#开源模型#Qwen
阑夕
阑夕
2024-12-27 08:43:33

这几天刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。 宇树在早年基本上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的吸引力,但从B系列型号开始,宇树的机器狗就在灵活性上可以和波士顿动力平起平坐了。 B

#中国AI#技术进步#宇树
宝玉
宝玉
2024-07-06 05:24:43

李彦宏:开源模型是智商税,闭源模型更强大,推理成本更低 7月5日,2024世界人工智能大会(WAIC 2024)期间,百度创始人、董事长兼首席执行官李彦宏接受采访时表示,开源其实是一种智商税。“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”

#李彦宏#开源模型#闭源模型
李彦宏:开源模型是智商税,闭源模型更强大,推理成本更低

7月5日,2024世界人工智能大会(WAIC 2024)期间,百度创始人、董事长兼首席执行官李彦宏接受采访时表示,开源其实是一种智商税。“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”
没有更多了 🤐