时政
财经
科技
登录
#开源模型
关注
karminski-牙医
2周前
MiniMax 开源周第二弹来啦!视频生成大模型—— Hailuo-02 这个模型支持文生视频,图生视频,甚至添加人物照片作为索引来生成人物在其他场景内互动的视频。 从官方放出的数据来看,目前与 Veo3, 豆包-seedance-1.0-pro 处于排行榜前三的位置。我已经正在测试了,稍后给大家带来实测视频! (这个帖子中的视频是官方的)
#MiniMax
#视频生成
#Hailuo-02
#开源模型
#排行榜
#Veo3
#豆包-seedance-1.0-pro
分享
评论 0
0
Gorden Sun
2周前
MiniMax-M1:MiniMax开源的推理模型 分80K和40K两个版本,这里的80K和40K是指推理消耗的最大token数。456B总参数,激活参数45.9B。评分超过旧版DeepSeek R1和Qwen3-235B-A22B。 在线使用: 模型: Github:
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 6 条信息
#MiniMax
#开源模型
#推理模型
#DeepSeek R1
#Qwen3-235B-A22B
#人工智能
分享
评论 0
0
Tom Huang
2周前
Minimax 也发布了自家的类 Manus Agent 产品⚡️ 伴随发布的是 Minimax M1,最强开源的 agentic 推理模型,配备超大上下文窗口以及极低成本的 RL 训练效率 产品体验地址👉
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 6 条信息
#MiniMax
#ManusAgent
#M1发布
#开源模型
#agentic推理
#RL训练
分享
评论 0
0
Tom Huang
2周前
Minimax 开源世界首个长上下文推理模型 -Minimax-M1⚡️ - 1M token 输入,80K Token 输出 - 最强开源 Agentic 能力模型 - 仅 50 万刀 RL-based 训练成本效率
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 6 条信息
#MiniMax
#长上下文推理
#开源模型
#AI技术
#agentic能力
分享
评论 0
0
小互
2周前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 6 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
宝玉
2周前
请教一下,如果在国内要做AI生成图片的产品,如何做输出后内容的检测,比如色情的、政治敏感的?有没有什么开源小模型可以用的?有没有什么商业产品可以用的?
#AI生成图片
#内容检测
#色情检测
#政治敏感
#开源模型
#商业产品
分享
评论 0
0
Tw93
2周前
一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖
#开源模型
#多模态模型
#BAGEl
#AI能力
#GPT-4o
#Gemini 2.0
#图片编辑
#文生图
分享
评论 0
0
EC Elliot
2周前
字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github
#多模态模型
#BAGEl
#字节
#Qwen2.5-VL
#InternVL-2.5
#SD3
#图像生成
#图像编辑
#风格迁移
#自由视觉操作
#多轮对话
#复杂推理
#世界建模
#开源模型
分享
评论 0
0
AI Will
3周前
订阅乱象... 这就是为什么我们需要开源模型来对大AI实验室施加压力。 deepseek和qwen可能不是最好的——但如果没有开源竞争,gemini和openAI就不会提供这么多免费的东西。 另外,openAI什么时候发布开源权重模型? 来自:Haider.
中国DeepSeek引发美国科技股暴跌事件· 79 条信息
#订阅乱象
#开源模型
#AI实验室
#DeepSeek
#Qwen
#Gemini
#OpenAI
#竞争
#开源发布
分享
评论 0
0
AI Will
4周前
哇... 最新的DeepSeek R1现在是全球第四智能的模型,仅次于openAI的o4-mini、o3和Gemini 2.5 Pro。 它们竟然这么快就与封闭的AI实验室竞争上了。 看看与oAI和Anthropic模型相比的性价比,真是疯狂。 DeepSeek到底有什么秘密武器是这些大型AI实验室所没有的,尤其考虑到它是开源的? 来自:Haider
中国DeepSeek引发美国科技股暴跌事件· 79 条信息
#DeepSeek R1
#AI竞争
#开源模型
#智能模型
#性价比
#AI实验室
分享
评论 0
0
马东锡 NLP 🇸🇪
1个月前
OpenAI 悄然隐藏CoT推理过程,逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程,变的非常困难。 另一方面,近期的几篇 LLM RL 的论文的可靠性受到质疑, 让使用开源的 Qwen 模型的工作变得似乎意义虚无化。 另外,刷榜benchmarking的开源模型,又有多少存在 data contamination 的问题? 闭源的不让蒸馏,开源的又不完全可靠。 在LLM, Agent 一片火热的氛围下,benchmarking通货膨胀,AI 研究员除了收获了推特上的点赞,是否更迷茫了?
#AI乱象:内容失真、伦理挑战与信息控制· 85 条信息
#OpenAI黑箱化
#Agentic Reasoning
#LLM RL质疑
#Qwen模型
#开源模型
#data contamination
#刷榜benchmarking
分享
评论 0
0
karminski-牙医
1个月前
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#DeepSeek-R1-0528
#开源模型
#Qwen3-235B-A22B
#编程能力
#数学能力
#OpenAI-o3
#Gemini
分享
评论 0
0
DeBill
1个月前
发现 DeepSeek 的开源模型大获成功后,好像没有人再提llama系统模型的事了,AI竞争真是太残酷了
中国DeepSeek引发美国科技股暴跌事件· 79 条信息
#DeepSeek
#开源模型
#llama系统
#AI竞争
分享
评论 0
0
歸藏(guizang.ai)
2个月前
我去,阿里的大招终于发布了!千问 3 开源 - 性能超越一众国内领先模型,也是全球最强的开源模型 - 开源8个尺寸模型最大235B,激活参数22B,最小0.6B - 支持类似Claude 3.7的混合推理,根据问题难度判断推理投入 - 原生支持各种 Agents 功能和 MCP 协议,对于Agents产品重大利好! 下面是详细介绍👇
#阿里巴巴
#千问3
#开源模型
#Claude 3.7
#混合推理
#Agents功能
#MCP协议
分享
评论 0
0
karminski-牙医
2个月前
刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一些的... 去年 Llama 用的真的很爽,然后 DeepSeek-V3 一出,就没 Llama 啥事情了...
#Meta
#AI
#离职
#llama-4
#Qwen
#Gemma
#Google
#开源模型
分享
评论 0
0
Michael Anti
3个月前
Sam的百度嘴脸就漏出来的,给你丫免费用开源模型、主机可以放到你家地下室,啥他妈国家补贴和国家控制?一个闭源模型,竟然以安全理由禁止开源模型。没竞争,再英雄,人最终都会难看。
#百度闭源
#开源模型
#国家补贴
#竞争
#安全理由
分享
评论 0
0
karminski-牙医
3个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
小互
3个月前
Llama 4将在未来几周推出 据金融时报报道 Meta 计划在其最新的开源模型Llama 4 中引入改进的语音功能,预计将在未来几周内推出。 知情人士表示,Meta认为未来的 AI 驱动代理将以语音对话为主,而非以文本为主,他们将押注语音功能。 Meta可能正在改进其AI的语音理解功能,使其更准确地识别人类语音,提高交互体验。 使其更接近OpenAI的ChatGPT或Google Assistant,并集成更多语音控制功能。 Meta可能计划将语音AI应用于社交媒体,如Facebook、Instagram和WhatsApp,使用户可以通过语音命令完成更多任务。 例如: - 自动回复消息:AI可以根据上下文自动回复WhatsApp或Messenger中的信息。 - 内容推荐:根据用户的兴趣,智能推送内容,如视频、新闻或广告。 - 虚拟助手功能:如预订餐厅、设置提醒、安排会议等。 据之前报道Llama 4 Mini 已完成预训练,Llama 4模型仍在训练中。Meta 可能在未来几周内发布初步结果或技术演示。
#Llama4
#Meta
#语音功能
#AI技术
#开源模型
分享
评论 0
0
人民网-新华网
4个月前
中国AI开源模型推动全球共享智能红利
新华社北京3月1日电 综述|中国AI开源模型推动全球共享智能红利 新华社记者 从工业革命到智能时代,进步的科学技术总是会激发人们共享人类文明成果的美好愿望,但技术垄断屡见不鲜,很多发展中国家难
#中国AI
#开源模型
#智能红利
#全球共享
分享
评论 0
0
AIGCLINK
4个月前
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
#西北工业大学
#OSUM
#语音理解
#开源模型
#ASR
#情感识别
#Whisper
#Qwen2
#多任务支持
#语音识别技术
#科技新品
分享
评论 0
0
环球网-中国新闻网
4个月前
OpenAI考虑开源某个模型?奥尔特曼在线发起投票
综合报道,当地时间2月17日,美国开放人工智能研究中心(OpenAI)首席执行官萨姆·奥尔特曼在社交媒体平台上,就该公司下一个开源项目发起投票调查。
#OpenAI
#开源模型
#奥尔特曼
#在线投票
分享
评论 0
0
Michael Anti
4个月前
我只有一个问题:百度的人会如实告诉他们老板其实文心一言从Day One开始就完全不如其他中国开源模型、而且每个月都在加大差距吗?难道非要被苹果辞退了,才知道自己模型不行吗?
#百度
#文心一言
#开源模型
#差距
#苹果
分享
评论 0
0
Gorden Sun
4个月前
FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:
#小红书
#语音识别
#开源模型
#方言识别
#英文识别
#多模态LLM
#中文识别
#GitHub
分享
评论 0
0
北美王路飞
5个月前
勃勃是浙大毕业在伯克利拿了物理学博士的高华,智力水平是不容质疑的。 可惜搞意识形态把脑子给搞坏了。 我能理解为什么钱学森能写出亩产万斤了。 学物理的一碰意识形态就容易降智, 勃勃每天号称手写的玩意还不如开源模型生产出来的语料垃圾🤣 谢谢大家!
#勃勃
#浙大
#伯克利
#物理学
#意识形态
#钱学森
#亩产万斤
#开源模型
分享
评论 0
0
新华网-新华网
5个月前
全球瞭望|英媒:DeepSeek最新开源模型将推动人工智能技术应用
全球瞭望|英媒:DeepSeek最新开源模型将推动人工智能技术应用-
#DeepSeek
#开源模型
#人工智能
#技术应用
#英媒
#全球瞭望
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞