时政
财经
科技
虚拟货币
其他
登录
#SOTA
关注
orange.ai
2天前
前几天在云栖大会上路过了一个超级酷的图生 3D 模型。 这个模型它真的会炸裂,就是可以把 3D 模型进行组件分解。 而且还支持无限炸裂,一次不够就再炸一次。。。 通过一步步的拆解,就把复杂的模型拆解成了简单模型 这样处理之后,可以在各类场景下大幅提高3D模型精度。 比如打印玩具的时候可以逐个精修,提高了可用性。 比如3D打印可以分别打印零件,减少损耗。 不管是高精度游戏、影视还是工业设计,都能用上。 这个模型同时也是目前 3D 模型效果的 SOTA。 模型的名字叫 Hyper3D Rodin Gen-2
#云栖大会
#3D模型
#Hyper3D Rodin Gen-2
#组件分解
#SOTA
分享
评论 0
0
向阳乔木
1周前
有传言称 Gemini 3.0 Pro 和 Claude 4.5 Sonnet 可能在本周发布... 看看新的大模型SOTA会有什么惊喜。
Google Gemini 2.5发布引发AI模型性价比热议· 201 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#Gemini 3.0 Pro
#Claude 4.5 Sonnet
#大模型
#发布
#SOTA
分享
评论 0
0
Compute King
1周前
凌晨,阿里重磅开源三款模型,一举刷新32项业界SOTA 太卷了呀,兄弟们!我想回农村。 今日凌晨,阿里通义大模型团队一口气发布三款开源模型:原生全模态大模型Qwen3-Omni;语音生成模型Qwen3-TTS;以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。 其中,Qwen3-Omni可同时处理文本,图像,音频与视频输入,并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中,该模型斩获32项开源SOTA与22项总体SOTA,性能超越Gemini-2.5-Pro,Seed-ASR,GPT-4o-Transcribe等闭源强模型。同时,其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言,在语音稳定性与音色相似度方面优于SeedTTS,GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能,能够实现人物与人物,人物与物体等跨图像拼接,显著扩展了应用场景。 此次开源还包括Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。 相关开源地址已同步上线: Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力,也再次引爆了开源社区的关注。
#阿里
#开源模型
#Qwen3-Omni
#多模态
#SOTA
分享
评论 0
0
sitin
1周前
面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。 特点: SOTA 性能:在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平,词错误率极低。 高效推理:在 RTX 4090 上 RTF≈0.17,可满足实时交互需求。 超拟人语音:支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。 技术突破:采用“层次化语言建模 + 局部扩散生成”,端到端直接合成高质量语音,稳定性与表现力兼具。 关键技术: 层次化语言建模:基于MiniCPM 4.0文本基座,实现语义-声学解耦 有限标量量化(FSQ):构建"半离散"中间表示,提升生成稳定性 因果式VAE编解码器:低帧率隐空间压缩,支持流式输出
#面壁智能
#语音生成模型
#VOxCPM
#零样本声音克隆
#SOTA
分享
评论 0
0
sitin
3周前
面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型,推理速度比同尺寸开源模型快3倍以上,综合能力达同级SOTA水平。 MiniCPM 4.1支持高效双频换挡,长文本用稀疏,短文本用稠密,推理效能高,长文本缓存锐减,端侧友好。 三大核心亮点 首个原生稀疏架构深思考模型 通过可训练稀疏注意力创新,代码、数学推理等任务推理速度比同尺寸开源模型快 3 倍以上。 同级 SOTA 综合性能 在知识、推理、编程、指令遵循等综合能力达到同级最佳水平。 高效双频换挡机制 长文本场景自动启用稀疏注意力,短文本场景切换至稠密注意力,兼顾效率与精度。
#MiniCPM 4.1
#稀疏架构
#深思考模型
#SOTA
#双频换挡
分享
评论 0
0
sitin
1个月前
哪里不对改哪里!全能图像编辑模型Qwen-lmage-Edit来啦 Qwen团队推出全能图像编辑模型Qwen-lmage-Edit。模型基于20B参数的Qwen-lmage模型进一步训练, 具备语义与外观双重编辑能力,支持中英文双语文字精准编辑,可实现原创P创作、视角转换、风格迁移、元素增删改等功能。 不仅能P图换风格,还能直接改图片里的字,而且修得又准又好,旨在让所有人都能轻松成为修图大师。 主要亮点和特性: 1.双重编辑能力: 语义编辑 (High-level):改变图片的整体风格、视角、角色形象(如IP创作),允许整张图片像素变化,但保持核心内容语义一致(例如,把真人变成吉卜力动画风格,或将一个物体旋转180度)。 外观编辑 (Low-level):对图片进行局部、精细的修改,要求图片其他部分完全不变(例如,删除图片里的一根头发丝、给衣服换颜色、添加一个带倒影的路牌)。 2.精准的文字编辑:这是它的一大杀手锏。模型能够直接理解和修改图片中的文字,无论是中文还是英文,并且能尽力保持原有的字体、大小和风格。这对于修改海报、修正错误文字极其有用。 3.强大的性能:文章称,在多项公开测试中,该模型都达到了SOTA(当前最先进)的性能水平,是一个强大的基础模型。 4.链式编辑:文章展示了一个重要应用——可以通过多次、逐步的编辑指令,不断修正图片,直到达到完美效果(例如,逐步修正书法作品中的每一个错别字)。 目的是什么? 降低视觉内容创作(如IP设计、海报修改、照片修复、风格化创作)的技术门槛,让用户能够通过简单的语言指令就能完成复杂的图片编辑任务。
#Qwen-lmage-Edit
#图像编辑
#AI模型
#文字编辑
#SOTA
分享
评论 0
0
Tom Huang
1个月前
7.7K Star ⚡️ 最好的开源 Deep Research 平台发布! Langchain 这个 open-deep-research 效果也太好了,在全球 DeepResearch benchmark 上登顶最好的开源 SOTA 效果 🔥 开源地址 👉
#开源
#Deep Research
#LangChain
#SOTA
#Benchmark
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
看字节seed这研究趋势,不会截胡了DeepSeek的下一个突破吧?🤔 北京大学、ByteDance Seed和香港大学研究:SWE-Swiss——一个用于构建人工智能的完整训练“公式”,用于解决软件工程任务。 基于此,他们的32B参数SWE-Swiss-32B在SWE-bench Verified上达到了60.2%,为其尺寸设定了新的SOTA。 这证明,通过合适的方法,中型模型可以超越其重量。
#字节Seed
#DeepSeek
#SWE-Swiss
#软件工程任务
#SOTA
分享
评论 0
0
karminski-牙医
1个月前
GPT-5 召回的确牛逼,所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据,192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的,从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#GPT-5
#RAG
#OpenAI
#奥特曼
#SOTA
分享
评论 0
0
Jesse Lau 遁一子
3个月前
Google推出了最新的 Gemini 2.5 Pro(06 月 5 日版)更新,多项指标 > openai o3 并计划将其作为长期稳定版本。主要亮点包括: - 在 HLE、Aider 和 GPQA 上达到 SOTA(最先进水平) - 新增支持“思维预算”功能 - 成本不变,性能表现处于最优解集合 - 有效修复了 3 月 25 日版本中的性能回退问题
#Google
#Gemini2.5Pro
#AI更新
#SOTA
#HLE
#Aider
#GPQA
#思维预算
#性能优化
#版本更新
分享
评论 0
0
阑夕
6个月前
昆仑万维今天发的音乐大模型Mureka O1,指标上已经达到了SOTA,当然吹的文章你们肯定不想看,直接上作品最有说服力,这首歌曲从歌词到谱曲再到人声都是AI完成的,画面是后期用剪映配的,旧版本音乐大模型里挥之不去的那种AI电流感几乎已经听不出来了,你们觉得如何?客观打个分。
#昆仑万维
#Mureka O1
#音乐大模型
#AI歌曲
#SOTA
分享
评论 0
0
orange.ai
8个月前
R1+Sonnet:我们加起来才是最强的! 在 Aider 的最新多语言基准测试中测试中,R1+Sonnet 超越 o1 拿下第一。 R1 作为架构师, Claude Sonnet 作为编辑器,在 aider 多语言基准测试中设定了新的 SOTA(最先进技术水平)64.0%。 不仅超过了之前 o1 的 SOTA 总体成本还降低了 14 倍。 这件事很神奇,因为使用 o1+ Sonnet 无法超越 o1 自己。 背景信息: Aider 支持使用一对模型进行编码 架构师模型被要求描述如何解决编码问题。思考/推理模型通常在这个角色中表现良好。 编辑器模型接收到架构师的设计方案,并被要求生成特定的代码编辑指令,以将这些更改应用到现有的源文件中。
#R1
#sonnet
#Aider
#多语言基准测试
#SOTA
#O1
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞