#SOTA

5个月前

对比了一下新出的这个百度paddle ocr和pytesseract+pdfplumber，在财务报表的表格提取方面还是百度的这个飞浆赢了，不愧是sota了。。。

#百度飞浆OCR #财务报表提取 #表格识别 #SOTA #积极

6个月前

前几天在云栖大会上路过了一个超级酷的图生 3D 模型。这个模型它真的会炸裂，就是可以把 3D 模型进行组件分解。而且还支持无限炸裂，一次不够就再炸一次。。。通过一步步的拆解，就把复杂的模型拆解成了简单模型这样处理之后，可以在各类场景下大幅提高3D模型精度。比如打印玩具的时候可以逐个精修，提高了可用性。比如3D打印可以分别打印零件，减少损耗。不管是高精度游戏、影视还是工业设计，都能用上。这个模型同时也是目前 3D 模型效果的 SOTA。模型的名字叫 Hyper3D Rodin Gen-2

#云栖大会 #3D模型 #Hyper3D Rodin Gen-2 #组件分解 #SOTA

6个月前

有传言称 Gemini 3.0 Pro 和 Claude 4.5 Sonnet 可能在本周发布... 看看新的大模型SOTA会有什么惊喜。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3.0 Pro #Claude 4.5 Sonnet #大模型 #发布 #SOTA

6个月前

凌晨，阿里重磅开源三款模型，一举刷新32项业界SOTA 太卷了呀，兄弟们！我想回农村。今日凌晨，阿里通义大模型团队一口气发布三款开源模型：原生全模态大模型Qwen3-Omni；语音生成模型Qwen3-TTS；以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。其中，Qwen3-Omni可同时处理文本，图像，音频与视频输入，并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中，该模型斩获32项开源SOTA与22项总体SOTA，性能超越Gemini-2.5-Pro，Seed-ASR，GPT-4o-Transcribe等闭源强模型。同时，其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言，在语音稳定性与音色相似度方面优于SeedTTS，GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能，能够实现人物与人物，人物与物体等跨图像拼接，显著扩展了应用场景。此次开源还包括Qwen3-Omni-30B-A3B-Instruct（指令跟随）、Qwen3-Omni-30B-A3B-Thinking（推理）以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。相关开源地址已同步上线： Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力，也再次引爆了开源社区的关注。

#阿里 #开源模型 #Qwen3-Omni #多模态 #SOTA

6个月前

面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发，具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平，支持零样本声音克隆，可生成独特个人声音。特点： SOTA 性能：在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平，词错误率极低。高效推理：在 RTX 4090 上 RTF≈0.17，可满足实时交互需求。超拟人语音：支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。技术突破：采用“层次化语言建模 + 局部扩散生成”，端到端直接合成高质量语音，稳定性与表现力兼具。关键技术：层次化语言建模：基于MiniCPM 4.0文本基座，实现语义-声学解耦有限标量量化（FSQ）：构建"半离散"中间表示，提升生成稳定性因果式VAE编解码器：低帧率隐空间压缩，支持流式输出

#面壁智能 #语音生成模型 #VOxCPM #零样本声音克隆 #SOTA

6个月前

面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型，推理速度比同尺寸开源模型快3倍以上，综合能力达同级SOTA水平。 MiniCPM 4.1支持高效双频换挡，长文本用稀疏，短文本用稠密，推理效能高，长文本缓存锐减，端侧友好。三大核心亮点首个原生稀疏架构深思考模型通过可训练稀疏注意力创新，代码、数学推理等任务推理速度比同尺寸开源模型快 3 倍以上。同级 SOTA 综合性能在知识、推理、编程、指令遵循等综合能力达到同级最佳水平。高效双频换挡机制长文本场景自动启用稀疏注意力，短文本场景切换至稠密注意力，兼顾效率与精度。

#MiniCPM 4.1 #稀疏架构 #深思考模型 #SOTA #双频换挡

7个月前

哪里不对改哪里！全能图像编辑模型Qwen-lmage-Edit来啦 Qwen团队推出全能图像编辑模型Qwen-lmage-Edit。模型基于20B参数的Qwen-lmage模型进一步训练，具备语义与外观双重编辑能力，支持中英文双语文字精准编辑，可实现原创P创作、视角转换、风格迁移、元素增删改等功能。不仅能P图换风格，还能直接改图片里的字，而且修得又准又好，旨在让所有人都能轻松成为修图大师。主要亮点和特性： 1.双重编辑能力：语义编辑 (High-level)：改变图片的整体风格、视角、角色形象（如IP创作），允许整张图片像素变化，但保持核心内容语义一致（例如，把真人变成吉卜力动画风格，或将一个物体旋转180度）。外观编辑 (Low-level)：对图片进行局部、精细的修改，要求图片其他部分完全不变（例如，删除图片里的一根头发丝、给衣服换颜色、添加一个带倒影的路牌）。 2.精准的文字编辑：这是它的一大杀手锏。模型能够直接理解和修改图片中的文字，无论是中文还是英文，并且能尽力保持原有的字体、大小和风格。这对于修改海报、修正错误文字极其有用。 3.强大的性能：文章称，在多项公开测试中，该模型都达到了SOTA（当前最先进）的性能水平，是一个强大的基础模型。 4.链式编辑：文章展示了一个重要应用——可以通过多次、逐步的编辑指令，不断修正图片，直到达到完美效果（例如，逐步修正书法作品中的每一个错别字）。目的是什么？降低视觉内容创作（如IP设计、海报修改、照片修复、风格化创作）的技术门槛，让用户能够通过简单的语言指令就能完成复杂的图片编辑任务。

#Qwen-lmage-Edit #图像编辑 #AI模型 #文字编辑 #SOTA

7个月前

7.7K Star ⚡️ 最好的开源 Deep Research 平台发布！ Langchain 这个 open-deep-research 效果也太好了，在全球 DeepResearch benchmark 上登顶最好的开源 SOTA 效果 🔥 开源地址 👉

#开源 #Deep Research #LangChain #SOTA #Benchmark

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

看字节seed这研究趋势，不会截胡了DeepSeek的下一个突破吧？🤔 北京大学、ByteDance Seed和香港大学研究：SWE-Swiss——一个用于构建人工智能的完整训练“公式”，用于解决软件工程任务。基于此，他们的32B参数SWE-Swiss-32B在SWE-bench Verified上达到了60.2%，为其尺寸设定了新的SOTA。这证明，通过合适的方法，中型模型可以超越其重量。

#字节Seed #DeepSeek #SWE-Swiss #软件工程任务 #SOTA

karminski-牙医

7个月前

GPT-5 召回的确牛逼，所以接 RAG 目前应该是最佳选择。 Fiction.LiveBench 测试数据，192K上下文仍然有 87.5%, 妥妥 SOTA 了. 奥特曼其实应该把这个数据拿出来炫的，从o3开始其实 OpenAI 系列模型的召回能力都是可圈可点的。 #GPT5

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-5 #RAG #OpenAI #奥特曼 #SOTA

Jesse Lau 遁一子

9个月前

Google推出了最新的 Gemini 2.5 Pro（06 月 5 日版）更新，多项指标 > openai o3 并计划将其作为长期稳定版本。主要亮点包括： - 在 HLE、Aider 和 GPQA 上达到 SOTA（最先进水平） - 新增支持“思维预算”功能 - 成本不变，性能表现处于最优解集合 - 有效修复了 3 月 25 日版本中的性能回退问题

#Google #Gemini2.5Pro #AI更新 #SOTA #HLE #Aider #GPQA #思维预算 #性能优化 #版本更新

1年前

昆仑万维今天发的音乐大模型Mureka O1，指标上已经达到了SOTA，当然吹的文章你们肯定不想看，直接上作品最有说服力，这首歌曲从歌词到谱曲再到人声都是AI完成的，画面是后期用剪映配的，旧版本音乐大模型里挥之不去的那种AI电流感几乎已经听不出来了，你们觉得如何？客观打个分。

#昆仑万维 #Mureka O1 #音乐大模型 #AI歌曲 #SOTA

1年前

R1+Sonnet：我们加起来才是最强的！在 Aider 的最新多语言基准测试中测试中，R1+Sonnet 超越 o1 拿下第一。 R1 作为架构师， Claude Sonnet 作为编辑器，在 aider 多语言基准测试中设定了新的 SOTA（最先进技术水平）64.0%。不仅超过了之前 o1 的 SOTA 总体成本还降低了 14 倍。这件事很神奇，因为使用 o1+ Sonnet 无法超越 o1 自己。背景信息： Aider 支持使用一对模型进行编码架构师模型被要求描述如何解决编码问题。思考/推理模型通常在这个角色中表现良好。编辑器模型接收到架构师的设计方案，并被要求生成特定的代码编辑指令，以将这些更改应用到现有的源文件中。

#R1 #sonnet #Aider #多语言基准测试 #SOTA #O1