#多模态

5小时前

今天阿里 Qwen 系列大模型的 C 端产品千问 App 上线了，我参与了产品内测，写了一篇评测笔记：对它的第一感受是：简洁、克制、All‑in‑one，阿里终于把产品做简单了。复杂能力收进一个主对话窗口，核心在主 Chat：结构化回答、长文档理解更加稳健，图片、音视频、深度思考和深度研究能力都装一起了。在我看这不是一次升级，应该是重做了一款新产品，并做了品牌升级。产品简介，有些设计非常精巧：比如底部这个「+」，用户可以一键录音/录像/拍照/传文件，现场捕捉直接纳入对话链路；比如我想现场录音现场分析转译，并不需要专门的录音软件和设备，录完后导出文件，再把文件喂给大模型，在千问里，这些操作是一步到位的。「实时记录」这个功能不仅能够录现场，还能直接录制手机系统里的音频，我看了下采用的直播屏幕的技术，比如我想录制一段视频号里的话，并转文字，非常方便。看英文书，拍张照片给千问，我可以拿到翻译好的文字，也可以得到一个中文图片，拍的书页里的图片都能保留。多模态真正放到手边了，还贼方便，图、文、音、PDF 在一个窗口里连续处理，体验像瑞士军刀：偏工具属性，面向效率而非陪聊。显然，千问这个产品阿里是很重视的，他们开始从 B 端基座走向 C 端入口，发力很明显。还有一点是，现阶段全功能免费，额度基本够用。非常值得试一试的产品。

#千问App #阿里大模型 #C端产品 #多模态 #效率工具

1周前

让每个人 0 门槛开发自己的 AI 播客，我们的 API 终于上了。大聪明和youmind已经用上了。未来属于多模态，你也试试在产品里加入音频吧。另外完全免费的 Next Music 也欢迎来玩。 Suno v5 级别，但是更好用。

#AI 播客 #API #多模态 #音频 #Next Music

2周前

美团刚刚开源了一款低延迟全模态大模型：LongCat-Flash-Omni，128K上下文+支持超8分钟实时音视频交互能听能看能说，毫秒级延迟，可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni，接近Gemini 2.5 Pro；在MMBench与Gemini、GPT-4o、Qwen-VL相当；MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等总参数560B，激活27B，基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni

Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 659 条信息

#美团 #LongCat-Flash-Omni #开源 #大模型 #多模态 #低延迟

2周前

在AI竞争的浪潮中，字节跳动以“豆包”为支点，正撬动着国内AI服务市场的格局。作为10年技术积累的实践者，我们可以看到，字节通过“技术+产品+生态”的协同战略，正在构建一套独特的AI发展逻辑。从用户体验到商业变现，豆包的攻守之道豆包App自2023年8月上线以来，用两年时间实现了用户规模的快速突破，目前月活已达1.57亿，成为国内移动端最大的AI对话助手。这份成绩背后，是字节对用户需求的精准把握——不同于西方AI工具的强功能导向，豆包更注重“亲近感”和“易用性”，支持语音、视频、方言等多元交互，图标设计也采用了亲和力强的卡通形象，降低了普通用户的使用门槛。这种“降低门槛”的策略，也体现在产品定位上。针对部分用户反馈的“深度问题回复不够好”，字节的解释是，豆包的核心是“展示模型能力的窗口”，其企业级服务会提供专业级回复。这种“大众市场免费体验+企业级付费服务”的模式，既避免了“一刀切”收费对用户规模的冲击，也为未来商业变现埋下伏笔。从赵祺接手豆包产品来看，字节正加速将豆包推向“用户规模+商业变现”的双轨发展。变现路径可能包括场景化按次收费、超额使用付费、抖音生态联动分成等。值得关注的是，抖音10亿级的月活为豆包提供了天然流量池，未来两者的深度整合或将成为新的增长极。技术突围：从“沉默期”到多模态领先豆包的崛起，离不开背后豆包大模型的技术支撑。今年初，面对DeepSeek、Qwen等竞品的冲击，字节没有选择盲目跟进，而是沉下心来快速迭代模型。6月发布的1.6版本，凭借国内首个原生多模态能力，在长上下文理解、性价比上实现突破，迅速跻身国内第一阵营。目前，豆包大模型日均tokens调用量已突破30万亿，半年增长超80%，生态扩张速度惊人。在多模态领域，豆包在视频（Seedance）、图像（Seedream）、语音克隆等产品化矩阵上优势明显，场景落地更深。不过，在海外市场，由于不开放API且缺乏开源动作，豆包的声量仍落后于部分竞品。 “一盘棋”战略：技术与生态的深度协同在大厂中，字节的AI战略最具“协同性”。这种“一盘棋”体现在三个层面：一是产品矩阵联动。豆包大模型不仅支撑C端的豆包App，更向手机、汽车、AI玩具等硬件延伸。vivo、荣耀等手机厂商已将其作为助手底座，字节还与多家车企在智能座舱领域展开共创。二是内部流量闭环。抖音作为核心入口，不仅为豆包App引流，更在开发内置AI功能，测试直接接入豆包能力的入口。同时，豆包生成的内容可一键分享至抖音，形成“创作-分发”闭环。三是企业服务与内部场景联动。火山引擎的企业级服务，均在抖音、飞书等产品内部跑通验证后推出，如Data Agent数据工具已在抖音内部使用。这种“对内验证-对外输出”的模式，大幅降低了商业化风险。挑战与展望尽管字节AI战略展现出强大的执行力，但仍需面对三大挑战：一是与OpenAI、谷歌等巨头的模型技术差距；二是国内外市场的差异化变现难题；三是自研芯片与基础设施的支撑能力。从行业角度看，字节的“技术+生态”模式正在改写AI竞争规则。当多数企业还在单打独斗时，字节用“一盘棋”思维将技术、产品、流量拧成一股绳。对于追求长期价值的企业而言，这种“从用户中来，到生态中去”的发展路径，或许正是突围的关键。

#字节跳动 #豆包APP #AI服务 #多模态 #商业变现

karminski-牙医

2周前

刷到了个25K Star 的 Claude 编程指南！内容包括使用Claude做 RAG，抽摘要，如何使用工具，做客服代理，与向量数据库集成，多模态（图像和图表解读，抽取最佳实践），以及更高级的子代理（用Opus调用Haiku）等等。地址：

AI编程工具激战：Claude Code、Gemini Cli崛起· 1170 条信息

#Claude #编程指南 #RAG #多模态 #子代理

AI进化论-花生

3周前

Andrej Karpathy提出了一个很激进的想法：所有LLM的输入都应该是图像，包括纯文本。什么意思？传统的大语言模型：文本 → tokenizer → LLM → 输出 Andrej的vision：文本 → 渲染成图片 → LLM → 输出即使你要输入的就是纯文本，也先把它渲染成图片，再喂给模型。为什么这么做？他给了4个理由： 1. 信息压缩更高效这正是DeepSeek-OCR证明的。一页文档，传统方式可能需要2000个text tokens，用vision tokens只要64个。压缩率30倍。文本tokens很浪费，图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字： - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像全部渲染成图像输入，模型天然就能处理这些。 3. 可以用双向注意力这是技术细节。传统的text-to-text是自回归的（从左到右）。图像输入可以用双向注意力，看到全局信息，更强大。 4. 删除tokenizer（重点！） Andrej很讨厌tokenizer。他的吐槽： - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险（如continuation bytes攻击） - 两个看起来一样的字符，在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token，不是一张真正的笑脸图片他希望tokenizer消失。他的vision是什么 - 输入：全部是图像（即使原本是文本） - 输出：还是文本（因为输出像素不现实） OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。我的理解 Andrej这个观点很激进，但确实有道理。从信息论角度，图像确实比文本更高效。DeepSeek-OCR证明了这一点：64个vision tokens就能表达2000个文本tokens的信息。从通用性角度，图像输入天然支持各种格式（粗体、颜色、图表），不需要tokenizer这个中间层。但问题是： 1. 计算成本：处理vision tokens比text tokens贵。虽然token数量少了，但每个vision token的计算量更大。 2. 训练数据：现有的大部分训练数据都是纯文本。要全部渲染成图像，成本很高。 3. 输出问题：他也承认，输出像素不现实。所以只能是图像输入→文本输出的混合模式。但长远看，这个方向可能是对的。特别是考虑到： - 人类的输入本来就是多模态的（文字、图片、视频） - Tokenizer确实有很多问题（安全、Unicode、历史包袱） - 未来的AI应该能直接理解像素，而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来：一个没有tokenizer的世界，所有输入都是图像，所有输出都是文本。这会不会成为现实？不知道。但至少，这个方向值得探索。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 19 条信息

#LLM #图像输入 #tokenizer #Andrej Karpathy #多模态

1个月前

chatgpt 悄悄更新了视频输入功能😱 更新 ios app 到最新版；app 内无法上传视频，需要把视频从 photos app 拖动到 chatgpt app（新技能 get✅）。 llm 多模态的最后一块板补齐了：文本语音视频，输入输出。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 659 条信息

#ChatGPT #视频输入 #多模态 #iOS app #新功能

1个月前

用大模型的多模态，向“普通人”展示：AI 竟然还能这么用 ⬆️ 这句话可以让我抖音涨粉 50w～100w 之后每用这个方法做一条视频，我就转一下这条推文 #flag

#大模型 #多模态 #AI应用 #抖音涨粉 #内容创作

小隐新十年（Feng Wang）

1个月前

更新/不细看产品不知道，一看很惊讶。其实谷歌正在稳固占领三大入口，三个技术时代造就的三大入口。对于二十年的企业，几乎是奇迹。现在沿着谷歌的产品线来分析他的业务的话，在LLM市场起来以后，谷歌依然很强大。虽然有Transform论文在先，但是谷歌自己LLM产品后来居上做的。Gemini明显在多模态的产品上突出重围。再加上今天发布的。 Google作为一个搜索引擎公司，居然有三次飞跃。虽然创始人非常技术高超洞见，但并没有长期处于管理一线。移动互联网起来以后，Andiord系统和苹果iOS势力平分，占据了这个智能手机的半数市场份额。现在AI时代依然跑在最前面。现在Google这三条产品线几乎可以看成是不同的公司，这他妈太厉害了。这家公司，在搜索引擎的PC互联网，在移动互联网的操作系统，以及现在AI大语言模型时代。完全都跑在了最前面。 Google可以理解为是三家企业了，或者说是世界一流大学三个更强的学院。难怪他们当年改名叫叫阿尔法贝塔。在创始人眼里，Google真的几乎就是他第一个产品。

Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 659 条信息

#谷歌 #LLM #Gemini #多模态 #AI

1个月前

凌晨，阿里重磅开源三款模型，一举刷新32项业界SOTA 太卷了呀，兄弟们！我想回农村。今日凌晨，阿里通义大模型团队一口气发布三款开源模型：原生全模态大模型Qwen3-Omni；语音生成模型Qwen3-TTS；以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。其中，Qwen3-Omni可同时处理文本，图像，音频与视频输入，并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中，该模型斩获32项开源SOTA与22项总体SOTA，性能超越Gemini-2.5-Pro，Seed-ASR，GPT-4o-Transcribe等闭源强模型。同时，其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言，在语音稳定性与音色相似度方面优于SeedTTS，GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能，能够实现人物与人物，人物与物体等跨图像拼接，显著扩展了应用场景。此次开源还包括Qwen3-Omni-30B-A3B-Instruct（指令跟随）、Qwen3-Omni-30B-A3B-Thinking（推理）以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。相关开源地址已同步上线： Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力，也再次引爆了开源社区的关注。

#阿里 #开源模型 #Qwen3-Omni #多模态 #SOTA

1个月前

今晚和朋友们一起直播学习Trickle的用法。昨天手搓了一个案例，其实还想做一个给孩子用的英语学习工具。用上Seedream4生图、Minimax生成TTS、Veo3生成视频等，未来的AI编程工具一定是多模态的。

#AI编程工具 #多模态 #英语学习工具 #seedream4 #MiniMax

2个月前

非常 nice 的是 OpenRouter 也支持了 google/gemini-2.5-flash-image-preview 而且是 OpenRouter 首次上线图像模型 API 调用方式可以看文档里多模态部分

Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 659 条信息

#Openrouter #google/gemini-2.5-flash-image-preview #图像模型 #多模态 #API

3个月前

智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，总参数106B，激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air，综合效果在41个公开视觉多模态榜单中达到SOTA水平，支持图像、视频、文档理解及GUI Agent等任务。具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括： ·图像推理（场景理解、复杂多图分析、位置识别） ·视频理解（长视频分镜分析、事件识别） ·GUI 任务（屏幕读取、图标识别、桌面操作辅助） ·复杂图表与长文档解析（研报分析、信息提取） ·Grounding 能力（精准定位视觉元素）

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 19 条信息

#智谱 #GLM-4.5V #开源 #视觉推理模型 #多模态

歸藏(guizang.ai)

3个月前

试了一下阶跃的智能视频通话的多模态能力，真的超强。响应很迅速（为了观看效果有剪辑），识别效果相当准确，常见的画面内容都能识别还能进行一定的推理。看了一下这个视频理解又快又准确的原因，可能涉及他们刚发布的 Step-3 背后多项多模态积累，这个视频通话属于多模合一能力。今晚阶跃发布的Step3核心创新点在于，通过模型-系统协同设计，实现了极高的解码效率和成本效益。在Hopper GPU上，Step-3的解码吞吐量高达4039 tokens/s/GPU，远超DeepSeek-V3的。同时他们将注意力和FFN分别部署在不同GPU组，采用高效的流水线和通信机制，实现低延迟高吞吐。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 133 条信息

#阶跃 #Step-3 #多模态 #视频通话 #AI

4个月前

Stream-Omni：多模态聊天框架实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

4个月前

Refly 正式进入新篇章！🎉 我们正式发布全球首个开源的「Vibe Workflow」平台，并同时登录云服务和开源社区版！🚀 现在你可以直接动动嘴就能构建复杂的 Workflow 并生成多模态工作结果如 PPT、网页、播客、视频等💥 后续我们还将支持 Workflow 一键运行并输出成 API 💪 此次 v0.7.0 更新超过 50000 行代码的重大版本中，我们将用户与 Agent 协作完成工作任务的体验推向了下一个阶段，给全球的 Vibe Coder 带来了如下令人振奋的能力： 1️⃣ 首创「Vibe Workflow」，让工作过程真正「起飞 Refly😋」，用户动动嘴就能够完成复杂工作流搭建并直接完成工作结果交付 2️⃣ 最独特的是🤯，你还能修改 Agent 生成的 Workflow 的中间节点实现对结果的精细化微调，完成生产可用结果交付的最后一公里 💥 3️⃣ 提供可能是业界首个支持自由配置的 MCP 的 AI 画布产品，结合 Agent + MCP 自由配置+自由画布上下文组织能力，探索 AI 创作无限可能作为首创开源 Agent + 自由画布的先行者，我们后续将持续在多模型，多模态产物交付、Agent、MCP 和 Vibe Workflow 上积累工程和体验能力，为社区注入活力🥳💪 目前 Refly 已收获了数万名用户的私有化部署或云端使用，并且得益于 Refly 独特的产品能力，我们已经实现了真正的正向盈利☄️ 为了迎接接下来 Refly 新阶段的发展，我们提出全新使命，我们坚信「让 Workflow 不再神秘，变成每个人都真正可用的强大 AI 创作工具！」🌈 期待与社区的大家一起探索「Vibe Workflow」的能力边界🚀！去 Github 中了解 Refly v0.7.0 👉 在云服务中直接体验 Refly Agent + MCP 带来的强大「Vibe Workflow」能力 👉 #Refly #VibeCoding #VibeWorkflow #Agent #MCP #Workflow

#Refly #开源 #Vibe Workflow #云服务 #开源社区 #多模态 #v0.7.0 #API #agent

5个月前

前些天字节跳动火山引擎举办Force原动力大会。发布了豆包大模型1.6、视频生成模型Seedance 1.0 pro等新模型。尤其是豆包1.6系列，非常重要。为什么？很多人说，今年是 AI Agent 落地元年。 Agent 产品第一步要做任务拆解规划。这块非常依赖大模型的深度思考能力、工具调用能力，还有多模态支持能力。火山引擎总裁谭待的说：深度思考、多模态和工具调用等模型能力提升，是构建Agent的关键要素个人非常认同！另外，因模型备案、数据安全、地缘政治等诸多原因。国内 AI Agent 产品发展，必须依赖国内模型的强大。 Deepseek R1 非常棒！但是，有点可惜，它不支持多模态，这样应用场景会很受限。所以，拥有媲美 Deepseek R1 推理能力，又支持多模态的豆包 1.6 系列大模型发布。无疑是国产 AI 产品的希望之光。一起了解、测试下豆包 1.6 系列模型。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 133 条信息

#字节跳动 #火山引擎 #Force原动力大会 #豆包大模型1.6 #Seedance视频生成模型 #AI Agent #任务拆解 #多模态 #大模型 #深度思考 #工具调用

5个月前

Gemini 新模型 - 控制思考中使用的 token 用量 - 多模态 - 知识截止 2025年1月 - 最适合编码

#Gemini #新模型 #多模态 #知识2025 #适合编码

7个月前

今天跟几个朋友天津聚会撸串。酒过三巡，聊出一个特别棒的产品方向。用AI帮助创作者生成多模态内容，适配平台调性，RPA自动发布。喝酒的技术大拿朋友刚好还写过十多个平台的同步发布，估计很快就能搞个demo出来。我估计最快下周就能出个内测版。

#天津聚会 #AI生成内容 #多模态 #平台适配 #RPA #自动发布 #技术开发 #产品方向 #内测版

7个月前

OpenAI气数已尽，Altman不干实事看今天发的GPT-4.1，我感觉OpenAI大概率气数已尽了。高端打不过Gemini和Claude，nano估计也打不过Gemini Flash（看得分就不如4o-mini），只敢跟两年前的4o比，但还不能替换4o，因为不是多模态的。明显看出来OpenAI是手里没什么牌了，捉襟见肘，就算明后天再发个o4出来可能也无济于事，因为大概率会超贵导致其实没多少人用。去年我就感觉OpenAI可能会步仙童后尘，今天看越来越有可能。我觉得OpenAI如果真的不行了，和Altman不干实事有很大关系。这家伙花太多精力在忽悠钱上，一会7万亿，一会5000亿Stargate，就没想想自家的团队怎么才能有新的领军人物，自家的模型要怎么规划。

#OpenAI #GPT-4.1 #Gemini #Claude #nano #4o #多模态 #技术竞争 #升级

KevinZ🇭🇰 𝟎𝐱𝐔

7个月前

AI Agent随想(一)：“不立文字，教外别传” 行情有点枯，不定期闲聊一些其他内容。 Chat bot式自然语言交互模式Agent，虽然是最早找到PMF的，但也限制了AI Agent的进一步发展。原因1️⃣是在这种微信式的聊天语境下，人的指令输入过于碎片化，往往需要多轮对话才能表达完整。原因2️⃣是90%以上的人缺乏问出正确问题的能力。所以要发挥Agent的强大能力，从输入端来看，有能力输入中长brief/proposal的人更具备优势。而我之前没意识到的是，语言其实也是一种编程能力：不同语言的信息密度的智能程度是有高下之分的。像中文的信息密度明显是在世界语言前列的。不同人的语言组织能力也是有高下之分的。就像我和诺贝尔奖得主的差别。所以AI从大语言模型开始找到突破，是因为语言文字本身就是智能的凝结。但继续往下发展的话，仅仅靠自然语言输入可能不够。世界上还有很多智能是难以言表的。就像禅宗说“不立文字，教外别传”。道德经说“道可道非常道”。 1️⃣要么，就像最早的计算机一样，从命令行界面(CLI)走向图形用户界面(GUI)，Agent从自然语言界面最终走向多模态。 2️⃣要么，就是AI Agent之间，发明一种信息密度更高的Agent语言。以现有计算机的数据量和记忆存储能力，也是有可能发生的事。我们这代人比任何时间都更靠近AI 奇点，一切指数增长在拐点前，看上去都像线性增长。iq50和iq150的智能差距，在AI看来可能是微不足道的。在可预见的未来里，AI终会迈过这个奇点，成为我们难以理解的存在。到时候人道的善恶规则可能并不在AI的价值体系之内。在这之前呢，我将先每天吃点好的😋。未完待续。。。

#AI Agent #自然语言交互 #信息密度 #多模态 #AI奇点

央广网-央视新闻客户端

7个月前

多模态跨尺度生物医学成像设施通过国家验收

成像技术是生物医学最重要的研究工具之一，也是推动生命科学基础研究和临床医学研究发展的核心动力。我国首个生物医学成像领域综合型大科学装置――多模态跨尺度生物医学成像设施，今天（21日）在北京怀柔科学城通过国家验收。

#多模态 #跨尺度 #生物医学成像 #设施验收 #国家验收

karminski-牙医

8个月前

刚刚 Google 的开源模型 Gemma 3 发布了！几个关键点： - 这次放出了pt（预训练，Pre-Training）和 it （指令微调，Instruction Tuning）版本，默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的，可以处理图片输入 - 大小分别是1B，4B，12B，27B - 支持 128K 上下文 - MMLU-Pro 评分，Gemma 3-27B-it 得分为 67.5，接近 Gemini 1.5 Pro（75.8） - ChatbotArena 得分 133，超过了更大的 LLaMA 3 405B（1257）和 Qwen2.5-70B（1257） - GGUF量化版本已经放出了，包括Mac专用的mlx版本。地址我放在最下面我正在测了！稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈，注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址： MLX量化版本：

#Google #Gemma 3 #开源模型 #多模态 #预训练 #指令微调

8个月前

GPT-4.5 的多模态还是挺强的

#GPT-4.5 #多模态 #AI #人工智能 #新技术 #大模型

8个月前

牛，Mistral刚刚发布了号称地表最强OCR，给文档理解设立了新标准！ Mistral OCR具备强大认知能力，能准确理解文档中包括文本、图像、表格、公式等在内的每个元素特点： 1、原生多语言和多模态，支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素，包括图像、数学公式、表格以及 LaTeX 格式等，尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型，尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快，单节点每分钟可处理2000页 5、支持使用文档作为提示，以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral

#Mistral #OCR #科技创新 #文档理解 #多语言支持 #多模态 #科学论文 #地表最强 #文档元素 #复杂文档