时政
财经
科技
虚拟货币
其他
登录
#多模态
关注
池建强
5小时前
今天阿里 Qwen 系列大模型的 C 端产品 千问 App 上线了,我参与了产品内测,写了一篇评测笔记: 对它的第一感受是:简洁、克制、All‑in‑one,阿里终于把产品做简单了。复杂能力收进一个主对话窗口,核心在主 Chat:结构化回答、长文档理解更加稳健,图片、音视频、深度思考和深度研究能力都装一起了。在我看这不是一次升级,应该是重做了一款新产品,并做了品牌升级。 产品简介,有些设计非常精巧: 比如底部这个「+」,用户可以一键录音/录像/拍照/传文件,现场捕捉直接纳入对话链路;比如我想现场录音现场分析转译,并不需要专门的录音软件和设备,录完后导出文件,再把文件喂给大模型,在千问里,这些操作是一步到位的。 「实时记录」这个功能不仅能够录现场,还能直接录制手机系统里的音频,我看了下采用的直播屏幕的技术,比如我想录制一段视频号里的话,并转文字,非常方便。 看英文书,拍张照片给千问,我可以拿到翻译好的文字,也可以得到一个中文图片,拍的书页里的图片都能保留。 多模态真正放到手边了,还贼方便,图、文、音、PDF 在一个窗口里连续处理,体验像瑞士军刀:偏工具属性,面向效率而非陪聊。 显然,千问这个产品阿里是很重视的,他们开始从 B 端基座走向 C 端入口,发力很明显。还有一点是,现阶段全功能免费,额度基本够用。非常值得试一试的产品。
#千问App
#阿里大模型
#C端产品
#多模态
#效率工具
分享
评论 0
0
Orange AI
1周前
让每个人 0 门槛开发自己的 AI 播客,我们的 API 终于上了。 大聪明和youmind已经用上了。 未来属于多模态,你也试试在产品里加入音频吧。 另外完全免费的 Next Music 也欢迎来玩。 Suno v5 级别,但是更好用。
#AI 播客
#API
#多模态
#音频
#Next Music
分享
评论 0
0
AIGCLINK
2周前
美团刚刚开源了一款低延迟全模态大模型:LongCat-Flash-Omni,128K上下文+支持超8分钟实时音视频交互 能听能看能说,毫秒级延迟,可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等 在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni,接近Gemini 2.5 Pro;在MMBench与Gemini、GPT-4o、Qwen-VL相当;MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等 总参数560B,激活27B,基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni
Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 659 条信息
#美团
#LongCat-Flash-Omni
#开源
#大模型
#多模态
#低延迟
分享
评论 0
0
Y11
2周前
在AI竞争的浪潮中,字节跳动以“豆包”为支点,正撬动着国内AI服务市场的格局。 作为10年技术积累的实践者,我们可以看到,字节通过“技术+产品+生态”的协同战略,正在构建一套独特的AI发展逻辑。 从用户体验到商业变现,豆包的攻守之道 豆包App自2023年8月上线以来,用两年时间实现了用户规模的快速突破,目前月活已达1.57亿,成为国内移动端最大的AI对话助手。 这份成绩背后,是字节对用户需求的精准把握——不同于西方AI工具的强功能导向,豆包更注重“亲近感”和“易用性”,支持语音、视频、方言等多元交互,图标设计也采用了亲和力强的卡通形象,降低了普通用户的使用门槛。 这种“降低门槛”的策略,也体现在产品定位上。 针对部分用户反馈的“深度问题回复不够好”,字节的解释是,豆包的核心是“展示模型能力的窗口”,其企业级服务会提供专业级回复。 这种“大众市场免费体验+企业级付费服务”的模式,既避免了“一刀切”收费对用户规模的冲击,也为未来商业变现埋下伏笔。 从赵祺接手豆包产品来看,字节正加速将豆包推向“用户规模+商业变现”的双轨发展。变现路径可能包括场景化按次收费、超额使用付费、抖音生态联动分成等。值得关注的是,抖音10亿级的月活为豆包提供了天然流量池,未来两者的深度整合或将成为新的增长极。 技术突围:从“沉默期”到多模态领先 豆包的崛起,离不开背后豆包大模型的技术支撑。今年初,面对DeepSeek、Qwen等竞品的冲击,字节没有选择盲目跟进,而是沉下心来快速迭代模型。6月发布的1.6版本,凭借国内首个原生多模态能力,在长上下文理解、性价比上实现突破,迅速跻身国内第一阵营。 目前,豆包大模型日均tokens调用量已突破30万亿,半年增长超80%,生态扩张速度惊人。在多模态领域,豆包在视频(Seedance)、图像(Seedream)、语音克隆等产品化矩阵上优势明显,场景落地更深。不过,在海外市场,由于不开放API且缺乏开源动作,豆包的声量仍落后于部分竞品。 “一盘棋”战略:技术与生态的深度协同 在大厂中,字节的AI战略最具“协同性”。这种“一盘棋”体现在三个层面: 一是产品矩阵联动。豆包大模型不仅支撑C端的豆包App,更向手机、汽车、AI玩具等硬件延伸。vivo、荣耀等手机厂商已将其作为助手底座,字节还与多家车企在智能座舱领域展开共创。 二是内部流量闭环。抖音作为核心入口,不仅为豆包App引流,更在开发内置AI功能,测试直接接入豆包能力的入口。同时,豆包生成的内容可一键分享至抖音,形成“创作-分发”闭环。 三是企业服务与内部场景联动。火山引擎的企业级服务,均在抖音、飞书等产品内部跑通验证后推出,如Data Agent数据工具已在抖音内部使用。这种“对内验证-对外输出”的模式,大幅降低了商业化风险。 挑战与展望 尽管字节AI战略展现出强大的执行力,但仍需面对三大挑战:一是与OpenAI、谷歌等巨头的模型技术差距;二是国内外市场的差异化变现难题;三是自研芯片与基础设施的支撑能力。 从行业角度看,字节的“技术+生态”模式正在改写AI竞争规则。当多数企业还在单打独斗时,字节用“一盘棋”思维将技术、产品、流量拧成一股绳。对于追求长期价值的企业而言,这种“从用户中来,到生态中去”的发展路径,或许正是突围的关键。
#字节跳动
#豆包APP
#AI服务
#多模态
#商业变现
分享
评论 0
0
karminski-牙医
2周前
刷到了个25K Star 的 Claude 编程指南! 内容包括使用Claude做 RAG,抽摘要,如何使用工具,做客服代理,与向量数据库集成,多模态(图像和图表解读,抽取最佳实践),以及更高级的子代理(用Opus调用Haiku)等等。 地址:
AI编程工具激战:Claude Code、Gemini Cli崛起· 1170 条信息
#Claude
#编程指南
#RAG
#多模态
#子代理
分享
评论 0
0
AI进化论-花生
3周前
Andrej Karpathy提出了一个很激进的想法:所有LLM的输入都应该是图像,包括纯文本。 什么意思? 传统的大语言模型:文本 → tokenizer → LLM → 输出 Andrej的vision:文本 → 渲染成图片 → LLM → 输出 即使你要输入的就是纯文本,也先把它渲染成图片,再喂给模型。 为什么这么做? 他给了4个理由: 1. 信息压缩更高效 这正是DeepSeek-OCR证明的。一页文档,传统方式可能需要2000个text tokens,用vision tokens只要64个。压缩率30倍。 文本tokens很浪费,图像tokens更密集。 2. 更通用 Text tokens只能表达文字。但现实世界的信息不只是文字: - 粗体、斜体 - 彩色文字 - 表格、图表 - 任意图像 全部渲染成图像输入,模型天然就能处理这些。 3. 可以用双向注意力 这是技术细节。传统的text-to-text是自回归的(从左到右)。图像输入可以用双向注意力,看到全局信息,更强大。 4. 删除tokenizer(重点!) Andrej很讨厌tokenizer。 他的吐槽: - Tokenizer是一个丑陋的、独立的、非端到端的阶段 - 它继承了Unicode、字节编码的所有历史包袱 - 有安全风险(如continuation bytes攻击) - 两个看起来一样的字符,在tokenizer眼里可能完全不同 - 😊这个emoji在tokenizer里只是一个奇怪的token,不是一张真正的笑脸图片 他希望tokenizer消失。 他的vision是什么 - 输入:全部是图像(即使原本是文本) - 输出:还是文本(因为输出像素不现实) OCR只是vision→text任务之一。很多text→text任务都可以变成vision→text。 我的理解 Andrej这个观点很激进,但确实有道理。 从信息论角度,图像确实比文本更高效。DeepSeek-OCR证明了这一点:64个vision tokens就能表达2000个文本tokens的信息。 从通用性角度,图像输入天然支持各种格式(粗体、颜色、图表),不需要tokenizer这个中间层。 但问题是: 1. 计算成本:处理vision tokens比text tokens贵。虽然token数量少了,但每个vision token的计算量更大。 2. 训练数据:现有的大部分训练数据都是纯文本。要全部渲染成图像,成本很高。 3. 输出问题:他也承认,输出像素不现实。所以只能是图像输入→文本输出的混合模式。 但长远看,这个方向可能是对的。 特别是考虑到: - 人类的输入本来就是多模态的(文字、图片、视频) - Tokenizer确实有很多问题(安全、Unicode、历史包袱) - 未来的AI应该能直接理解像素,而不是把一切都变成token DeepSeek-OCR可能只是开始。它证明了"上下文光学压缩"是可行的。 Andrej看到的是更远的未来:一个没有tokenizer的世界,所有输入都是图像,所有输出都是文本。 这会不会成为现实?不知道。 但至少,这个方向值得探索。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#LLM
#图像输入
#tokenizer
#Andrej Karpathy
#多模态
分享
评论 0
0
howie.serious
1个月前
chatgpt 悄悄更新了视频输入功能😱 更新 ios app 到最新版;app 内无法上传视频,需要把视频从 photos app 拖动到 chatgpt app(新技能 get✅)。 llm 多模态的最后一块板补齐了:文本语音视频,输入输出。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 659 条信息
#ChatGPT
#视频输入
#多模态
#iOS app
#新功能
分享
评论 0
0
dontbesilent
1个月前
用大模型的多模态,向“普通人”展示:AI 竟然还能这么用 ⬆️ 这句话可以让我抖音涨粉 50w~100w 之后每用这个方法做一条视频,我就转一下这条推文 #flag
#大模型
#多模态
#AI应用
#抖音涨粉
#内容创作
分享
评论 0
0
小隐新十年(Feng Wang)
1个月前
更新/不细看产品不知道,一看很惊讶。其实谷歌正在稳固占领三大入口,三个技术时代造就的三大入口。对于二十年的企业,几乎是奇迹。现在沿着谷歌的产品线来分析他的业务的话,在LLM市场起来以后,谷歌依然很强大。虽然有Transform论文在先,但是谷歌自己LLM产品后来居上做的。Gemini明显在多模态的产品上突出重围。再加上今天发布的。 Google作为一个搜索引擎公司,居然有三次飞跃。虽然创始人非常技术高超洞见,但并没有长期处于管理一线。移动互联网起来以后,Andiord系统和苹果iOS势力平分,占据了这个智能手机的半数市场份额。现在AI时代依然跑在最前面。现在Google这三条产品线几乎可以看成是不同的公司,这他妈太厉害了。这家公司,在搜索引擎的PC互联网,在移动互联网的操作系统,以及现在AI大语言模型时代。 完全都跑在了最前面。 Google可以理解为是三家企业了,或者说是世界一流大学三个更强的学院。难怪他们当年改名叫叫阿尔法贝塔。在创始人眼里,Google真的几乎就是他第一个产品。
Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 659 条信息
#谷歌
#LLM
#Gemini
#多模态
#AI
分享
评论 0
0
Compute King
1个月前
凌晨,阿里重磅开源三款模型,一举刷新32项业界SOTA 太卷了呀,兄弟们!我想回农村。 今日凌晨,阿里通义大模型团队一口气发布三款开源模型:原生全模态大模型Qwen3-Omni;语音生成模型Qwen3-TTS;以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。 其中,Qwen3-Omni可同时处理文本,图像,音频与视频输入,并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中,该模型斩获32项开源SOTA与22项总体SOTA,性能超越Gemini-2.5-Pro,Seed-ASR,GPT-4o-Transcribe等闭源强模型。同时,其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言,在语音稳定性与音色相似度方面优于SeedTTS,GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能,能够实现人物与人物,人物与物体等跨图像拼接,显著扩展了应用场景。 此次开源还包括Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。 相关开源地址已同步上线: Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力,也再次引爆了开源社区的关注。
#阿里
#开源模型
#Qwen3-Omni
#多模态
#SOTA
分享
评论 0
0
向阳乔木
1个月前
今晚和朋友们一起直播学习Trickle的用法。 昨天手搓了一个案例,其实还想做一个给孩子用的英语学习工具。 用上Seedream4生图、Minimax生成TTS、Veo3生成视频等,未来的AI编程工具一定是多模态的。
#AI编程工具
#多模态
#英语学习工具
#seedream4
#MiniMax
分享
评论 0
0
nicekate
2个月前
非常 nice 的是 OpenRouter 也支持了 google/gemini-2.5-flash-image-preview 而且是 OpenRouter 首次上线图像模型 API 调用方式可以看文档里多模态部分
Google Gemini 2.5发布引发AI模型性价比热议· 283 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 659 条信息
#Openrouter
#google/gemini-2.5-flash-image-preview
#图像模型
#多模态
#API
分享
评论 0
0
sitin
3个月前
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长视频分镜分析、事件识别) ·GUI 任务(屏幕读取、图标识别、桌面操作辅助) ·复杂图表与长文档解析(研报分析、信息提取) ·Grounding 能力(精准定位视觉元素)
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#智谱
#GLM-4.5V
#开源
#视觉推理模型
#多模态
分享
评论 0
0
歸藏(guizang.ai)
3个月前
试了一下阶跃的智能视频通话的多模态能力,真的超强。 响应很迅速(为了观看效果有剪辑),识别效果相当准确,常见的画面内容都能识别还能进行一定的推理。 看了一下这个视频理解又快又准确的原因,可能涉及他们刚发布的 Step-3 背后多项多模态积累,这个视频通话属于多模合一能力。 今晚阶跃发布的Step3核心创新点在于,通过模型-系统协同设计,实现了极高的解码效率和成本效益。 在Hopper GPU上,Step-3的解码吞吐量高达4039 tokens/s/GPU,远超DeepSeek-V3的。 同时他们将注意力和FFN分别部署在不同GPU组,采用高效的流水线和通信机制,实现低延迟高吞吐。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 133 条信息
#阶跃
#Step-3
#多模态
#视频通话
#AI
分享
评论 0
0
Gorden Sun
4个月前
Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:
#多模态
#GPT-4o
#文本
#图片
#语音
#视觉
#自研
#交互
分享
评论 0
0
Tom Huang
4个月前
Refly 正式进入新篇章!🎉 我们正式发布全球首个开源的 「Vibe Workflow」平台,并同时登录云服务和开源社区版!🚀 现在你可以直接动动嘴就能构建复杂的 Workflow 并生成多模态工作结果如 PPT、网页、播客、视频等💥 后续我们还将支持 Workflow 一键运行并输出成 API 💪 此次 v0.7.0 更新超过 50000 行代码的重大版本中,我们将用户与 Agent 协作完成工作任务的体验推向了下一个阶段,给全球的 Vibe Coder 带来了如下令人振奋的能力: 1️⃣ 首创 「Vibe Workflow」,让工作过程真正「起飞 Refly😋」,用户动动嘴就能够完成复杂工作流搭建并直接完成工作结果交付 2️⃣ 最独特的是🤯,你还能修改 Agent 生成的 Workflow 的中间节点实现对结果的精细化微调,完成生产可用结果交付的最后一公里 💥 3️⃣ 提供可能是业界首个支持自由配置的 MCP 的 AI 画布产品,结合 Agent + MCP 自由配置+自由画布上下文组织能力,探索 AI 创作无限可能 作为首创开源 Agent + 自由画布的先行者, 我们后续将持续在多模型,多模态产物交付、Agent、MCP 和 Vibe Workflow 上积累工程和体验能力,为社区注入活力🥳💪 目前 Refly 已收获了数万名用户的私有化部署或云端使用,并且得益于 Refly 独特的产品能力,我们已经实现了真正的正向盈利☄️ 为了迎接接下来 Refly 新阶段的发展,我们提出全新使命,我们坚信「让 Workflow 不再神秘,变成每个人都真正可用的强大 AI 创作工具!」🌈 期待与社区的大家一起探索「Vibe Workflow」的能力边界🚀! 去 Github 中了解 Refly v0.7.0 👉 在云服务中直接体验 Refly Agent + MCP 带来的强大「Vibe Workflow」能力 👉 #Refly #VibeCoding #VibeWorkflow #Agent #MCP #Workflow
#Refly
#开源
#Vibe Workflow
#云服务
#开源社区
#多模态
#v0.7.0
#API
#agent
分享
评论 0
0
向阳乔木
5个月前
前些天字节跳动火山引擎举办Force原动力大会。 发布了豆包大模型1.6、视频生成模型Seedance 1.0 pro等新模型。 尤其是豆包1.6系列,非常重要。 为什么? 很多人说,今年是 AI Agent 落地元年。 Agent 产品第一步要做任务拆解规划。 这块非常依赖大模型的深度思考能力、工具调用能力,还有多模态支持能力。 火山引擎总裁谭待的说: 深度思考、多模态和工具调用等模型能力提升,是构建Agent的关键要素 个人非常认同! 另外,因模型备案、数据安全、地缘政治等诸多原因。 国内 AI Agent 产品发展,必须依赖国内模型的强大。 Deepseek R1 非常棒! 但是,有点可惜,它不支持多模态,这样应用场景会很受限。 所以,拥有媲美 Deepseek R1 推理能力,又支持多模态的豆包 1.6 系列大模型发布。 无疑是国产 AI 产品的希望之光。 一起了解、测试下豆包 1.6 系列模型。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 133 条信息
#字节跳动
#火山引擎
#Force原动力大会
#豆包大模型1.6
#Seedance视频生成模型
#AI Agent
#任务拆解
#多模态
#大模型
#深度思考
#工具调用
分享
评论 0
0
小互
5个月前
Gemini 新模型 - 控制思考中使用的 token 用量 - 多模态 - 知识截止 2025年1月 - 最适合编码
#Gemini
#新模型
#多模态
#知识2025
#适合编码
分享
评论 0
0
向阳乔木
7个月前
今天跟几个朋友天津聚会撸串。 酒过三巡,聊出一个特别棒的产品方向。 用AI帮助创作者生成多模态内容,适配平台调性,RPA自动发布。 喝酒的技术大拿朋友刚好还写过十多个平台的同步发布,估计很快就能搞个demo出来。 我估计最快下周就能出个内测版。
#天津聚会
#AI生成内容
#多模态
#平台适配
#RPA
#自动发布
#技术开发
#产品方向
#内测版
分享
评论 0
0
WY
7个月前
OpenAI气数已尽,Altman不干实事 看今天发的GPT-4.1,我感觉OpenAI大概率气数已尽了。高端打不过Gemini和Claude,nano估计也打不过Gemini Flash(看得分就不如4o-mini),只敢跟两年前的4o比,但还不能替换4o,因为不是多模态的。 明显看出来OpenAI是手里没什么牌了,捉襟见肘,就算明后天再发个o4出来可能也无济于事,因为大概率会超贵导致其实没多少人用。 去年我就感觉OpenAI可能会步仙童后尘,今天看越来越有可能。 我觉得OpenAI如果真的不行了,和Altman不干实事有很大关系。这家伙花太多精力在忽悠钱上,一会7万亿,一会5000亿Stargate,就没想想自家的团队怎么才能有新的领军人物,自家的模型要怎么规划。
#OpenAI
#GPT-4.1
#Gemini
#Claude
#nano
#4o
#多模态
#技术竞争
#升级
分享
评论 0
0
KevinZ🇭🇰 𝟎𝐱𝐔
7个月前
AI Agent随想(一):“不立文字,教外别传” 行情有点枯,不定期闲聊一些其他内容。 Chat bot式自然语言交互模式Agent,虽然是最早找到PMF的,但也限制了AI Agent的进一步发展。 原因1️⃣是在这种微信式的聊天语境下,人的指令输入过于碎片化,往往需要多轮对话才能表达完整。 原因2️⃣是90%以上的人缺乏问出正确问题的能力。 所以要发挥Agent的强大能力,从输入端来看,有能力输入中长brief/proposal的人更具备优势。 而我之前没意识到的是,语言其实也是一种编程能力: 不同语言的信息密度的智能程度是有高下之分的。像中文的信息密度明显是在世界语言前列的。 不同人的语言组织能力也是有高下之分的。就像我和诺贝尔奖得主的差别。 所以AI从大语言模型开始找到突破,是因为语言文字本身就是智能的凝结。 但继续往下发展的话,仅仅靠自然语言输入可能不够。世界上还有很多智能是难以言表的。就像禅宗说“不立文字,教外别传”。道德经说“道可道非常道”。 1️⃣要么,就像最早的计算机一样,从命令行界面(CLI)走向图形用户界面(GUI),Agent从自然语言界面最终走向多模态。 2️⃣要么,就是AI Agent之间,发明一种信息密度更高的Agent语言。以现有计算机的数据量和记忆存储能力,也是有可能发生的事。 我们这代人比任何时间都更靠近AI 奇点,一切指数增长在拐点前,看上去都像线性增长。iq50和iq150的智能差距,在AI看来可能是微不足道的。 在可预见的未来里,AI终会迈过这个奇点,成为我们难以理解的存在。到时候人道的善恶规则可能并不在AI的价值体系之内。 在这之前呢,我将先每天吃点好的😋。 未完待续。。。
#AI Agent
#自然语言交互
#信息密度
#多模态
#AI奇点
分享
评论 0
0
央广网-央视新闻客户端
7个月前
多模态跨尺度生物医学成像设施通过国家验收
成像技术是生物医学最重要的研究工具之一,也是推动生命科学基础研究和临床医学研究发展的核心动力。我国首个生物医学成像领域综合型大科学装置――多模态跨尺度生物医学成像设施,今天(21日)在北京怀柔科学城通过国家验收。
#多模态
#跨尺度
#生物医学成像
#设施验收
#国家验收
分享
评论 0
0
karminski-牙医
8个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
宝玉
8个月前
GPT-4.5 的多模态还是挺强的
#GPT-4.5
#多模态
#AI
#人工智能
#新技术
#大模型
分享
评论 0
0
AIGCLINK
8个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞