时政
财经
科技
登录
#多模态
关注
Gorden Sun
1周前
Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:
#多模态
#GPT-4o
#文本
#图片
#语音
#视觉
#自研
#交互
分享
评论 0
0
Tom Huang
1周前
Refly 正式进入新篇章!🎉 我们正式发布全球首个开源的 「Vibe Workflow」平台,并同时登录云服务和开源社区版!🚀 现在你可以直接动动嘴就能构建复杂的 Workflow 并生成多模态工作结果如 PPT、网页、播客、视频等💥 后续我们还将支持 Workflow 一键运行并输出成 API 💪 此次 v0.7.0 更新超过 50000 行代码的重大版本中,我们将用户与 Agent 协作完成工作任务的体验推向了下一个阶段,给全球的 Vibe Coder 带来了如下令人振奋的能力: 1️⃣ 首创 「Vibe Workflow」,让工作过程真正「起飞 Refly😋」,用户动动嘴就能够完成复杂工作流搭建并直接完成工作结果交付 2️⃣ 最独特的是🤯,你还能修改 Agent 生成的 Workflow 的中间节点实现对结果的精细化微调,完成生产可用结果交付的最后一公里 💥 3️⃣ 提供可能是业界首个支持自由配置的 MCP 的 AI 画布产品,结合 Agent + MCP 自由配置+自由画布上下文组织能力,探索 AI 创作无限可能 作为首创开源 Agent + 自由画布的先行者, 我们后续将持续在多模型,多模态产物交付、Agent、MCP 和 Vibe Workflow 上积累工程和体验能力,为社区注入活力🥳💪 目前 Refly 已收获了数万名用户的私有化部署或云端使用,并且得益于 Refly 独特的产品能力,我们已经实现了真正的正向盈利☄️ 为了迎接接下来 Refly 新阶段的发展,我们提出全新使命,我们坚信「让 Workflow 不再神秘,变成每个人都真正可用的强大 AI 创作工具!」🌈 期待与社区的大家一起探索「Vibe Workflow」的能力边界🚀! 去 Github 中了解 Refly v0.7.0 👉 在云服务中直接体验 Refly Agent + MCP 带来的强大「Vibe Workflow」能力 👉 #Refly #VibeCoding #VibeWorkflow #Agent #MCP #Workflow
#Refly
#开源
#Vibe Workflow
#云服务
#开源社区
#多模态
#v0.7.0
#API
#agent
分享
评论 0
0
向阳乔木
2周前
前些天字节跳动火山引擎举办Force原动力大会。 发布了豆包大模型1.6、视频生成模型Seedance 1.0 pro等新模型。 尤其是豆包1.6系列,非常重要。 为什么? 很多人说,今年是 AI Agent 落地元年。 Agent 产品第一步要做任务拆解规划。 这块非常依赖大模型的深度思考能力、工具调用能力,还有多模态支持能力。 火山引擎总裁谭待的说: 深度思考、多模态和工具调用等模型能力提升,是构建Agent的关键要素 个人非常认同! 另外,因模型备案、数据安全、地缘政治等诸多原因。 国内 AI Agent 产品发展,必须依赖国内模型的强大。 Deepseek R1 非常棒! 但是,有点可惜,它不支持多模态,这样应用场景会很受限。 所以,拥有媲美 Deepseek R1 推理能力,又支持多模态的豆包 1.6 系列大模型发布。 无疑是国产 AI 产品的希望之光。 一起了解、测试下豆包 1.6 系列模型。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#字节跳动
#火山引擎
#Force原动力大会
#豆包大模型1.6
#Seedance视频生成模型
#AI Agent
#任务拆解
#多模态
#大模型
#深度思考
#工具调用
分享
评论 0
0
小互
1个月前
Gemini 新模型 - 控制思考中使用的 token 用量 - 多模态 - 知识截止 2025年1月 - 最适合编码
#Gemini
#新模型
#多模态
#知识2025
#适合编码
分享
评论 0
0
向阳乔木
2个月前
今天跟几个朋友天津聚会撸串。 酒过三巡,聊出一个特别棒的产品方向。 用AI帮助创作者生成多模态内容,适配平台调性,RPA自动发布。 喝酒的技术大拿朋友刚好还写过十多个平台的同步发布,估计很快就能搞个demo出来。 我估计最快下周就能出个内测版。
#天津聚会
#AI生成内容
#多模态
#平台适配
#RPA
#自动发布
#技术开发
#产品方向
#内测版
分享
评论 0
0
WY
2个月前
OpenAI气数已尽,Altman不干实事 看今天发的GPT-4.1,我感觉OpenAI大概率气数已尽了。高端打不过Gemini和Claude,nano估计也打不过Gemini Flash(看得分就不如4o-mini),只敢跟两年前的4o比,但还不能替换4o,因为不是多模态的。 明显看出来OpenAI是手里没什么牌了,捉襟见肘,就算明后天再发个o4出来可能也无济于事,因为大概率会超贵导致其实没多少人用。 去年我就感觉OpenAI可能会步仙童后尘,今天看越来越有可能。 我觉得OpenAI如果真的不行了,和Altman不干实事有很大关系。这家伙花太多精力在忽悠钱上,一会7万亿,一会5000亿Stargate,就没想想自家的团队怎么才能有新的领军人物,自家的模型要怎么规划。
#OpenAI
#GPT-4.1
#Gemini
#Claude
#nano
#4o
#多模态
#技术竞争
#升级
分享
评论 0
0
央广网-央视新闻客户端
3个月前
多模态跨尺度生物医学成像设施通过国家验收
成像技术是生物医学最重要的研究工具之一,也是推动生命科学基础研究和临床医学研究发展的核心动力。我国首个生物医学成像领域综合型大科学装置――多模态跨尺度生物医学成像设施,今天(21日)在北京怀柔科学城通过国家验收。
#多模态
#跨尺度
#生物医学成像
#设施验收
#国家验收
分享
评论 0
0
karminski-牙医
3个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
宝玉
3个月前
GPT-4.5 的多模态还是挺强的
#GPT-4.5
#多模态
#AI
#人工智能
#新技术
#大模型
分享
评论 0
0
AIGCLINK
3个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
宝玉
3个月前
模型即产品(The Model is the Product) 作者:Alexander Doria 过去几年,人们一直在讨论下一个AI发展周期可能是什么:智能体(Agents)?推理系统(Reasoners)?还是彻底的多模态? 现在是时候下结论了:下一个周期,就是“模型本身即产品”。 目前,无论是科研界还是产业界的变化,都在推动这种转型: • 通用模型扩展遇到了瓶颈。OpenAI发布GPT-4.5时透露了一个重要信息:模型能力呈现线性增长,但算力成本却指数级飙升。尽管过去两年训练效率不断提高,但成本太高,以至于OpenAI无法以合理的价格广泛部署最新的大模型。 • 特定任务的强化训练效果远超预期。结合强化学习与推理能力训练,模型开始真正地“学习任务”,出现了一种新东西:既非传统机器学习,也不是基础模型,而是一种神秘的第三种类型。小模型突然展现出极强的数学能力;代码模型不仅会写代码,甚至能自己管理整个代码库;Claude甚至能在信息极少的情况下玩宝可梦游戏,并且做得很好。 • 推理成本大幅下降。以DeepSeek为例,新的优化技术已经让全球所有现有GPU的总算力,足以每天给地球上的每个人提供1万个顶级模型生成的token。这意味着,单纯卖token(模型调用次数)的经济模式已经难以持续,模型提供商不得不去做更高附加值的事情。 这种趋势让许多人感到不舒服。投资者们原本押注在应用层,但下一个阶段,最可能被AI取代的恰恰就是应用层。 下一代模型的形态 过去几周,我们看到了新一代“模型即产品”的典型案例,比如OpenAI的DeepResearch和Anthropic的Claude Sonnet 3.7。 许多人误解了DeepResearch,尤其市面上出现了大量山寨版本,让情况更加混乱。事实上,OpenAI并不是简单地在GPT基础上增加了外部搜索功能。他们训练了一个全新的模型,能够完全在内部完成搜索任务: 模型学习了基础的浏览能力(搜索、点击、滚动、文件解析),以及如何通过强化学习来整合大量网页信息,生成结构清晰、来源可靠的研究报告。 因此,DeepResearch并不是普通的聊天模型,而是一种专门设计用于搜索和研究的新型语言模型。相比之下,谷歌的Gemini和Perplexity的类似功能,只是在普通模型基础上的表面优化: Gemini和Perplexity也提供了所谓“深度研究”功能,但他们并未公开任何优化模型方法或实质性评估,这表明他们并未进行深入训练。 Anthropic也在明确他们的发展方向。他们在去年底给出了智能体(Agent)明确的定义:真正的智能体必须能够自主决定任务的具体实现过程和工具使用,而非被人为设计好的工作流程所限制。 目前市面上许多号称“智能体”的公司,实际上只是在设计自动化工作流程(workflows),即人为定义好的代码路径串联模型和工具。虽然这种工作流程也有一定价值,但未来真正有效的智能体一定会通过重新训练模型本身来实现。 举个具体例子:最近发布的Claude 3.7模型,专门针对复杂的代码开发任务进行强化训练,这让所有与代码相关的应用都出现了性能显著提升。 我所在的Pleias团队也做了类似尝试:我们设计了两个专门的模型,一个用于数据准备,一个专门用于搜索和报告生成,通过设计全新的合成数据和奖励机制进行训练,让部署阶段更简单,最终使得复杂性在训练阶段就被解决。 具体表现为将这种复杂结构:图1 转变为如下更简洁的模式:图2 要么自己训练,要么被别人训练。 可以明确的是,各大实验室都在向这个方向前进:他们会逐步停止开放API,转向自己训练并直接提供完整模型服务。著名AI公司Databricks的投资人Naveen Rao很清晰地指出: 在未来2-3年内,所有闭源AI提供商将停止提供API服务,只有开源模型才会继续提供API。闭源公司会建立更加独特、非商品化的能力。 近期的迹象也佐证了这个趋势: • OpenAI发布的DeepSearch只用于高级订阅用户,根本没有提供API服务。 • Claude Code的模型训练针对代码应用场景优化后,反而导致Cursor这样的第三方工具使用效果不佳。 • 一些曾经的“套壳公司”(wrapper公司,比如Cursor、WindSurf、Perplexity)也开始秘密训练自己的小型模型,以增强自己的竞争力。 小公司可能不会马上感受到这种冲击,但他们会越来越依赖独立的推理服务提供商。现在的竞争格局就像免费为大公司做市场调研和数据生成,最终结果可能是被训练公司吞并。 强化学习的价值被严重低估。 目前所有AI投资都存在同质化现象,投资机构普遍认为: • 真正的价值只存在于与模型无关的应用层; • 所有形式的训练,包括强化学习,都没有投资价值。 但现实情况是,强化学习(RL)的进步已经彻底改变了这种情况。现在的市场情况更像是风险投资出现了集体错误定价,忽视了强化学习最新的技术突破带来的巨大价值。 实际上,真正的新机会反而是那些专注于模型训练的公司,但他们却很难拿到融资。Prime Intellect公司虽然训练出了第一个去中心化的大模型,但融资规模甚至不如一般的应用层公司。 OpenAI最近也开始表达对这一现象的不满,希望硅谷创业公司多关注“垂直领域强化学习”,未来YC孵化器可能会做出调整:模型实验室不再只是向客户开放API,而是会和参与模型早期训练阶段的公司形成深度合作。 技术的爆炸,而非应用的爆炸。 相较之下,中国 DeepSeek 创始人梁文峰则更加直接地指出了这一点: 当前的AI发展,是一场技术创新的爆炸,而非应用创新的爆炸……如果上下游生态体系还不完整,直接去押注应用并没有意义。 很多西方公司甚至还没有意识到这场技术战争已经结束了,他们还在用上一次战争的思维去打下一次战争,已经远远落后。 以上,就是目前AI发展的大势所趋: 模型本身已经成为产品本身,谁掌握模型训练,谁就掌握未来。
#模型即产品
#AI发展周期
#智能体
#推理系统
#多模态
#通用模型
#OpenAI
分享
评论 0
0
外汇交易员
4个月前
据CNBC报道,受DeepSeek等竞争对手的冲击,百度计划在今年下半年发布下一代AI模型文心一言5.0。消息人士透露,文心一言5.0“在多模态能力方面有重大增强”。
#百度
#AI
#文心一言5.0
#多模态
#竞争
分享
评论 0
0
-Zho-
5个月前
卧槽!!!DeepSeek 又直接发大招了!整上多模态大一统开源模型 Janus-Pro 系列了!!!卧槽了!!! 上一个开源多模态统一模型还是Emu3(10月21号左右),我发的测试原帖在: 模型(7B): 模型(1B): 等我过年期间写好JanusPro的插件和当时Emu3的插件一起发!
#JanusPro
#开源模型
#多模态
#DeepSeek
#Emu3
分享
评论 0
0
宝玉
5个月前
字节的 AI 自动化测试框架,自然语言就可以测试 Web UI,比如像这样的测试代码: await ai('在搜索框中输入 "Headphones",然后回车'); 当然需要多模态的模型,支持的模型包括: - gpt-4o - claude-3-opus-20240229 - gemini-1.5-pro - qwen-vl-max-latest - doubao-vision-pro-32k 最新的 Gemini 2.0 Flash 不知道支持不支持 项目网页: Repo:
#字节
#人工智能
#自动化测试
#多模态
#Web UI
#自然语言处理
#AI 模型
分享
评论 0
0
卡尔的AI沃茨
6个月前
上手实测gemini-2.0一周感想,一个key能顶五六个AI应用。 不同于贵到肉疼的 o1 API, 也区别于“升级版封号斗罗pro-max-plus-ultra”的 Claude(额度是上午充的,号是中午没的。。。) Gemini 它免费啊! 原生多模态能做很多事了,翻译、编程、日常对话、联网搜索、中文视频聊天、视频剪辑、屏幕共享,把我其他AI应用的活也抢了。 这次来总结一下这几个玩法: (1/7)
#Gemini
#AI应用
#多模态
#Claude
#API
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞