#多模态模型

2周前

基本上跑通了！现在我的 Agent 会每小时自动记录当前的K线形态，然后交给 Embedding 进行向量索引，由于这个多模态模型的图像识别真的很强… 所以目前后台反馈的样本案例与实际行情走的都有一种神似的感觉… 图中K线是2024年11月的某段行情… 最后尤其是在把交易量也纳入进去后，整体吻合度变得更好了。目前市价开了多单，2.6%止盈， 1.2%止损… 当然，如果他发现当前形态看上去要跌了，还会直接平多做空，反之亦然。

#股票K线 #图像识别 #交易策略 #2024年行情 #多模态模型

2周前

已经让小画师去尝试调用了，大致逻辑是将过去6年的历史K线进行分类，将一些明显的K线形态进行特征分类，并筛选对应K线形态后的价格波动。将这些样本转换为图片、并将同时间发生的新闻事件文本内容一同Embedding，未来应该还可以加入更多维度数据… 因为Embedding是多模态模型，所以过往那种将K线的高开低收转化为文本序列的模式并不能做到模糊对应，而这个Embedding 2则可以通过图像处理做到“神似”的匹配逻辑。目前测试了一遍，4500根1h级别K线中可以识别出43个形态特征，也就是说平均每5天，BTC就会形成一个肉眼可见的价格形态。接下来的思路就是通过Gemini 3.1 Pro对当前K线形态进行截取，再去对照之前的历史数据，得出一个相似度，如果相似度达到阈值，就发出信号通知我或直接下单交易，就用OKX的 Agent API… 当下仅仅是一个测试，这种交易策略就是把“刻舟求剑”发挥到极致，顺便可以用大数据对所谓“技术分析”的根本有效性进行验证或证伪！

#K线形态 #图片识别 #多模态模型 #历史数据分析 #股票市场

3周前

Yuan3.0-Ultra：开源1TB多模态模型浪潮开源的模型，1010B总参数，68.8B激活参数，支持图片输入。模型：

#Yuan3.0-Ultra #开源 #多模态模型 #浪潮 #图片输入 #大模型 #人工智能

3个月前

为什么 nano banana pro 的文字渲染和指令跟随，有如此大的进步？以配图为例，分别是大量汉字的 PPT 和知识漫画，这种级别的文字生成，背后的 why，是真正有趣的地方。 === 对于扩散模型（diffusion model），生成图片的本质是去噪（denoising）。模型学习的是图像在潜空间（latent space）里的概率分布，通过预测逐渐减去噪声，逐步让图像“显形”，把一张图片“画”/“雕刻”出来。 dall·e 2和3、stable diffusion 等都是如此。它们本质上是没文化的“画图机器”，处理的是连续的像素值。对于它们来说，图片里的文字只是像素，就像不懂中文的老外，生成的汉字看起来“像”，但笔画等细节是乱七八糟的，因为它根本不“懂”这些汉字。但是，对于 nano banana pro 和 gpt-image-1 这样的原生多模态模型（token in, token out 的 native multimodal transformer），生成图片的本质已经不再是“绘画”，而是“预测下一个token”。对nano banana pro 来说，画面里的汉字，不论是图片还是文字，实际上是同样的数学向量，是“跨模态”的。它生成的汉字，是在用写文字的逻辑，在“写”图片里的汉字，所以拼写错误率极低。

#Nano Banana Pro #文字渲染 #多模态模型 #token预测 #图像生成

我真的没有拼多多

4个月前

下班后，用v0两小时不到快速糊了一款表情识别器demo 百度最近新开源了一个多模态的模型，我测试了一下它的图像识别能力，非常强大，甚至对于面部表情都能很好的识别。基于此模型，开发了一个表情识别特效网站，看看你能做出多少种表情来吧，欢迎大家试玩！网址在评论区第一条（使用的具体模型：ERNIE 4.5-VL-28B-A3B-Thinking）

#表情识别 #多模态模型 #ERNIE 4.5-VL-28B-A3B-Thinking #图像识别 #特效网站

4个月前

为什么多模态模型训练都会保留色情图片？前几天听播客才知道。如果模型训练时去掉对裸体色情图片，AI 就会失去对人体结构的理解能力。就像一个好的画家需要研究解剖学才能知道人的结构一样，模型也需要这些数据。所以，只会标记NSFW（Not Safe For Work）模型输出再去掉这类图片。

#多模态模型 #色情图片 #人体结构理解 #NSFW #AI训练

4个月前

刚发现一个 Nano-Banana 精选案例库，收录了 110+ 个实战案例，做 AI 图像的朋友们可以省去无数试错时间。它不只是简单的效果展示，每个案例都附带完整的输入图 + 输出图 + 提示词，可以直接上手复现。覆盖的场景非常全：人物编辑：换装、换发型、换妆造、表情迁移创意合成：照片变手办、线稿上色、草图变实景实用修复：老照片修复、去水印、图片增强设计辅助：产品包装、材质转换、风格迁移多图融合：场景重构、构图参考、元素组合他们还开源了 Nano-consistent-150k 数据集，这是针对「人物身份一致性」专门设计的，同一个人在 35+ 种编辑任务下都能保持稳定。这对做图像生成或多模态模型的人来说，参考价值很高。案例都是从 Twitter 和小红书等自媒体平台精选出来的真实应用，不是 Demo 级别的玩具效果。找提示词灵感，学习图像编辑思路，了解多模态能力边界，一个库解决三个需求。 Star 一下不亏，说不定下次做项目就能用上

#AI图像 #Nano-Banana案例库 #图像编辑 #多模态模型 #开源数据集

5个月前

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强：判断位置、方向、交互元素，支持空间推理与动态视频理解。 ·多语言OCR：支持 32 种语言识别，弱光、模糊场景也能准确提取文字。 ·指令理解更强：基于更深层的 instruction-tuning，使交互更加自然。 ✅关于显存与性能： Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行，若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率：图像可自动缩放到合适尺寸，但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化：可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性；对于多语言 OCR 任务，建议在 Prompt 中明确语言类型（如 “请用英文输出”）。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#通义千问 #Qwen3-VL #视觉理解 #多模态模型 #AI

6个月前

感兴趣的朋友，可以到 Lovart 体验：Lovart + Nano Banana + Veo 3 的无限画布 + 超强多模态模型带来的创作自由。 Lovart 地址：

#Lovart #nano banana #Veo 3 #多模态模型 #创作自由

歸藏(guizang.ai)

7个月前

最近 Higgsfield 这个变成花瓣爆炸的特效真的很火研究了一下居然是纯提示词实现的于是搞了一个提示词，到任何一个支持多模态的模型上传你想要转换的图片加提示词就能获得最终的提示了用海螺生成视频效果好点

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#Higgsfield特效 #花瓣爆炸 #提示词 #多模态模型 #海螺生成视频

7个月前

Cohere发布Command A Vision 视觉多模态模型，评分超过GPT 4.1，开源但不可商用。模型：

#Cohere #Command A Vision #多模态模型 #GPT 4.1 #开源

8个月前

熬了两个大周😋 终于把多模态 Agent 给大家端上来了⚡️ 我们在 0.8 的版本里面正式支持在画布上使用 30+ 多模态模型做生成💥 recraft、veo3、minimax、字节家的 seedance 并且这一切都是可以通过 Agent 一句话生成出来，你可以先搜索，然后做生图+网页可视化讲解，最后配上音频播客，非常值得尝试！

#多模态Agent #多模态模型 #AIGC #自动化生成 #0.8版本

8个月前

盲猜一个：只有 chatgpt 的多模态模型，可以解读这张图片里有点微妙（subtle）的幽默。测试 prompt：解读这张图片的幽默之处。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#ChatGPT #多模态模型 #幽默 #图片解读 #微妙

9个月前

Ming-Omni：首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源，支持输入文本、语音、图片、视频，输出文本、语音、图片（跟GPT-4o一样），应该是对标GPT-4o的第一个开源模型。项目地址： Github：

#Ming-Omni #开源 #多模态模型 #GPT-4o #蚂蚁集团 #inclusionAI

9个月前

一个开源的统一多模态模型 BAGEL，基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力，说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖

#开源模型 #多模态模型 #BAGEl #AI能力 #GPT-4o #Gemini 2.0 #图片编辑 #文生图

9个月前

字节的多模态模型 - BAGEl - 开源免费对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先，超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高，细节丰富，媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模，综合能力突出线上直接体验官网 Github

#多模态模型 #BAGEl #字节 #Qwen2.5-VL #InternVL-2.5 #SD3 #图像生成 #图像编辑 #风格迁移 #自由视觉操作 #多轮对话 #复杂推理 #世界建模 #开源模型

10个月前

谷歌新发布的Gemini 2.5 Flash Exp Audio模型，是原生多模态模型，支持文本、图片、语音输入，支持文本、语音输出。输出的语音支持各种语气和声音，也能唱歌和RAP，虽然中文有时会有发音错误，但整体也非常不错了，ASMR的少女声音，让人感觉又恋爱了。下方视频第一段：少女ASMR 下方视频第二段：唱歌和RAP

#谷歌 #Gemini #多模态模型 #语音技术 #唱歌 #RAP #ASMR

10个月前

还是多模态的模型好，GPT-4o可以同时兼顾绘画和语义。

#多模态模型 #GPT-4o #绘画 #语义能力

李老师不是你老师

11个月前

4月5日 Meta发布了其新一代开源大语言模型Liama4，其拥有超过4000亿参数，Meta宣称该模型是同类中最好的多模态模型（可以处理图像输入输出），在参数量更少运行门槛更低的情况下，编程和推理能力上和DeepSeek V3相当。并且该模型完全免费开源，用户可以从Liama官网下载并部署在本地。

#Meta #开源 #大语言模型 #Liama4 #多模态模型 #DeepSeek v3 #免费 #推理能力

1年前

百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1，对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型，在多个基准测试中超越了 GPT-4.5，具备更强的理解、生成、推理和记忆能力，并且成本更低。该模型在处理多种数据类型方面表现出色，同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当，但成本仅为其一半，专注于深度推理能力。这两款模型均可免费使用，ERNIE 4.5 还可通过 API 提供给企业用户，并计划进一步集成至百度的各项服务中。此外，百度宣布计划开源 ERNIE 4.5，以推动先进 AI 技术的普及。

#百度 #ERNIE 4.5 #ERNIE X1 #人工智能 #多模态模型 #AI 幻觉 #GPT-4.5 #DeepSeek R1 #AI 行业

karminski-牙医

1年前

来了嗷！全网首测！DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro！这个模型的特点是将文生图和图生文合二为一了！我觉得这个模型更多是方向上的验证，如果验证靠谱就会推出可以投入生产的模型了。 [1/?]

#DeepSeek #Janus-Pro #多模态模型 #文生图 #图生文 #模型验证 #新技术 #人工智能

网易新闻-新京报

1年前

进军文生图 DeepSeek发布多模态模型Janus-Pro

进军文生图 DeepSeek发布多模态模型Janus-Pro,文生,文年生,janus,多模态模型,deepseek

#进军 #文生图 #DeepSeek #多模态模型 #Janus-Pro

新浪新闻-新京报

1年前

进军文生图 DeepSeek发布多模态模型Janus-Pro

新京报贝壳财经讯（记者罗亦丹）北京时间1月28日凌晨，近期爆红的国产大模型DeepSeek在GitHub平台发布了Jan..._新浪网

#文生图 #DeepSeek #多模态模型 #Janus-Pro #人工智能