Gorden Sun

0 关注者

2个月前

还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。

#多模态模型 #GPT-4o #绘画 #语义能力

相关新闻

placeholder

Gorden Sun

2周前

Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:

placeholder

Oil_liu

2周前

绢本水彩·荔枝園遊俠 趁热打铁🎨

placeholder

Gorden Sun

2周前

Ming-Omni:首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源,支持输入文本、语音、图片、视频,输出文本、语音、图片(跟GPT-4o一样),应该是对标GPT-4o的第一个开源模型。 项目地址: Github:

placeholder

Tw93

3周前

一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖

placeholder

EC Elliot

3周前

字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github

关联事件

© 2025 news.news. All rights reserved. 0.03079 秒