Gorden Sun

Gorden Sun

0 关注者

1个月前

Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

相关新闻

placeholder

卫斯理

6小时前

我对着这张图思考了很长时间.....

placeholder

sitin

1天前

智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长

placeholder

Mr Panda

3天前

GPT-5 遭至大量的批评后, 又被迫把gpt-4o 给放出来了。 熊猫老板评价: GPT-5 的升级背后有很大的降低成本、优化利润的考量。

placeholder

德潤傳媒

3天前

這張圖,應該讓更多的中國大陸人看到才好!

placeholder

Haze 𝓰𝓶𝓰𝓷𝓪𝓲

3天前

市值,成交额,持有者3个数值颜色可以自定义了。 你可以设置自己想要的颜色,特别是扫链的时候,可以让视觉更舒服点。

© 2025 news.news. All rights reserved. 0.09134 秒. v1.0.42
我的评论