Tw93

Tw93

0 关注者

9个月前

一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖

#开源模型 #多模态模型 #BAGEl #AI能力 #GPT-4o #Gemini 2.0 #图片编辑 #文生图

相关新闻

placeholder

Gorden Sun

4天前

Cohere开源语音识别模型Transcribe 2B参数,本地能跑,可能是目前的开源最佳,但是不确定中文识别的效果如何。 模型:

placeholder

Gorden Sun

6天前

PrismAudio:视频生成音效 阿里开源的模型,输入视频,自动生成跟画面匹配的音效。效果还不错。 项目地址: 模型:

placeholder

Xiaowen

2周前

Qwen3.5 系列确实厉害。 手机上能跑的 Qwen 3.5 2B 版本,已经可以流畅合理的进行很多有内容的复杂对话了,其他任何一个国外开源的 2-4b 版本,几乎完全是智障。

placeholder

Crypto_Painter

2周前

基本上跑通了! 现在我的 Agent 会每小时自动记录当前的K线形态,然后交给 Embedding 进行向量索引,由于这个多模态模型的图像识别真的很强… 所以目前后台反馈的样本案例与实际行情走的都有一种神似的感觉… 图中K线是2024年11月的某段行情… 最后尤其是在把交易量也纳入进去后,整体吻合度变得更好了。 目前市价开了多单,2.6%止盈, 1.2%止损… 当然,如果他发现当前形态

placeholder

Justin3go

2周前

已经支持文本生成图片,new edit时不上传图片就是生成图片,然后就可以进行编辑了

© 2025 news.news. All rights reserved. 0.04696 秒. v1.0.46
我的评论