时政
财经
科技
虚拟货币
其他
登录
#多模态模型
关注
歸藏(guizang.ai)
1周前
最近 Higgsfield 这个变成花瓣爆炸的特效真的很火 研究了一下居然是纯提示词实现的 于是搞了一个提示词,到任何一个支持多模态的模型上传你想要转换的图片加提示词就能获得最终的提示了 用海螺生成视频效果好点
AI视频井喷:Midjourney领跑,多模态混战· 82 条信息
#Higgsfield特效
#花瓣爆炸
#提示词
#多模态模型
#海螺生成视频
分享
评论 0
0
Gorden Sun
2周前
Cohere发布Command A Vision 视觉多模态模型,评分超过GPT 4.1,开源但不可商用。 模型:
#Cohere
#Command A Vision
#多模态模型
#GPT 4.1
#开源
分享
评论 0
0
Tom Huang
4周前
熬了两个大周😋 终于把多模态 Agent 给大家端上来了⚡️ 我们在 0.8 的版本里面正式支持在画布上使用 30+ 多模态模型做生成💥 recraft、veo3、minimax、字节家的 seedance 并且这一切都是可以通过 Agent 一句话生成出来,你可以先搜索,然后做生图+网页可视化讲解,最后配上音频播客,非常值得尝试!
#多模态Agent
#多模态模型
#AIGC
#自动化生成
#0.8版本
分享
评论 0
0
howie.serious
1个月前
盲猜一个:只有 chatgpt 的多模态模型,可以解读这张图片里有点微妙(subtle)的幽默。 测试 prompt:解读这张图片的幽默之处。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#ChatGPT
#多模态模型
#幽默
#图片解读
#微妙
分享
评论 0
0
Gorden Sun
2个月前
Ming-Omni:首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源,支持输入文本、语音、图片、视频,输出文本、语音、图片(跟GPT-4o一样),应该是对标GPT-4o的第一个开源模型。 项目地址: Github:
#Ming-Omni
#开源
#多模态模型
#GPT-4o
#蚂蚁集团
#inclusionAI
分享
评论 0
0
Tw93
2个月前
一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖
#开源模型
#多模态模型
#BAGEl
#AI能力
#GPT-4o
#Gemini 2.0
#图片编辑
#文生图
分享
评论 0
0
EC Elliot
2个月前
字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github
#多模态模型
#BAGEl
#字节
#Qwen2.5-VL
#InternVL-2.5
#SD3
#图像生成
#图像编辑
#风格迁移
#自由视觉操作
#多轮对话
#复杂推理
#世界建模
#开源模型
分享
评论 0
0
Gorden Sun
2个月前
谷歌新发布的Gemini 2.5 Flash Exp Audio模型,是原生多模态模型,支持文本、图片、语音输入,支持文本、语音输出。 输出的语音支持各种语气和声音,也能唱歌和RAP,虽然中文有时会有发音错误,但整体也非常不错了,ASMR的少女声音,让人感觉又恋爱了。 下方视频第一段:少女ASMR 下方视频第二段:唱歌和RAP
#谷歌
#Gemini
#多模态模型
#语音技术
#唱歌
#RAP
#ASMR
分享
评论 0
0
Gorden Sun
3个月前
还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。
#多模态模型
#GPT-4o
#绘画
#语义能力
分享
评论 0
0
李老师不是你老师
4个月前
4月5日 Meta发布了其新一代开源大语言模型Liama4,其拥有超过4000亿参数,Meta宣称该模型是同类中最好的多模态模型(可以处理图像输入输出),在参数量更少运行门槛更低的情况下,编程和推理能力上和DeepSeek V3相当。 并且该模型完全免费开源,用户可以从Liama官网下载并部署在本地。
#Meta
#开源
#大语言模型
#Liama4
#多模态模型
#DeepSeek v3
#免费
#推理能力
分享
评论 0
0
勃勃OC
5个月前
百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1,对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型,在多个基准测试中超越了 GPT-4.5,具备更强的理解、生成、推理和记忆能力,并且成本更低。 该模型在处理多种数据类型方面表现出色,同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当,但成本仅为其一半,专注于深度推理能力。这两款模型均可免费使用,ERNIE 4.5 还可通过 API 提供给企业用户,并计划进一步集成至百度的各项服务中。 此外,百度宣布计划开源 ERNIE 4.5,以推动先进 AI 技术的普及。
#百度
#ERNIE 4.5
#ERNIE X1
#人工智能
#多模态模型
#AI 幻觉
#GPT-4.5
#DeepSeek R1
#AI 行业
分享
评论 0
0
karminski-牙医
6个月前
来了嗷!全网首测!DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro!这个模型的特点是将文生图和图生文合二为一了! 我觉得这个模型更多是方向上的验证,如果验证靠谱就会推出可以投入生产的模型了。 [1/?]
#DeepSeek
#Janus-Pro
#多模态模型
#文生图
#图生文
#模型验证
#新技术
#人工智能
分享
评论 0
0
网易新闻-新京报
6个月前
进军文生图 DeepSeek发布多模态模型Janus-Pro
进军文生图 DeepSeek发布多模态模型Janus-Pro,文生,文年生,janus,多模态模型,deepseek
#进军
#文生图
#DeepSeek
#多模态模型
#Janus-Pro
分享
评论 0
0
新浪新闻-新京报
6个月前
进军文生图 DeepSeek发布多模态模型Janus-Pro
新京报贝壳财经讯(记者罗亦丹)北京时间1月28日凌晨,近期爆红的国产大模型DeepSeek在GitHub平台发布了Jan..._新浪网
#文生图
#DeepSeek
#多模态模型
#Janus-Pro
#人工智能
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞