时政
财经
科技
虚拟货币
其他
登录
#多模态模型
关注
我真的没有拼多多
3天前
下班后,用v0两小时不到快速糊了一款表情识别器demo 百度最近新开源了一个多模态的模型,我测试了一下它的图像识别能力,非常强大,甚至对于面部表情都能很好的识别。 基于此模型,开发了一个表情识别特效网站,看看你能做出多少种表情来吧,欢迎大家试玩! 网址在评论区第一条 (使用的具体模型:ERNIE 4.5-VL-28B-A3B-Thinking)
#表情识别
#多模态模型
#ERNIE 4.5-VL-28B-A3B-Thinking
#图像识别
#特效网站
分享
评论 0
0
向阳乔木
1周前
为什么多模态模型训练都会保留色情图片? 前几天听播客才知道。 如果模型训练时去掉对裸体色情图片,AI 就会失去对人体结构的理解能力。 就像一个好的画家需要研究解剖学才能知道人的结构一样,模型也需要这些数据。 所以,只会标记NSFW(Not Safe For Work) 模型输出再去掉这类图片。
#多模态模型
#色情图片
#人体结构理解
#NSFW
#AI训练
分享
评论 0
0
Latte
1周前
刚发现一个 Nano-Banana 精选案例库,收录了 110+ 个实战案例,做 AI 图像的朋友们可以省去无数试错时间。 它不只是简单的效果展示,每个案例都附带完整的输入图 + 输出图 + 提示词,可以直接上手复现。 覆盖的场景非常全: 人物编辑:换装、换发型、换妆造、表情迁移 创意合成:照片变手办、线稿上色、草图变实景 实用修复:老照片修复、去水印、图片增强 设计辅助:产品包装、材质转换、风格迁移 多图融合:场景重构、构图参考、元素组合 他们还开源了 Nano-consistent-150k 数据集,这是针对「人物身份一致性」专门设计的,同一个人在 35+ 种编辑任务下都能保持稳定。这对做图像生成或多模态模型的人来说,参考价值很高。 案例都是从 Twitter 和小红书等自媒体平台精选出来的真实应用,不是 Demo 级别的玩具效果。 找提示词灵感,学习图像编辑思路,了解多模态能力边界,一个库解决三个需求。 Star 一下不亏,说不定下次做项目就能用上
#AI图像
#Nano-Banana案例库
#图像编辑
#多模态模型
#开源数据集
分享
评论 0
0
sitin
3周前
阿里巴巴通义千问团队发布的 Qwen3-VL,正是这样一款跨越视觉与语言边界的模型。 它不仅能理解文字、生成内容,还能“看图识意”、“看视频理解场景”、“解析界面元素”,甚至自动生成 HTML/CSS 代码,让 AI 真正具备“视觉思考能力”。 核心亮点 ·视觉理解飞跃:能看懂图片、网页、PDF、视频帧,进行语义推理和内容描述。 ·视觉编码生成:自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强:判断位置、方向、交互元素,支持空间推理与动态视频理解。 ·多语言OCR:支持 32 种语言识别,弱光、模糊场景也能准确提取文字。 ·指令理解更强:基于更深层的 instruction-tuning,使交互更加自然。 ✅关于显存与性能: Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行,若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率: 图像可自动缩放到合适尺寸,但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化: 可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性; 对于多语言 OCR 任务,建议在 Prompt 中明确语言类型(如 “请用英文输出”)。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#通义千问
#Qwen3-VL
#视觉理解
#多模态模型
#AI
分享
评论 0
0
meng shao
2个月前
感兴趣的朋友,可以到 Lovart 体验:Lovart + Nano Banana + Veo 3 的无限画布 + 超强多模态模型带来的创作自由。 Lovart 地址:
#Lovart
#nano banana
#Veo 3
#多模态模型
#创作自由
分享
评论 0
0
歸藏(guizang.ai)
3个月前
最近 Higgsfield 这个变成花瓣爆炸的特效真的很火 研究了一下居然是纯提示词实现的 于是搞了一个提示词,到任何一个支持多模态的模型上传你想要转换的图片加提示词就能获得最终的提示了 用海螺生成视频效果好点
AI视频井喷:Midjourney领跑,多模态混战· 309 条信息
#Higgsfield特效
#花瓣爆炸
#提示词
#多模态模型
#海螺生成视频
分享
评论 0
0
Gorden Sun
3个月前
Cohere发布Command A Vision 视觉多模态模型,评分超过GPT 4.1,开源但不可商用。 模型:
#Cohere
#Command A Vision
#多模态模型
#GPT 4.1
#开源
分享
评论 0
0
Tom Huang
3个月前
熬了两个大周😋 终于把多模态 Agent 给大家端上来了⚡️ 我们在 0.8 的版本里面正式支持在画布上使用 30+ 多模态模型做生成💥 recraft、veo3、minimax、字节家的 seedance 并且这一切都是可以通过 Agent 一句话生成出来,你可以先搜索,然后做生图+网页可视化讲解,最后配上音频播客,非常值得尝试!
#多模态Agent
#多模态模型
#AIGC
#自动化生成
#0.8版本
分享
评论 0
0
howie.serious
4个月前
盲猜一个:只有 chatgpt 的多模态模型,可以解读这张图片里有点微妙(subtle)的幽默。 测试 prompt:解读这张图片的幽默之处。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#ChatGPT
#多模态模型
#幽默
#图片解读
#微妙
分享
评论 0
0
Gorden Sun
4个月前
Ming-Omni:首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源,支持输入文本、语音、图片、视频,输出文本、语音、图片(跟GPT-4o一样),应该是对标GPT-4o的第一个开源模型。 项目地址: Github:
#Ming-Omni
#开源
#多模态模型
#GPT-4o
#蚂蚁集团
#inclusionAI
分享
评论 0
0
Tw93
5个月前
一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖
#开源模型
#多模态模型
#BAGEl
#AI能力
#GPT-4o
#Gemini 2.0
#图片编辑
#文生图
分享
评论 0
0
EC Elliot
5个月前
字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github
#多模态模型
#BAGEl
#字节
#Qwen2.5-VL
#InternVL-2.5
#SD3
#图像生成
#图像编辑
#风格迁移
#自由视觉操作
#多轮对话
#复杂推理
#世界建模
#开源模型
分享
评论 0
0
Gorden Sun
5个月前
谷歌新发布的Gemini 2.5 Flash Exp Audio模型,是原生多模态模型,支持文本、图片、语音输入,支持文本、语音输出。 输出的语音支持各种语气和声音,也能唱歌和RAP,虽然中文有时会有发音错误,但整体也非常不错了,ASMR的少女声音,让人感觉又恋爱了。 下方视频第一段:少女ASMR 下方视频第二段:唱歌和RAP
#谷歌
#Gemini
#多模态模型
#语音技术
#唱歌
#RAP
#ASMR
分享
评论 0
0
Gorden Sun
6个月前
还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。
#多模态模型
#GPT-4o
#绘画
#语义能力
分享
评论 0
0
李老师不是你老师
7个月前
4月5日 Meta发布了其新一代开源大语言模型Liama4,其拥有超过4000亿参数,Meta宣称该模型是同类中最好的多模态模型(可以处理图像输入输出),在参数量更少运行门槛更低的情况下,编程和推理能力上和DeepSeek V3相当。 并且该模型完全免费开源,用户可以从Liama官网下载并部署在本地。
#Meta
#开源
#大语言模型
#Liama4
#多模态模型
#DeepSeek v3
#免费
#推理能力
分享
评论 0
0
勃勃OC
7个月前
百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1,对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型,在多个基准测试中超越了 GPT-4.5,具备更强的理解、生成、推理和记忆能力,并且成本更低。 该模型在处理多种数据类型方面表现出色,同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当,但成本仅为其一半,专注于深度推理能力。这两款模型均可免费使用,ERNIE 4.5 还可通过 API 提供给企业用户,并计划进一步集成至百度的各项服务中。 此外,百度宣布计划开源 ERNIE 4.5,以推动先进 AI 技术的普及。
#百度
#ERNIE 4.5
#ERNIE X1
#人工智能
#多模态模型
#AI 幻觉
#GPT-4.5
#DeepSeek R1
#AI 行业
分享
评论 0
0
karminski-牙医
9个月前
来了嗷!全网首测!DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro!这个模型的特点是将文生图和图生文合二为一了! 我觉得这个模型更多是方向上的验证,如果验证靠谱就会推出可以投入生产的模型了。 [1/?]
#DeepSeek
#Janus-Pro
#多模态模型
#文生图
#图生文
#模型验证
#新技术
#人工智能
分享
评论 0
0
网易新闻-新京报
9个月前
进军文生图 DeepSeek发布多模态模型Janus-Pro
进军文生图 DeepSeek发布多模态模型Janus-Pro,文生,文年生,janus,多模态模型,deepseek
#进军
#文生图
#DeepSeek
#多模态模型
#Janus-Pro
分享
评论 0
0
新浪新闻-新京报
9个月前
进军文生图 DeepSeek发布多模态模型Janus-Pro
新京报贝壳财经讯(记者罗亦丹)北京时间1月28日凌晨,近期爆红的国产大模型DeepSeek在GitHub平台发布了Jan..._新浪网
#文生图
#DeepSeek
#多模态模型
#Janus-Pro
#人工智能
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞