#图像理解

2周前

#OpenAI 发布更新修复 GPT-5.4 API 存在的图像理解能力低下问题，该问题由图像编码器故障引起，目前已经在后端服务器修复。修复后在高分辨率截图分析、图表 OCR 识别、复杂文档布局理解等场景上，GPT-5.4 的识别和理解能力会更稳定。查看全文：

#OpenAI #GPT-5.4 #图像理解 #图像编码器 #高分辨率截图 #图表OCR #文档布局理解 #更新修复 #API改进

5个月前

OpenRouter 又上隐身模型了 openrouter/andromeda-alpha ，这是一个较小的推理模型，擅长图像理解。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#Openrouter #隐身模型 #andromeda-alpha #图像理解 #推理模型

7个月前

昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力，采用自回归路线，基于大规模高质量数据进行端到端预训练。采用 MAR + SigLIP2 混合架构，兼顾视觉细节与语义理解，突破传统 VQ/VAE 编码器的局限。支持端到端联合训练，实现三大任务协同优化，避免能力权衡。引入 Skywork-ImgReward 与 Skywork-EditReward 两个奖励模型，用于数据筛选与训练增强。用户只需要输入提示词，Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成图片，还可以像美图工具一样，一键实现风格转绘/吉卜力化的编辑功能。 1.5B参数规模实现轻量级与高性能的平衡，具备指令遵循、复杂指令生图和图像编辑的领先能力,实现了近乎大型模型的性能，强调了 “小而美” 的技术设计理念。

#昆仑万维 #Skywork UniPic #多模态预训练模型 #图像理解 #文本生成图像

9个月前

即梦AI图片3.0功能更新，普通照片秒变海报——支持超级简单甚至无Prompt操作，用户只需上传一张普通素材照片，模型就能理解图像内容自动生成海报，还可以通过简单描述需求来优化效果。使用了SeedEdit3和全新的DreamPoster两个模型，前者保持原图内容特征且风格可控准确，后者专攻文字和图片混合的智能生成，自动布局排版、智能文字生成，大大提升了在商业海报应用方面的表现。

#AI图片 #功能更新 #自动海报生成 #图像理解 #SeedEdit3 #DreamPoster #商业应用

偶像派作手

1年前

Grok 3 太强了，它对这张图的解释已经超过chatGPT 4o。我更喜欢Grok 3的回答。

#Grok3 #图像理解 #AI对比 #ChatGPT4