另一个 Gemini Nano Banana Pro 仍然搞不定的问题是复杂的光学比如下面这个 prompt：画一个玻璃酒杯，里面有小半杯红酒。一个年轻女性端着酒杯凝视着红酒，酒杯的杯壁上倒映出女性的脸。感觉需要世界模型的突破才行。

#Gemini Nano #光学问题 #AI局限性 #世界模型 #图像生成

相关新闻

howie.serious

3个月前

为什么 nano banana pro 的文字渲染和指令跟随，有如此大的进步？以配图为例，分别是大量汉字的 PPT 和知识漫画，这种级别的文字生成，背后的 why，是真正有趣的地方。 === 对于扩散模型（diffusion model），生成图片的本质是去噪（denoising）。模型学习的是图像在潜空间（latent space）里的概率分布，通过预测逐渐减去噪声，逐步让图像“显形”，

xushiwei

2个月前

所以看好agi能够快速落地的人都忽略了一个显性的事实：今天的ai，连肢体都没有，更不要妄论赶超人类。机器人之后才有agi。但是机器人什么时候能够真正进入千家万户？这个是当前更加现实的产业问题。机器人落地并不需要ai达到agi级别的水平。

nicekate

3个月前

试了下 Z-Image-Turbo 图1-2，4张选最好的1张展示在下方 Z-Image-Turbo 速度生成很快，小字文字渲染一般图3-4是 Nanobanana Pro 生成的效果两者对比，是有点欺负 Z-Image-Turbo 了，Nanobanana Pro 价格是 Z-Image-Turbo 价格的 30倍

神奇小喷菇AIGC

3个月前

nano banana pro 风靡全球大家停不下来生成图像层出不穷的想象力以下是6个商业应用方向的示例👇

Gorden Sun

3个月前

RynnVLA-002：整合的视觉-语言-行动和世界模型阿里达摩院开源的模型，整合了VLA的世界模型。世界模型用于生成场景图片，VLA模型用于生成动作，同时也支撑世界模型生成图片。除了用于可交互的世界场景外，更适用于机器人任务。在评测数据集的表现上，接近闭源模型。模型：

另一个 Gemini Nano Banana Pro 仍然搞不定的问题是复杂的光学 比如下面这个 prompt： 画一个玻璃酒杯，里面有小半杯红酒。一个年轻女性端着酒杯凝视着红酒，酒杯的杯壁上倒映出女性的脸。 感觉需要世界模型的突破才行。

相关新闻

另一个 Gemini Nano Banana Pro 仍然搞不定的问题是复杂的光学比如下面这个 prompt：画一个玻璃酒杯，里面有小半杯红酒。一个年轻女性端着酒杯凝视着红酒，酒杯的杯壁上倒映出女性的脸。感觉需要世界模型的突破才行。