时政
财经
科技
虚拟货币
其他
登录
#token预测
关注
howie.serious
17小时前
为什么 nano banana pro 的文字渲染和指令跟随,有如此大的进步? 以配图为例,分别是大量汉字的 PPT 和知识漫画,这种级别的文字生成,背后的 why,是真正有趣的地方。 === 对于扩散模型(diffusion model),生成图片的本质是去噪(denoising)。模型学习的是图像在潜空间(latent space)里的概率分布,通过预测逐渐减去噪声,逐步让图像“显形”,把一张图片“画”/“雕刻”出来。 dall·e 2和3、stable diffusion 等都是如此。它们本质上是没文化的“画图机器”,处理的是连续的像素值。对于它们来说,图片里的文字只是像素,就像不懂中文的老外,生成的汉字看起来“像”,但笔画等细节是乱七八糟的,因为它根本不“懂”这些汉字。 但是,对于 nano banana pro 和 gpt-image-1 这样的原生多模态模型(token in, token out 的 native multimodal transformer),生成图片的本质已经不再是“绘画”,而是“预测下一个token”。 对nano banana pro 来说,画面里的汉字,不论是图片还是文字,实际上是同样的数学向量,是“跨模态”的。它生成的汉字,是在用写文字的逻辑,在“写”图片里的汉字,所以拼写错误率极低。
#Nano Banana Pro
#文字渲染
#多模态模型
#token预测
#图像生成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞