#文生图

Black Forest Labs 发布 FLUX.2,依旧开源! 支持文生图、多图参考以及图像编辑,文本生成和提示词遵循能力大幅提高。 具体的模型能力有: - 最多同时参考 10 张图片,提供最佳一致性。 - 更丰富的细节、更清晰的纹理和更稳定的光线。 - 复杂排版、信息图、表情包和用户界面的文字渲染 - 在遵循复杂、结构化指令方面得到改进 - 现实世界知识、光照和空间逻辑方面显著更有根据 - 支持高达 4MP 分辨率的图像编辑 这次发布了四个模型版本: FLUX.2 [pro]:与最优秀的封闭模型相媲美的最先进图像质量,在提示遵从性和视觉逼真度方面与其他模型相当,同时生成图像更快且成本更低。速度与质量两者兼得。 FLUX.2 [flex]:可控制模型参数,例如步数和引导强度,让开发者对质量、提示遵从性与速度拥有完全控制。该模型在渲染文本和细节方面表现出色。 FLUX.2 [dev]:32B 开放权重模型,源自 FLUX.2 基础模型。当前最强大的开源图像生成与编辑模型,将文本到图像合成与多输入图像的图像编辑结合在单一模型中。 FLUX.2 [klein](即将推出):开源,Apache 2.0 许可证模型,从 FLUX.2 基础模型通过蒸馏得到的同尺寸模型。比同等尺寸且从头训练的可比模型更强大且更利于开发者使用。 FLUX.2 - VAE:一种新的变分自编码器,用于潜在表示,在可学习性、质量和压缩率之间提供优化的权衡。
DynamicWang
3个月前
我现在面临的是在一场已经进入“深水区”的AIGC著作权争论里,再次被追问一个最基本的问题:谁在创作?谁是作者?哪怕北互的“文生图第一案”已经给出了清晰的司法路径,现实中依然争论不休。作为创作者,我需要把自己的创作事实说清楚,也需要请法院延续并适用那套已被证明可操作的标准。 在文生图第一案里,法院明确确认了两件事:其一,文生图并非天然排除在著作权之外;其二,只要能体现创作者在提示词—参数—迭代选择中的实质性智力投入,就可以认定作品具备“独创性”。判词写得很具体:创作者“输入提示词、设置参数”,在拿到第一张图后“继续增加提示词、修改参数,不断调整修正”,最终获得定稿;这一过程“体现了审美选择和个性判断”。同时,法院强调生成式模型“并不具有自由意志”,创作“本质上仍是利用工具进行创作”,因此投入智力劳动的人而非模型才是作品作者。在类型上,涉案图像被归入“美术作品”,并再次确认“作者应为自然人”。 我的创作过程与文生图第一案同构,并且多出一个关键环节:我在模型训练层面即已投入巨大的独创性劳动。我使用自训练的AWPortrait模型,这本身就是将我多年摄影经验与美学理解转化为数字化规则的过程。从我输入第一个提示词的那一刻起,作品就在一条连续的路径上生长:观察输出、修正语言、微调采样与权重、对比版本、取舍细节……每一步都是我基于审美与经验作出的决定。与第一案相比,我们在文生图的操作路径上一致且多出了使用adetailer的inpainting技术,并为inpainting过程专门设计了针对性的描述词,实现对局部细节的反复修改和精准修补且在模型层投入了额外且更深的创作性劳动。也正因此,我的作品不仅满足第一案认定“独创性”的标准,增加了针对原图的inpainting过程,而且还叠加了“模型训练—风格塑形”的前置创作环节——这应当得到更明确的保护。 如果这样线性的创作路径都不能获得保护,将对行业造成极大的负面影响:一、侵权零成本化,他人可以无限制复制、篡改创作者的作品,完全不需承担法律责任;二、原创动力被摧毁,创作者将不再有动力去深耕模型训练和艺术探索,AIGC生态将沦为“速成抄袭”的温床;三、创新空间被压缩,中小创作者将在平台与大厂的资源挤压下彻底失去表达空间,行业审美和技术发展会被全面拉低。法律的本质应是平衡与保护。如果规则的实际效果是让投入最多劳动的一方付出更多维权成本,却让侵权的一方逃避责任,那么这不仅对个人创作者不公,也会让整个行业陷入逆向淘汰。著作权的本意是承认并保护创造性劳动,理应为每一次真实的创作行为划定边界与秩序。 基于上述,我的结论很朴素也很明确:本案应当依第一案之标准审理与认定——承认文生图在存在实质性智力投入时的作品地位,确认在创作链条中进行选择与判断的自然人为作者;在此基础上,结合我在模型自训练层面的前置投入,进一步确认我的作者身份与作品独创性。只有沿着这条已被验证的司法路径前进,创作者的劳动才会被看见,行业的创新动力才会被保护。