Black Forest Labs 发布 FLUX.2,依旧开源! 支持文生图、多图参考以及图像编辑,文本生成和提示词遵循能力大幅提高。 具体的模型能力有: - 最多同时参考 10 张图片,提供最佳一致性。 - 更丰富的细节、更清晰的纹理和更稳定的光线。 - 复杂排版、信息图、表情包和用户界面的文字渲染 - 在遵循复杂、结构化指令方面得到改进 - 现实世界知识、光照和空间逻辑方面显著更有根据 - 支持高达 4MP 分辨率的图像编辑 这次发布了四个模型版本: FLUX.2 [pro]:与最优秀的封闭模型相媲美的最先进图像质量,在提示遵从性和视觉逼真度方面与其他模型相当,同时生成图像更快且成本更低。速度与质量两者兼得。 FLUX.2 [flex]:可控制模型参数,例如步数和引导强度,让开发者对质量、提示遵从性与速度拥有完全控制。该模型在渲染文本和细节方面表现出色。 FLUX.2 [dev]:32B 开放权重模型,源自 FLUX.2 基础模型。当前最强大的开源图像生成与编辑模型,将文本到图像合成与多输入图像的图像编辑结合在单一模型中。 FLUX.2 [klein](即将推出):开源,Apache 2.0 许可证模型,从 FLUX.2 基础模型通过蒸馏得到的同尺寸模型。比同等尺寸且从头训练的可比模型更强大且更利于开发者使用。 FLUX.2 - VAE:一种新的变分自编码器,用于潜在表示,在可学习性、质量和压缩率之间提供优化的权衡。
EverMemOS:企业级智能记忆系统 LLM训练大致分为三个阶段,Pre-Training学知识,SFT学说话,Post-Training学思考。这样的LLM用作问答没有问题,但是用作AI助理或者家庭机器人就有一个非常致命的缺点:LLM没有记忆,每次对话默认从零开始。除非附带历史信息,LLM不会记得你的任何信息,无法提供个性化、连贯的服务。 LLM记忆的设计模式 主要分为两类:第一类是模拟人类的记忆方式(来自论文CoALA),第二类是从计算机工程的角度设计(Letta提出)。 拟人化记忆的四种记忆类型: · 临时记忆:当前对话的内容,对应到LLM就是context,LLM的context的长度通常是256K tokens,Gemini则能达到1M tokens。 · 事实类记忆:这类记忆通常对所有人都是一样的。对于人类来说,就是人学到的知识和事实,例如水在0度结冰、小明不喜欢吃香菜;对于LLM,就是关于用户的信息,例如用户是男性、名字叫Gorden。 · 经历类记忆:这类记忆则因人而异。对于人类来说,就是发生过的事,例如上个周末去了公园、吃了火锅;对于LLM来说,过去的聊天记录提炼出来的总结都可以算作这类记忆,例如用户提问了如何减肥。 · 技能类记忆:对人类来说,就是如何开车这种学会后不必再思考、形成了本能的技能;对于LLM来说,就是system prompt,例如让LLM回复时必须使用Json格式。(例如) 计算机工程出发的记忆类型: · 消息缓冲区:即当前对话内容,对应拟人化记忆的临时记忆。 · 核心记忆:由智能体维护的事实类记忆,但是对于当前对话,只取有关联的事实用作上下文。 · 历史对话记录:包括所有完整的历史对话记录,在必要是搜索使用。 · 压缩类记忆:存储在外部的、经过提炼且加了索引的知识和记忆,通常用向量数据库存储,在查询后把信息放到上下文中。比历史对话记录更高效。 EverMemOS主要使用的是拟人化记忆模式,结合了工程类记忆的效率实践,设计了多层次、多类型的记忆结构。存储记忆的大致流程是: 1)识别对话中的关键信息,提炼成记忆单元; 2)按对话主题、对话用户,与之前的记忆整合,梳理出脉络和用户画像; 3)建立记忆的关键词和索引,用于快速召回; 如何调用记忆 调用记忆的核心挑战是如何避免因为记忆过多、查询过慢导致响应时间变长。对于需要快速响应的对话,EverMemOS直接使用RRF融合算法(Reciprocal Rank Fusion);对于复杂的场景,Agent会生成2-3个互补查询,补全缺失的信息,提升复杂问题的覆盖面,然后并行查询出需要使用的记忆。 召回多层次的记忆后,再与当前对话内容拼接,整合成完整的上下文,给出最终的回复。一个典型的例子是你让AI给你推荐饮食,AI可以联想到你前几天做了牙科手术,从而有针对性的调整建议。 通过 "结构化记忆 → 多策略召回 → 智能检索 → 上下文推理" 的记忆和召回路径,EverMemOS在LoCoMo评测里达到了 92.4% 的推理准确率**,**为目前最佳。长时间的记忆里、高准确率的召回率,是AI助理和AI机器人的必需能力,2025年是Agent的元年,2026会成为记忆的元年。 Github: