Gorden Sun2025-05-30 10:33:22FLUX.1 Kontext:GPT-4o图片编辑的绝对竞争者 效果相当好,我认为比GPT-4o更强。 改图时可以保持人物一致性,指令遵循强,即使连续迭代一张图,图片质量降低的也很小。你可以试试用GPT-4o连续改一张图,人物会改的面目全非。 从低到高分dev、pro、max三个版本,pro就够用,dev小范围开源中。 图1:原图; 图2:改背景; 图3:继续改发型; 图4:继续改衣服;预览预览预览预览1234#FLUX.1#图片编辑#AI技术
Gorden Sun2025-05-29 20:33:48Lemon AI:开源通用智能体 写的是全栈通用智能体,但是目前看起来就是调用LLM+搜索API+经验库,来实现类似Deep Research的功能。 Github: 手册: 预览#开源#通用智能体#全栈智能
Gorden Sun2025-05-29 18:26:55DualParal:生成1分钟长度的视频 使用分布式推理策略,可以让DiT视频模型生成1分钟长度的视频。 项目地址: #DualParal#分布式推理#DiT视频模型
Gorden Sun2025-05-28 20:34:25DeepSeek R1小版本升级 虽说是小版本,代码能力提升明显,前端审美大幅提升。 我就说要炫酷的网页,就做出这样的效果。 #DeepSeek#软件更新#前端设计
Gorden Sun2025-05-28 19:54:10OmniConsistency:DiT绘画模型通用插件 适用于Flux等DiT绘画模型,能在保持主体一致性的同时,实现风格泛化,且与现有的LoRA兼容。效果非常好,风格化接近GPT-4o的水平,人物一致性的保持比GPT-4o好。 在线使用: 模型: 预览预览预览预览1234#绘画模型#OmniConsistency#DiT
Gorden Sun2025-05-28 19:29:49HunyuanVideo-Avatar:语音驱动视频生成 通过音频,生成人物说话的视频,人物有肢体和头部动作,有表情,支持多角色。适用于虚拟人的场景。 模型: #HunyuanVideo#语音驱动#视频生成
Gorden Sun2025-05-26 19:58:15AI季度报告 由Artificial Analysis出品,可以明显看出,Google在AI全领域、全模型都处于前列位置。 PDF地址: 预览预览12#AI#季度报告#Google
Gorden Sun2025-05-24 00:18:42谷歌新发布的Gemini 2.5 Flash Exp Audio模型,是原生多模态模型,支持文本、图片、语音输入,支持文本、语音输出。 输出的语音支持各种语气和声音,也能唱歌和RAP,虽然中文有时会有发音错误,但整体也非常不错了,ASMR的少女声音,让人感觉又恋爱了。 下方视频第一段:少女ASMR 下方视频第二段:唱歌和RAP12#谷歌#Gemini#多模态模型
Gorden Sun2025-04-17 19:31:59Google AI Studio升级 最大的亮点是新增了很多Starter Apps,包括GIF Maker(生成动图)、Co-Drawing(辅助绘画)、Video Toys(基于视频创建教育应用)等许多有趣的小应用。 官方介绍: 12#Co-Drawing
Gorden Sun2025-03-08 00:05:08Mistral OCR:目前最佳OCR模型 支持多种语言,评分全面超过Gemini 2.0 Flash,支持在Le Chat使用和API调用。 调用API的话,别忘了之前ElevenLabs的大礼包,里面送25美元的Mistral API金额,免费领取地址: 在线使用: 官方介绍:预览#OCR模型#语言支持#API使用
Gorden Sun2025-03-02 21:57:18olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用: 预览#开源#OCR#视觉语言模型
Gorden Sun2025-02-26 10:20:15阿里开源Wan 2.1很不错,效果接近可灵1.5,需要抽卡,手部有时出问题。 在Fal上可以使用,支持图生视频、文生视频,每个视频耗费0.4美元,地址: 在ElevenLabs的免费大礼包里,可以免费领取50美元的Fal额度,可以用体验Wan 2.1和Google Veo 2。领取地址:
Gorden Sun2025-02-15 20:56:45微软发布OmniParser 2.0版本,用于把屏幕截图转化成LLM可处理的结构化格式,再结合屏幕操作工具即可让LLM操作屏幕。 模型: Github: #微软#屏幕截图#LLM
Gorden Sun2025-02-11 19:49:05FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型: 预览#小红书#语音识别#开源模型
Gorden Sun2025-02-05 18:08:16DeepSeek官网稳定的时候,体验是最好的,长下文长,能联网。但是用的人越来越多,几乎每次都是服务器繁忙了。 几个免费的备用方案: 1、英伟达NIM: 2、Github Models(需要手动调整输出长度为4K): 3、TogetherAI:#DeepSeek#服务器繁忙#备用方案