Gorden Sun

统计数据

783

文章

0

粉丝

0

获赞

51555

阅读

3个月前

LiveAvatar：阿里夸克开源的实时虚拟人模型能实时生成虚拟人视频（需要5个H800），能生成无限长度的视频且画质不降低。模型：项目地址：

3个月前

AI资讯日报，12月4日：

3个月前

VibeVoice-Realtime-0.5B：实时文本生成语音微软开源，仅0.5B大小（基于LLM: Qwen2.5-0.5B），实时把文本转换成音频，仅300毫秒延迟。英语效果不错。模型：在线体验（不支持实时）：

3个月前

AI资讯日报，12月3日：

3个月前

Seedream 4.5版本发布人像一致性大幅提升，有一定的推理能力（但是比较弱，明显比不上Banana Pro），简单提示词就能生成美学在线的图片。我是在Fal上通过API使用的，豆包上现在应该已经能用到了。速度很快，20秒出一张2K分辨率的图片。

3个月前

AI资讯日报，12月2日：

3个月前

AI资讯日报，12月1日：

3个月前

ViBT：更快速的视频风格转换核心功能：编辑图片、图片风格转换、视频风格转换、视频补帧。与传统扩散模型不同，ViBT直接建模输入和输出之间的轨迹，实现高效的数据到数据转换，速度比传统方法快2倍。项目地址： Github：

3个月前

DeepSeek线上模型已更新

#DeepSeek #在线模型 #模型更新

3个月前

AI资讯日报，11月30日：

澎湃AI新闻合辑：未来科技与社会热点交锋· 112 条信息

#AI #资讯 #11月30日

3个月前

GELab-Zero：完全开源的GUI Agent解决方案集成了模型和基础设施，支持本地部署，提供完整的隐私控制。简化了手机GUI Agent的工程复杂度。能实现查找任务、操作APP等手机端任务。 Github：

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#GUI Agent #开源 #本地部署 #隐私控制 #手机端任务

3个月前

Gemini 3 Pro不太好用。你要是从头让他发挥，Gemini 3给的效果很惊艳；但你要是拿着东西让他改，他总是会改掉额外的内容，而且完全不告诉你，指令遵循有问题。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 Pro #效果不佳 #指令遵循问题 #修改额外内容 #用户体验负面

3个月前

AI资讯日报，11月29日：

AI技术引发伦理争议，专家呼吁加强监管· 167 条信息

#AI #资讯日报 #11月29日

3个月前

Step-Audio-R1：能推理的音频模型延长推理时间可以提升推理效果，音频理解能力超过Gemini 2.5 Pro，接近Gemini 3。模型：

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#Step-Audio-R1 #音频模型 #推理能力提升 #Gemini 2.5 Pro #音频理解

3个月前

AI资讯日报，11月28日：

AI技术引发伦理争议，专家呼吁加强监管· 167 条信息

#AI #资讯 #11月28日

3个月前

AI资讯日报，11月27日：

AI技术引发伦理争议，专家呼吁加强监管· 167 条信息

#AI #资讯 #11月27日

3个月前

谷歌也挺草台的，自家NotebookLM都因为Nano Banana Pro不够用而暂停了1天生成PPT的功能，结果现在谷歌企业版随便注册，无需绑卡，只需要一个邮箱就能注册，注册就有30天免费试用。然后Nano Banana Pro和Gemini 3免费用！😂😂😂 服务器被薅到频繁报500了注册地址：

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#谷歌 #NotebookLM #Nano Banana Pro #服务器薅羊毛 #500错误

3个月前

通义开源的Z-Image-Turbo图片模型太强了仅6B大小，1秒出图，但是质量却非常非常高，人物真实、美学在线，天然认识各种名人，没有审核，绝对是本地AI绘画的首选模型。模型：在线使用：

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#通义 #Z-Image-Turbo #图片模型 #开源 #AI绘画

3个月前

AI资讯日报，11月26日：

澎湃AI新闻合辑：未来科技与社会热点交锋· 112 条信息

#AI #资讯 #11月26日

3个月前

有没有老司机帮忙看看Nano Banana Pro画的准不准，我只认识波多野结衣

#Nano Banana Pro #波多野结衣 #老司机 #不准 #求助

4个月前

Nano Banana Pro的能力边界还没被充分挖掘用过Nano Banana Pro的人还非常少知道Nano Banana Pro就是Gemini 3 Pro image的更加少 Nano Banana Pro还有巨大的市场谷歌还得涨

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Nano Banana Pro #Gemini 3 Pro Image #市场潜力 #用户稀少 #谷歌

4个月前

AI资讯日报，11月25日：

澎湃AI新闻合辑：未来科技与社会热点交锋· 112 条信息

#AI #资讯 #11月25日

4个月前

EverMemOS：企业级智能记忆系统 LLM训练大致分为三个阶段，Pre-Training学知识，SFT学说话，Post-Training学思考。这样的LLM用作问答没有问题，但是用作AI助理或者家庭机器人就有一个非常致命的缺点：LLM没有记忆，每次对话默认从零开始。除非附带历史信息，LLM不会记得你的任何信息，无法提供个性化、连贯的服务。 LLM记忆的设计模式主要分为两类：第一类是模拟人类的记忆方式（来自论文CoALA），第二类是从计算机工程的角度设计（Letta提出）。拟人化记忆的四种记忆类型： · 临时记忆：当前对话的内容，对应到LLM就是context，LLM的context的长度通常是256K tokens，Gemini则能达到1M tokens。 · 事实类记忆：这类记忆通常对所有人都是一样的。对于人类来说，就是人学到的知识和事实，例如水在0度结冰、小明不喜欢吃香菜；对于LLM，就是关于用户的信息，例如用户是男性、名字叫Gorden。 · 经历类记忆：这类记忆则因人而异。对于人类来说，就是发生过的事，例如上个周末去了公园、吃了火锅；对于LLM来说，过去的聊天记录提炼出来的总结都可以算作这类记忆，例如用户提问了如何减肥。 · 技能类记忆：对人类来说，就是如何开车这种学会后不必再思考、形成了本能的技能；对于LLM来说，就是system prompt，例如让LLM回复时必须使用Json格式。（例如）计算机工程出发的记忆类型： · 消息缓冲区：即当前对话内容，对应拟人化记忆的临时记忆。 · 核心记忆：由智能体维护的事实类记忆，但是对于当前对话，只取有关联的事实用作上下文。 · 历史对话记录：包括所有完整的历史对话记录，在必要是搜索使用。 · 压缩类记忆：存储在外部的、经过提炼且加了索引的知识和记忆，通常用向量数据库存储，在查询后把信息放到上下文中。比历史对话记录更高效。 EverMemOS主要使用的是拟人化记忆模式，结合了工程类记忆的效率实践，设计了多层次、多类型的记忆结构。存储记忆的大致流程是： 1）识别对话中的关键信息，提炼成记忆单元； 2）按对话主题、对话用户，与之前的记忆整合，梳理出脉络和用户画像； 3）建立记忆的关键词和索引，用于快速召回；如何调用记忆调用记忆的核心挑战是如何避免因为记忆过多、查询过慢导致响应时间变长。对于需要快速响应的对话，EverMemOS直接使用RRF融合算法（Reciprocal Rank Fusion）；对于复杂的场景，Agent会生成2-3个互补查询，补全缺失的信息，提升复杂问题的覆盖面，然后并行查询出需要使用的记忆。召回多层次的记忆后，再与当前对话内容拼接，整合成完整的上下文，给出最终的回复。一个典型的例子是你让AI给你推荐饮食，AI可以联想到你前几天做了牙科手术，从而有针对性的调整建议。通过 "结构化记忆 → 多策略召回 → 智能检索 → 上下文推理" 的记忆和召回路径，EverMemOS在LoCoMo评测里达到了 92.4% 的推理准确率**，**为目前最佳。长时间的记忆里、高准确率的召回率，是AI助理和AI机器人的必需能力，2025年是Agent的元年，2026会成为记忆的元年。 Github：

#EverMemOS #智能记忆系统 #LLM记忆 #AI助理 #LoCoMo评测

4个月前

AI资讯日报，11月24日：

AI技术引发伦理争议，专家呼吁加强监管· 167 条信息

#AI #资讯 #11月24日

4个月前

DR Tulu：专为Deep Research长任务训练的模型仅8B大小，专门针对深度研究的长任务进行了强化训练，评分非常高（需要实际验证才能确认，8B还是参数太小了） Github：

#DR Tulu #深度研究 #长任务训练 #8B模型 #高评分待验证

... ...