#长上下文

5个月前

先暂停随时 sonnet 4.5 + 知心好友提示词 + 日志流聊法了。长上下文实在容易崩，性能兜不住。简单输入单件事、单个点深聊，还是体感最舒服的。后面先专注优化单一事件版，提示词。

#Sonnet 4.5 #长上下文 #性能问题 #优化 #单一事件

5个月前

DeepSeek OCR 论文里的想法太有意思了。用光学压缩模拟人类记忆遗忘机制，还有点 callback AK 的会遗忘的智能了。。。人类记忆有个特点：一小时前的事，清清楚楚一周前的事，开始模糊一年前的事，几乎忘光视觉感知也一样： 10cm的东西看得清楚 20m的东西几乎看不清 DeepSeek想到一个绝妙类比：用分辨率来模拟这种衰减他们设计了对应关系：近期对话 → Gundam模式（800+ tokens）一周前 → Base模式（256 tokens）久远记忆 → Tiny模式（64 tokens）这样既保留了历史信息，又控制了token数量。远期记忆自然"淡化"，就像人类遗忘一样。如果真的能做到，就能实现"理论上无限的context window"。因为你不需要保持所有信息的高保真度，只需要让信息随时间衰减。遗忘本身是一种优化策略。人类会遗忘，不是因为大脑容量不够，而是因为遗忘让我们更高效。 DeepSeek把这个生物学直觉，转化成了工程实现。这条路如果走通了，可能会改变我们对长上下文问题的理解：不是无限扩大context window，而是让信息自然衰减。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek OCR #光学压缩 #记忆遗忘机制 #长上下文 #信息衰减

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6个月前

之前就判断deepseek下个版本会在长上下文上突破，估计有戏

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek #长上下文 #突破 #AI #乐观

6个月前

Gemini的长上下文实在是牛逼。丢给一个20万字的文档，上传提示词附件（比较复杂的专用提示词）。精准重写章节，输入：用附件中的提示词重写1.1章节。瞬间搞定，真的省心。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini #长上下文 #文档重写 #省心 #AI效率

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

国产之光，跳票曝光？华为昇腾？说好的长上下文呢？

#华为 #昇腾 #国产 #跳票 #长上下文

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

7个月前

由LLM演化而来的AGI能力边界，终将不由参数规模决定，而由它在真实世界中“自我演化”的路径决定。我们的语言根植于生存适应性的需要，所以其语义的丰富性受此约束，最终要回归到语用价值。 LLM用于人类社会活动中也受到类似约束每次激活的人格路径是单一的。语言有超模态的特性，因此LLM的演化多模态可能并不想我先前认为的那么重要，从沉寂半年多的deepseek最近获得关注的在长上下文突破方面的论文Native Sparse Attention: Hardware-Aligned and Natively，也许是下一个突破点。此前Anthorpic的ceo采访中也提到100M上下文窗口不是梦来看，ICL的能力可以做到几乎实时的权重更新影响输出，LLM的agentic行为可以进一步简化现在的各项工程方法。

#LLM #AGI #自我演化 #长上下文 #Agentic行为

9个月前

今天 MiniMax M1 发布并开源特色是两个： 1M 输入，80k 输出的超长上下文，以及 Agentic Tool Use 能力。官方正好列出了 M1 和 OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528 的各项对比。 Gemini 和 Claude 可以说是各领风骚。 MiniMax 和 DeepSeek 在开源模型里是头部了，比 Qwen3 要好一档

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 27 条信息

#MiniMax #开源 #长上下文 #AI工具 #OpenAI #Gemini #Claude #DeepSeek #M1发布 #技术对比

1年前

Repo Prompt 这个工具挺实用的，它可以把你整个Repo的代码拼成一个XML文本，方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。当然你也可以只选择部分文件，目前只支持 Mac

#Repo #工具 #Gemini 2 #Claude 3.5 #o1 Pro #长上下文 #XML #Mac