科技实时新闻、最新快讯- 第12页 news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

那年今日

国家网信办公开征求意见，探索使用数字人民币等新型支付方式开展跨境支付

央行数据显示前八个月人民币贷款增加13.46万亿元，前八个月人民币存款增加20.5万亿

我国新一代载人运载火箭长征十号第二次系留点火试验取得圆满成功

美国投资银行雷曼兄弟宣布破产，引发全球金融海啸，成为2008年全球金融危机深化的重要标志

苏联“月球2号”探测器发射升空，成为首个抵达月球表面的人造物体

智能推荐信息源

由 AI 根据您的兴趣偏好筛选

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3天前

用LLM研究与LLM的交互范式本身也是一种递归递归是语言的本质所在。

#LLM研究 #LLM交互范式 #递归 #语言本质

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3天前

交互范式编程（Interactive Paradigm Programming, 𝕀Rℙ²）继命令式编程Imperative、函数式编程Functional、声明式编程Declarative后的基于ICL的自然语言新编程范式 Context as code Examples as instructions Meta-prompts as control flow Validation as execution

#交互范式编程 #自然语言编程 #ICL #新编程范式 #Context as code

3天前

需要一个移动端的 Warp CLI

#Warp CLI #移动端 #工具 #需求 #软件

3天前

Tesla Model Y 廉价版的评测出来了

#TESLA #Model Y #廉价版 #评测 #汽车

3天前

「 Black-box LLM Steering, Personalization 」 “我不要你觉得，我要我觉得。” 什么是真正的Personalization，我认为，不是 AI 通过我的数据，训练出 “它觉得” 的 “我”。而应该是我自己要主导决定的 “我觉得” 的 “我”。如果说 persona vectors 和 AxBench 教会我直接修改开源模型的激活层做model steering，那么 ADVISOR MODELS 的出现，可以让我可以对所有模型下手，因为它直接面对闭源模型。 ADVISOR MODELS 通过RL只训练一个小模型，学习为每个输入撰写简短的建议以影响闭源模型, 可以实现用户端自己决定的personalizaiton和特定环境规则。 AxBench，persona vectors，ADVISOR MODELS 几乎提供了一整套实用的 LLM steering 工具包, 在封闭与开放两种场景中都能实现用户端自主的Personalization。极具价值。最后，与各位共勉。我不要你觉得，我不要 openAI 觉得，我不要 Anthropic 觉得，我要 “我” 觉得。因为只有我是我。

#LLM Steering #Personalization #ADVISOR MODELS #用户自主 #模型干预

3天前

节假日看完了 Python 纪录片：片子拍的很棒，强烈推荐。我虽然是非科班，但很幸运成为了码农，也很幸运的选择的 Python 作为主语言，这几年真的有一种和社区成长的感觉。正好今天 3.14 发布了，比起动不动就碉堡了的各家模型，还是新特性会更加令我开心。

#Python #纪录片 #程序员 #3.14发布 #新特性

3天前

你们发现没有，所有的可视化编程工具，就是“鼠标点几下，把几个框框连一下线”的工具，最后都干不过写成文件的编程工具。

#可视化编程 #编程工具 #鼠标操作 #文件编程 #技术趋势

3天前

根据美国国家公路交通安全管理局（NHTSA）最新公告，因车辆倒车灯存在潜在故障，特斯拉正召回 260 辆 2026 款 Model Y 车型。 NHTSA 文件显示，部分车辆在挂入倒挡时，倒车灯可能无法正常点亮，原因是线束存在缺陷。这一问题导致车辆不符合美国联邦机动车安全标准第 108 号规定（IT之家注：即《灯具、反光装置及相关设备》标准要求）。若倒车灯无法点亮，车辆在倒车时的可视性会降低，且可能无法向行人或其他驾驶员发出倒车提示，从而增加碰撞风险。

#特斯拉 #Model Y #倒车灯故障 #召回 #安全隐患

砍砍@标准件厂长

3天前

看了下 Jetson Orin 提供 64G 显存想问下万推这货 8 个组集群跑 llm 的话会有什么坑吗

#Jetson Orin #64G显存 #LLM #集群 #技术讨论

3天前

软件开发里有一种叫 TDD（Test-Driven Development）的方式，简单讲，就是先写好测试用例，然后再写程序。每写一部分代码就立刻跑对应的测试，看能不能通过。能通过说明实现符合预期，不通过就说明有 bug。TDD 的好处在于，它让整个研发过程可验证、可回归，也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD，只不过测试用例变成了数据集（Dataset）。每一次模型迭代，本质上就是在跑新的单测（Benchmark）。MMLU 测知识广度，GSM8K 测逻辑推理，HumanEval 测编程能力，AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩，Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑，每一代 AI 都得交卷。 2025 可以说是智能体（Agent）元年，模型不再只靠会算、会说来评估，而是要能动手。要让一个 Agent 真正好用，光靠写 Prompt、加检索、拼上下文是不够的，它得能使用工具，能执行 Python、Shell、SQL，能感知状态、理解任务依赖，更要能在反馈中调整自己的行为。评估 Agent 好不好用，也就不能只看单轮问答，而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子，让 Agent 去修真实项目里的 Bug，看能否通过单测。OpenAI 的 MLE-bench 则更进一步，考察 Agent 在机器学习工程中的执行力，从读数据、清洗、编程、训练，到收集指标、分析再改进，形成一个完整的闭环。社区里还在探索更复杂的测试，比如 App-bench，看 Agent 是否能独立开发一个 Web 应用，从前端到后端再到部署上线；或者 Ops-bench，让它去处理运维任务，比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步，正在从“能思考”走向“能执行”。TDD 让软件工程可验证，而在 AI 世界，Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向，Benchmark 则刻画了行业标准与竞争格局。未来的竞争，不再是谁的模型更聪明，而是谁的智能体更能干活。真正厉害的 AI，不一定语义最深、参数最多，而是那个能自己规划、自己验证、自己改进的 Agent。换句话说，AI 的未来不只是更聪明的脑子，而是更靠谱的手和脚，能想、能做、还能自己查错修正，这才是“用得上”的智能。

#AI #tdd #agent #Benchmark #智能体

3天前

2025年诺贝尔物理学奖今天揭晓。法广说，授予英国人约翰·克拉克（John Clarke）、美国人约翰·马蒂尼斯（John M. Martinis）和法国人米歇尔·德沃雷（Michel H. Devoret）。三人发现宏观量子“隧道效应”和电路中的“能量量子化”而获奖。（三人均在美国任教，故也有报道统称“三美国学者”）。

#2025年诺贝尔物理学奖 #约翰·克拉克 #约翰·马蒂尼斯 #米歇尔·德沃雷 #宏观量子隧道效应

3天前

看Python的纪录片 - 《Python: The Documentary | An origin story》很不错，90年代真是发明编程语言的黄金年代啊看设备，龟叔用的是应该是一款ThinkPad，运行的是Windows11，不知道是不是最近他在微软工作有关。

#Python #纪录片 #Guido van Rossum #ThinkPad #Windows 11

𝗖𝘆𝗱𝗶𝗮𝗿

3天前

最新更新的功能中，大家反馈 Word 格式导出，公式直接可编辑还是非常实用的！ F1 分数（F1 Score）是机器学习中用于评估分类模型性能的重要指标，它是精确率（Precision）和召回率（Recall）的调和平均数。F1 分数综合考虑了模型的查准率和查全率，特别适用于处理类别不平衡的数据集。

#Word格式导出 #公式可编辑 #F1分数 #机器学习 #模型评估

3天前

我相信人是从单细胞生物进化来的，每一次进化都会有一些特性留在人身上，你会发现人类的各种行为都能从进化上找到答案。这是我之前技术管理系列文章的基本思维链。进化心理学几乎可以解释大部分人与人沟通的问题，谁的老祖宗不是一个草履虫了。

#进化心理学 #单细胞生物 #人类行为 #沟通 #草履虫

高级分析师

3天前

Yao Shunyu因为Anthropic在文章当中把中国称为敌对国家而离开，他认为这是反华言论，无法接受。 Yao的主要研究贡献了Claude 3.7 Sonnet，目前他已加入Google DeepMind。

#姚顺禹 #Anthropic #反华言论 #离职 #Google DeepMind

3天前

aster上线palu 下面的思路再次验证

#Aster #Palu #上线

3天前

我不看好 Agent Builder，不要因为是 OpenAI 做的就觉得会成。技术人员不屑于用，写代码笔者简单直接多了何况还有AI辅助普通人用不来，很难用过不了多久就没人提起这产品当然这是我个人观点

#Agent Builder #OpenAI #不看好 #技术人员 #难用

3天前

最近泡在 AI 圈子里面，各种 AI 黑科技层出不穷，当 AI 能生产优质内容，我反而更加在意我的所思所考，随时碎碎念，用朋友丸子的话说活人感很重要。

#AI #黑科技 #优质内容 #思考 #活人感

3天前

今天Mac容量又报警了，为了节省空间，我甚至都把app装在外置硬盘上，然后启动台都是一堆“替身”……

#Mac容量不足 #节省空间 #外置硬盘 #启动台替身 #焦虑

3天前

🚀 对Open AI agent Builder的一些预测：Codex CLI与Agent Builder深度融合，专注“Agent开发Agent”领域，打破非专业用户的技术壁垒！ 1. **Agent Builder：CLI代码框架的可视化外壳** Agent Builder将CLI生成的复杂代码架构（节点、逻辑、API调用）转化为直观的可视化工作流。非专业用户无需理解代码细节，通过拖拽调整代理行为，CLI则在后台确保代码高效执行。 2. **CLI：Agent Builder的开发引擎** CLI作为核心引擎，接收用户输入的上下文和需求，生成结构化代码框架，供Builder渲染为可视化节点。CLI还能优化代码、处理错误，确保代理逻辑健壮。 3. **双模式Agent Builder** - **Manual Mode**：如当前演示，用户手动设计节点和流程，CLI提供实时代码补全和调试支持。 - **Full Auto Mode（Agent Mode）**：用户仅提供需求（如“构建一个自动化客服代理”），CLI基于上下文自动生成完整节点图和流程逻辑，Builder呈现为可视化界面。后端代码统一由CLI生成，确保一致性与可扩展性。 4. **互相促进的闭环** - 非专业用户通过Builder的Auto Mode快速上手，生成代理原型； - 专业开发者用CLI微调代码逻辑，反馈到Builder优化可视化； - Agent Mode的迭代学习能力（基于用户反馈和CLI优化）让代理开发越来越智能，接近“Agent自编程”境界！未来，CLI+Agent Builder将让任何人轻松构建复杂AI代理，近一步释放部分非技专业背景用户创造力！🌟 #OpenAI #CodexCLI #AgentBuilder #AIAgent

#OpenAI #Agent Builder #Codex CLI #AI Agent #自动化客服代理

3天前

如果互联网的模式不改变，那这些巨大的算力中心要来干嘛？你可以想象，几百亿美金的超算集群，结果每天只是被用来跑一些聊天模型，回答天气、写邮件、做点PPT——那基本就是 “超算闲置时代”。我们看起来在用AI，但实际上，底层基础设施的潜力远没有被释放。如果一个系统只能生成语言，而不能参与执行、验证、决策，那它的计算资源就永远只能“半开”。很多人谈主权个人、科技领主这些概念，的确听上去像精英主义，但我始终觉得，基础设施的真正意义，是要让“非精英”也能使用而不自觉地受益。互联网之所以改变了世界，是因为不需要你懂TCP/IP；智能手机之所以普及，是因为不需要你懂通信协议。真正的范式革命，永远不是“精英的逃逸”，而是“结构的下沉”。它必须让普通人能无感接入、自然参与。而今天很多人把 Web3 理解成代币经济，这其实太狭隘。代币只是一个激励层，不是结构本身。从更大的历史尺度看，Web3 代表的是一种范式转变（paradigm shift）。如果最终我们只是让“中心化的权力”换了个名字、把服务器搬到了链上、把账号换成钱包地址，那这不是革命，只是换皮。维持现状，就是范式转移的失败。很多大厂都尝试过，比如“元宇宙”就是一次试图定义新范式的尝试——但最后失败了。为什么？因为它没有解决底层结构的问题。 “空间化的互联网”听上去浪漫，但本质上还是 Web2 模式的延伸，只不过把浏览器变成了虚拟头盔。我有时候在想，也许我会给扎克伯格一个建议：人的幸运值是有限的。你能在19岁那年创造一个改变世界的平台，已经是概率奇迹。但如果你在第二次范式转变中仍然沿用同一套逻辑，那好运也救不了系统性的老化。同样地，Sam Altman 他们的成功，也取决于他们是否能真正突破范式。如果他们只是让大模型成为更聪明的“黑箱”，那这条路的终点，就是另一个中心化的帝国。到时候，模型对普通人来说，只是一个聊天搭子——高效，但空洞；强大，但封闭。那我们到底缺什么？表面上看，大语言模型已经具备了我们想要的一切：能理解自然语言、能推理、能生成、甚至能写代码。听起来，这不就是我们说的“语义运行时”吗？是的——表面上是。但问题在于，它们只是模拟这些能力，而不是在结构上实现它们。看起来像“理解”，但没有可验证的推理路径；看起来像“智能”，但没有明确的逻辑框架。本质上，它们仍然是“相关性机器”，而不是“因果性系统”。所以，大模型真正的三个缺陷，是结构性的： 1️⃣ 有语义，却无结构。 LLM 的“理解”是隐性的，埋在几千亿个参数的权重里。它能“说出”意义，但不能“展示”意义。真正的语义系统，必须让意义是显性的、可组合、可验证的。也就是说，你得能指出：“它为什么这样推理？”、“它依据了什么事实？” 今天的 LLM 是在语义层上说话，却还没有在语义层上思考。 2️⃣ 能生成信念，却无法提供证明。它可以写合同、诊断问题、甚至模拟逻辑推理——但我们无法验证它的正确性。它的输出没有来源（provenance），也没有可复现性。今天问它一遍，明天再问一次，可能就是完全不同的答案。而真正的可验证系统，必须像区块链那样，信任数学，而不是信任人。现在的模型让我们信任“它”，这恰恰是 Web3 想摆脱的那种中心化信任。 3️⃣ 是语言界面，而非系统接口。现在的 Prompt 体验很顺滑——你问，它答。但它生成的结果是游离的，不接入任何可验证的系统。没有智能合约，没有持久逻辑，没有数据溯源。未来的 LLM 必须能直接组成系统，让“语言＝行为”，输入一句话，就能在规则透明的环境中触发实际执行。这才是从“语言生成”到“结构调度”的飞跃。这就是当前的断层：我们已经拥有了强大的表达能力，却还没有可靠的结构信任。 AI 能生成知识，却不能证明知识；能模仿思维，却不能承担后果。如果我们止步于此，就会重演一次中心化的轮回—— 这次掌握权力的，不是平台，而是模型。真正的 Web3 精神，不是要建更大的模型，而是要建更透明的系统。一个每一句话、每一个规则、每一次执行都可以被验证、重组、共享的开放智能网络。那时，语言才不只是人机界面，而会成为智能的治理层—— 在这里，意义、逻辑与执行真正汇合为一体。这才是范式转移的完成。不是造更大的盒子，而是打破盒子。 From Useful to Trustworthy: When Language Becomes the Operating System

#Web3 #范式转移 #中心化 #AI伦理 #可验证性

3天前

Tugtainer 一款为 Docker 容器自动化更新利器，内置网页界面，灵活的定时调度和多样化通知，让运维变得轻松又有趣！

#Docker容器 #自动化更新 #Tugtainer #运维工具 #定时调度

火星尼维斯

3天前

听老罗和小鹏的对话，有个观点非常认同。小鹏说：互联网这个行业的人转行做硬件，特别是硬件制造领域，最大的问题是把快速迭代这个思维带入这个领域，这是灾难的开始。

#老罗 #小鹏 #互联网转硬件 #快速迭代思维 #硬件制造领域

3天前

OpenAI 员工：我们今天发布的AI代理构建器只用了不到六周的时间就完成了端到端构建，其中 80% 的代码都是由 Codex 编写的...

#OpenAI #AI代理构建器 #Codex #六周 #自动化

3天前

对于独立开发者而言，被动收入构建有哪些具体方法？

#独立开发者 #被动收入 #构建方法 #经验分享 #中性

...