科技实时新闻、最新快讯- 第203页 news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

智能推荐信息源

由 AI 根据您的兴趣偏好筛选

2个月前

你们发现没有，所有的可视化编程工具，就是“鼠标点几下，把几个框框连一下线”的工具，最后都干不过写成文件的编程工具。

#可视化编程 #编程工具 #鼠标操作 #文件编程 #技术趋势

2个月前

根据美国国家公路交通安全管理局（NHTSA）最新公告，因车辆倒车灯存在潜在故障，特斯拉正召回 260 辆 2026 款 Model Y 车型。 NHTSA 文件显示，部分车辆在挂入倒挡时，倒车灯可能无法正常点亮，原因是线束存在缺陷。这一问题导致车辆不符合美国联邦机动车安全标准第 108 号规定（IT之家注：即《灯具、反光装置及相关设备》标准要求）。若倒车灯无法点亮，车辆在倒车时的可视性会降低，且可能无法向行人或其他驾驶员发出倒车提示，从而增加碰撞风险。

#特斯拉 #Model Y #倒车灯故障 #召回 #安全隐患

砍砍@标准件厂长

2个月前

看了下 Jetson Orin 提供 64G 显存想问下万推这货 8 个组集群跑 llm 的话会有什么坑吗

#Jetson Orin #64G显存 #LLM #集群 #技术讨论

2个月前

软件开发里有一种叫 TDD（Test-Driven Development）的方式，简单讲，就是先写好测试用例，然后再写程序。每写一部分代码就立刻跑对应的测试，看能不能通过。能通过说明实现符合预期，不通过就说明有 bug。TDD 的好处在于，它让整个研发过程可验证、可回归，也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD，只不过测试用例变成了数据集（Dataset）。每一次模型迭代，本质上就是在跑新的单测（Benchmark）。MMLU 测知识广度，GSM8K 测逻辑推理，HumanEval 测编程能力，AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩，Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑，每一代 AI 都得交卷。 2025 可以说是智能体（Agent）元年，模型不再只靠会算、会说来评估，而是要能动手。要让一个 Agent 真正好用，光靠写 Prompt、加检索、拼上下文是不够的，它得能使用工具，能执行 Python、Shell、SQL，能感知状态、理解任务依赖，更要能在反馈中调整自己的行为。评估 Agent 好不好用，也就不能只看单轮问答，而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子，让 Agent 去修真实项目里的 Bug，看能否通过单测。OpenAI 的 MLE-bench 则更进一步，考察 Agent 在机器学习工程中的执行力，从读数据、清洗、编程、训练，到收集指标、分析再改进，形成一个完整的闭环。社区里还在探索更复杂的测试，比如 App-bench，看 Agent 是否能独立开发一个 Web 应用，从前端到后端再到部署上线；或者 Ops-bench，让它去处理运维任务，比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步，正在从“能思考”走向“能执行”。TDD 让软件工程可验证，而在 AI 世界，Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向，Benchmark 则刻画了行业标准与竞争格局。未来的竞争，不再是谁的模型更聪明，而是谁的智能体更能干活。真正厉害的 AI，不一定语义最深、参数最多，而是那个能自己规划、自己验证、自己改进的 Agent。换句话说，AI 的未来不只是更聪明的脑子，而是更靠谱的手和脚，能想、能做、还能自己查错修正，这才是“用得上”的智能。

#AI #tdd #agent #Benchmark #智能体

2个月前

2025年诺贝尔物理学奖今天揭晓。法广说，授予英国人约翰·克拉克（John Clarke）、美国人约翰·马蒂尼斯（John M. Martinis）和法国人米歇尔·德沃雷（Michel H. Devoret）。三人发现宏观量子“隧道效应”和电路中的“能量量子化”而获奖。（三人均在美国任教，故也有报道统称“三美国学者”）。

#2025年诺贝尔物理学奖 #约翰·克拉克 #约翰·马蒂尼斯 #米歇尔·德沃雷 #宏观量子隧道效应

2个月前

看Python的纪录片 - 《Python: The Documentary | An origin story》很不错，90年代真是发明编程语言的黄金年代啊看设备，龟叔用的是应该是一款ThinkPad，运行的是Windows11，不知道是不是最近他在微软工作有关。

#Python #纪录片 #Guido van Rossum #ThinkPad #Windows 11

𝗖𝘆𝗱𝗶𝗮𝗿

2个月前

最新更新的功能中，大家反馈 Word 格式导出，公式直接可编辑还是非常实用的！ F1 分数（F1 Score）是机器学习中用于评估分类模型性能的重要指标，它是精确率（Precision）和召回率（Recall）的调和平均数。F1 分数综合考虑了模型的查准率和查全率，特别适用于处理类别不平衡的数据集。

#Word格式导出 #公式可编辑 #F1分数 #机器学习 #模型评估

2个月前

我相信人是从单细胞生物进化来的，每一次进化都会有一些特性留在人身上，你会发现人类的各种行为都能从进化上找到答案。这是我之前技术管理系列文章的基本思维链。进化心理学几乎可以解释大部分人与人沟通的问题，谁的老祖宗不是一个草履虫了。

#进化心理学 #单细胞生物 #人类行为 #沟通 #草履虫

高级分析师

2个月前

Yao Shunyu因为Anthropic在文章当中把中国称为敌对国家而离开，他认为这是反华言论，无法接受。 Yao的主要研究贡献了Claude 3.7 Sonnet，目前他已加入Google DeepMind。

#姚顺禹 #Anthropic #反华言论 #离职 #Google DeepMind

2个月前

aster上线palu 下面的思路再次验证

#Aster #Palu #上线

2个月前

我不看好 Agent Builder，不要因为是 OpenAI 做的就觉得会成。技术人员不屑于用，写代码笔者简单直接多了何况还有AI辅助普通人用不来，很难用过不了多久就没人提起这产品当然这是我个人观点

#Agent Builder #OpenAI #不看好 #技术人员 #难用

2个月前

最近泡在 AI 圈子里面，各种 AI 黑科技层出不穷，当 AI 能生产优质内容，我反而更加在意我的所思所考，随时碎碎念，用朋友丸子的话说活人感很重要。

#AI #黑科技 #优质内容 #思考 #活人感

2个月前

今天Mac容量又报警了，为了节省空间，我甚至都把app装在外置硬盘上，然后启动台都是一堆“替身”……

#Mac容量不足 #节省空间 #外置硬盘 #启动台替身 #焦虑

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

有限如何包含无限？答案：通过递归——有限的规则通过自我应用产生无限的输出。

#递归 #有限 #无限 #规则 #自我应用

2个月前

🚀 对Open AI agent Builder的一些预测：Codex CLI与Agent Builder深度融合，专注“Agent开发Agent”领域，打破非专业用户的技术壁垒！ 1. **Agent Builder：CLI代码框架的可视化外壳** Agent Builder将CLI生成的复杂代码架构（节点、逻辑、API调用）转化为直观的可视化工作流。非专业用户无需理解代码细节，通过拖拽调整代理行为，CLI则在后台确保代码高效执行。 2. **CLI：Agent Builder的开发引擎** CLI作为核心引擎，接收用户输入的上下文和需求，生成结构化代码框架，供Builder渲染为可视化节点。CLI还能优化代码、处理错误，确保代理逻辑健壮。 3. **双模式Agent Builder** - **Manual Mode**：如当前演示，用户手动设计节点和流程，CLI提供实时代码补全和调试支持。 - **Full Auto Mode（Agent Mode）**：用户仅提供需求（如“构建一个自动化客服代理”），CLI基于上下文自动生成完整节点图和流程逻辑，Builder呈现为可视化界面。后端代码统一由CLI生成，确保一致性与可扩展性。 4. **互相促进的闭环** - 非专业用户通过Builder的Auto Mode快速上手，生成代理原型； - 专业开发者用CLI微调代码逻辑，反馈到Builder优化可视化； - Agent Mode的迭代学习能力（基于用户反馈和CLI优化）让代理开发越来越智能，接近“Agent自编程”境界！未来，CLI+Agent Builder将让任何人轻松构建复杂AI代理，近一步释放部分非技专业背景用户创造力！🌟 #OpenAI #CodexCLI #AgentBuilder #AIAgent

#OpenAI #Agent Builder #Codex CLI #AI Agent #自动化客服代理

2个月前

如果互联网的模式不改变，那这些巨大的算力中心要来干嘛？你可以想象，几百亿美金的超算集群，结果每天只是被用来跑一些聊天模型，回答天气、写邮件、做点PPT——那基本就是 “超算闲置时代”。我们看起来在用AI，但实际上，底层基础设施的潜力远没有被释放。如果一个系统只能生成语言，而不能参与执行、验证、决策，那它的计算资源就永远只能“半开”。很多人谈主权个人、科技领主这些概念，的确听上去像精英主义，但我始终觉得，基础设施的真正意义，是要让“非精英”也能使用而不自觉地受益。互联网之所以改变了世界，是因为不需要你懂TCP/IP；智能手机之所以普及，是因为不需要你懂通信协议。真正的范式革命，永远不是“精英的逃逸”，而是“结构的下沉”。它必须让普通人能无感接入、自然参与。而今天很多人把 Web3 理解成代币经济，这其实太狭隘。代币只是一个激励层，不是结构本身。从更大的历史尺度看，Web3 代表的是一种范式转变（paradigm shift）。如果最终我们只是让“中心化的权力”换了个名字、把服务器搬到了链上、把账号换成钱包地址，那这不是革命，只是换皮。维持现状，就是范式转移的失败。很多大厂都尝试过，比如“元宇宙”就是一次试图定义新范式的尝试——但最后失败了。为什么？因为它没有解决底层结构的问题。 “空间化的互联网”听上去浪漫，但本质上还是 Web2 模式的延伸，只不过把浏览器变成了虚拟头盔。我有时候在想，也许我会给扎克伯格一个建议：人的幸运值是有限的。你能在19岁那年创造一个改变世界的平台，已经是概率奇迹。但如果你在第二次范式转变中仍然沿用同一套逻辑，那好运也救不了系统性的老化。同样地，Sam Altman 他们的成功，也取决于他们是否能真正突破范式。如果他们只是让大模型成为更聪明的“黑箱”，那这条路的终点，就是另一个中心化的帝国。到时候，模型对普通人来说，只是一个聊天搭子——高效，但空洞；强大，但封闭。那我们到底缺什么？表面上看，大语言模型已经具备了我们想要的一切：能理解自然语言、能推理、能生成、甚至能写代码。听起来，这不就是我们说的“语义运行时”吗？是的——表面上是。但问题在于，它们只是模拟这些能力，而不是在结构上实现它们。看起来像“理解”，但没有可验证的推理路径；看起来像“智能”，但没有明确的逻辑框架。本质上，它们仍然是“相关性机器”，而不是“因果性系统”。所以，大模型真正的三个缺陷，是结构性的： 1️⃣ 有语义，却无结构。 LLM 的“理解”是隐性的，埋在几千亿个参数的权重里。它能“说出”意义，但不能“展示”意义。真正的语义系统，必须让意义是显性的、可组合、可验证的。也就是说，你得能指出：“它为什么这样推理？”、“它依据了什么事实？” 今天的 LLM 是在语义层上说话，却还没有在语义层上思考。 2️⃣ 能生成信念，却无法提供证明。它可以写合同、诊断问题、甚至模拟逻辑推理——但我们无法验证它的正确性。它的输出没有来源（provenance），也没有可复现性。今天问它一遍，明天再问一次，可能就是完全不同的答案。而真正的可验证系统，必须像区块链那样，信任数学，而不是信任人。现在的模型让我们信任“它”，这恰恰是 Web3 想摆脱的那种中心化信任。 3️⃣ 是语言界面，而非系统接口。现在的 Prompt 体验很顺滑——你问，它答。但它生成的结果是游离的，不接入任何可验证的系统。没有智能合约，没有持久逻辑，没有数据溯源。未来的 LLM 必须能直接组成系统，让“语言＝行为”，输入一句话，就能在规则透明的环境中触发实际执行。这才是从“语言生成”到“结构调度”的飞跃。这就是当前的断层：我们已经拥有了强大的表达能力，却还没有可靠的结构信任。 AI 能生成知识，却不能证明知识；能模仿思维，却不能承担后果。如果我们止步于此，就会重演一次中心化的轮回—— 这次掌握权力的，不是平台，而是模型。真正的 Web3 精神，不是要建更大的模型，而是要建更透明的系统。一个每一句话、每一个规则、每一次执行都可以被验证、重组、共享的开放智能网络。那时，语言才不只是人机界面，而会成为智能的治理层—— 在这里，意义、逻辑与执行真正汇合为一体。这才是范式转移的完成。不是造更大的盒子，而是打破盒子。 From Useful to Trustworthy: When Language Becomes the Operating System

#Web3 #范式转移 #中心化 #AI伦理 #可验证性

2个月前

Tugtainer 一款为 Docker 容器自动化更新利器，内置网页界面，灵活的定时调度和多样化通知，让运维变得轻松又有趣！

#Docker容器 #自动化更新 #Tugtainer #运维工具 #定时调度

火星尼维斯

2个月前

听老罗和小鹏的对话，有个观点非常认同。小鹏说：互联网这个行业的人转行做硬件，特别是硬件制造领域，最大的问题是把快速迭代这个思维带入这个领域，这是灾难的开始。

#老罗 #小鹏 #互联网转硬件 #快速迭代思维 #硬件制造领域

2个月前

OpenAI 员工：我们今天发布的AI代理构建器只用了不到六周的时间就完成了端到端构建，其中 80% 的代码都是由 Codex 编写的...

#OpenAI #AI代理构建器 #Codex #六周 #自动化

2个月前

对于独立开发者而言，被动收入构建有哪些具体方法？

#独立开发者 #被动收入 #构建方法 #经验分享 #中性

李老师不是你老师

2个月前

10月7日，2025 年诺贝尔物理学奖授予约翰·克拉克、米歇尔·H·德沃雷特和约翰·M·马丁尼斯，“以表彰他们在电路中发现宏观量子力学隧穿和能量量化”。

#2025年诺贝尔物理学奖 #约翰·克拉克 #米歇尔·H·德沃雷特 #约翰·M·马丁尼斯 #宏观量子力学隧穿

2个月前

ChatGPT、Claude等一直在推进更多服务加入其MCP生态，刚ChatGPT官宣部分服务入驻，我测试了下Booking（能看出来开放的权限在哪：只相当于给了个搜索API，完全没有个性化数据，比如用户的价格偏好等）。

#ChatGPT #MCP生态 #Booking #API #中性

2个月前

每次开发完推送到Vercel，都会遇到构建失败，今天直播也发生了类似问题。直播中的朋友提到，可以添加一个构建规则（rule），每次修改后确保重新构建以确保成功。如果构建失败，就得修复问题（以前我都是让AI跑测试，但这样消耗很多token）。其实，不仅可以在Claude规则里添加，还可以在Git的pre-commit里做这些修改。这些是以前知道的，但一个人开发的时候，往往会忘记这些细节。 build in public 的好处就是能得到大家的反馈，避免闭门造车。

#Vercel构建失败 #构建规则 #pre-commit #build in public #AI测试

2个月前

高效能人士的唯一个习惯： ai first

#AI #效率 #习惯 #未来 #科技

2个月前

Windows 10 距离寿终正寝还有 7⃣️ 天。

#Windows 10 #停止支持 #倒计时 #怀旧 #技术落幕

... ...