#机器学习

我们来聊聊AI味儿: 第一种:先反差描述,然后急于解释。 因为模型的三观没有清洗好,所以大模型一直在扭转这种反常识 ,模型默认为是被迫要这样说。 然后就会接着说:老实说、本质上、其实等等词来进行转折。最后再补一个模型能够想到的案例,试图验证。 这个逻辑是非常缜密的。一定要符合:有效性与真理性。 把形式逻辑做到结果上,这些形式逻辑有很多种,还包括自问自答、定义阐述、案例说明。 第二种:表层示例 模型在组织过程中需要写出具体场景,还原它构思的完美的象,这个象又不能完全具象到刘阿姨、李大妈等等,智能通过比较大的门类层级。 看似都在推理中,实际与落地经验完全不是一回事,与执行差之千里,大体可以叫纸上谈兵。 第三种:虚空对比 在名词和动词的运用上,因为特别严谨,模型往往只能使用常用词,这在推理过程中,属于是进入了词的窄效应。 比如我们谈论哲学家,最优先选中的可能是亚里士多德和弗洛伊德,并不一定能落到维特根斯坦头上。 当你看到一篇文章经常出现你看到上一个词和下一个词在相关性上极高,属于有点文化就能想到的关联词时候,就很可能发现了模型的局限性。 第四种:语义与语用的连接。 模型的严禁程度不允许语义产生歧义,所以在语用上,一定会跟着进行约束,以达到表达的准确。 一旦进入一个需要解释的内容,必定会跟进解释,这两者中出现的连接词,往往包含了我们经常看到的:不是、是、而是、不止是、重要的是、本质上上、说白了。 语义是阐明这件事,语用是约束这件事所处的环境条件。 第五种:过度完美 模型的过度完美表现在,他要把一句话讲清楚,是非常有机器语言规律的,并非人性表达规律。 人的表达,往往拆开来这句话,是不容易形成完整语法的。即使符合语法,也会用词语规避掉完美,来符合自己的语言习惯。 未经雕琢的文字,可以是短句。比如“未经雕琢的文字”和“可以是短句”,就都是短句。 如果连起来写就会很别扭,这是我的习惯。 如果AI的习惯,会写:没有经过雕琢的文字也可以是由短句组成。 因为拆开,对于模型没有设定风格的时候,就不算一句话。 即使设定了风格,在推理过程中,也会偶然选中了必须选中的那个选项,也就偶尔还会冒出来AI味儿。 当然还有一些比如AI认为“讲”、“说”和“写”拥有不同的习惯。 当他识别文本为讲,那就是生活聊天风格,会比较多儿化音或者排比句或者很别扭的地方也放一个“了”做结尾; 识别为说,那就是单人叙述风格,带有大量说教的口吻,连词就会变多,解释也变多; 识别为写,那就是严谨到不能更严谨,长句不断。
向阳乔木
2个月前
大白话解释,AI常见术语和缩写,让你读相关文章、Youtube视频更轻松。 简单列18个,基本够用。 Artificial intelligence (AI) | 人工智能 研究如何让机器变得智能的学科,目标是让机器拥有类似人类和动物的智能。 通用人工智能(AGI)指的是能力达到人类水平的AI。 超级人工智能(ASI)则是在各方面都超越人类的AI,不过这两个概念目前还没有公认的严格定义。 AI Agent | AI智能体 能够自己做决策、采取行动的AI系统。 举个例子,一个大语言模型如果能调用各种工具(比如搜索、计算器等),并且知道在什么时候用哪个工具来完成任务,它就是一个AI智能体。 AI Safety | AI安全 专门研究AI可能带来的各种危险,并想办法预防这些风险的领域。 这些风险可大可小,从小麻烦到威胁人类生存都有可能。 Context window | 上下文窗口 大语言模型一次能"记住"多少内容。 窗口越大,模型能同时处理的信息就越多。 Diffusion | 扩散模型 一种生成新内容的算法。 它的工作原理有点像"去模糊"——先把一张清晰的图加上噪点变模糊,然后训练模型学会反向操作,从模糊恢复到清晰。 学会之后,就能从随机噪点生成全新的高质量图像。 目前在AI绘画和蛋白质结构设计方面很火。 Environment | 环境 AI智能体"生活"的世界。 智能体在环境里做出各种动作,环境会告诉它发生了什么变化,还会给它打分(做得好给奖励,做得不好给惩罚)。 智能体的完整经历记录(包括看到了什么、做了什么、得了多少分、接下来看到了什么)叫做轨迹,这些数据用来训练强化学习模型。 Function calling / tool use | 函数调用/工具使用 让AI模型能够像人一样使用各种工具的能力。 比如需要计算时调用计算器,需要查资料时调用搜索引擎,需要处理数据时运行代码等。 Generative AI | 生成式AI 能够创作新内容的AI,比如写文章、画图、作曲、做3D模型等。 你给它一个描述(提示词),它就能生成相应的内容。 Graphics Processing Unit (GPU) | 图形处理单元 训练和运行AI模型的核心硬件。 GPU最大的特点是能同时做很多计算,所以特别适合AI这种需要大量并行计算的任务。 (Large) Language model (LM, LLM) | (大型)语言模型 用海量文本训练出来的AI模型,核心能力是预测"下一个词是什么"。 通过这种方式,它学会了理解和生成人类语言。 Mixture-of-Experts (MoE) | 混合专家模型 一种聪明的模型设计。 模型里有很多"专家"模块,但处理每个词的时候只叫醒几个相关的专家来干活,其他专家休息。 这样既保持了模型的能力,又节省了计算资源。 Prompt | 提示词 你跟AI说的话,用来告诉它你想要什么。 比如"帮我写一首关于春天的诗"就是一个提示词。 Reasoning model | 推理模型 会"思考"的AI模型。 它不是直接给答案,而是像人一样一步步分析问题、制定计划、验证结果。 它的思考过程(叫做思维链)是可见的,你能看到它是怎么一步步得出答案的。 Reinforcement learning (RL) | 强化学习 让AI通过"试错"来学习的方法。 就像训练小狗一样——做对了给奖励,做错了给惩罚,AI在不断尝试中逐渐学会完成任务的最佳方法。 Test-time compute (or inference-time compute) | 测试时计算 让AI在回答问题时多花点时间思考,比如多想几种方案、多验证几遍答案等,这样能提高准确率。 这个过程不需要重新训练模型。 Transformer 目前最主流的AI模型架构。 它的核心是"注意力机制",能自动识别出输入信息中哪些部分最重要。 最初用于翻译,现在已经应用到图像、语音等各个领域,是现代AI的基石。 Vision-Language-Action Model (VLAM) | 视觉-语言-动作模型 既能看懂图像、理解语言,又能在现实世界中执行动作的AI模型。 比如机器人既能看懂你指的是哪个杯子,听懂你说"把它拿过来",还能真的把杯子拿过来。 如果只有看和听的能力,没有动作能力,就叫VLM(视觉-语言模型)。 World model | 世界模型 能够预测"如果我这样做,会发生什么"的AI模型。 它理解世界的运行规律,所以能预测自己的行动会带来什么后果,从而实现实时的智能控制。
【Onchain Bloomberg招数据科学家,备战Onchain Finance!】 后端算法工程师(Web3 方向 - 机器学习) 技能职责:后端业务数据处理与开发:基于业务需求,设计并开发高可用、高性能的数据处理与机器学习工程模块,聚焦机器学习驱动的钱包标签识别场景(机构钱包 / 聪明钱 / 巨鲸钱包 / 风险钱包 / Scammer 钱包等),负责标签相关特征工程、模型训练数据 pipeline 构建,实现标签数据的高效统计、模型驱动的动态更新,支撑链上数据分析平台的核心功能。 跨团队协同:联动产品、前端及算法团队,对齐钱包标签识别的机器学习目标(如模型准确率、召回率优化),收集业务反馈迭代模型落地方案,确保机器学习技术实现与产品路线图、业务价值一致。 理想人选:核心技术能力: 精通 python/Go/JS 等开发语言,具备钱包标签识别系统开发经验;具备扎实的机器学习基础,熟悉标签识别相关算法(如分类算法、聚类算法、时序分析、异常检测等),能熟练使用特征工程工具(Pandas、PySpark)、机器学习框架(TensorFlow/PyTorch)及模型部署工具(ONNX、TensorRT);能独立完成 “数据清洗 - 特征提取 - 模型训练 - 评估迭代 - 工程化部署” 全流程,具备机器学习模型在高并发场景下的落地经验。 过往业务经验需符合以下至少 1 项要求: (1)主导过机构钱包标签库建设,能通过链下数据关联、链上行为特征工程,结合机器学习模型(如分类算法)优化标签精准分类; (2)具备通过过往交易行为分析聪明钱 / 巨鲸钱包的经验,能基于大额交易、持仓变化等数据构建特征,通过时序分析、聚类算法实现目标钱包识别与标签体系构建; (3)有风险钱包标签体系设计经验,熟悉洗钱、钓鱼等风险场景,能结合机器学习规则引擎(如 Spark MLlib)开发动态风险模型,优化标签定义与规则迭代; (4)参与过 Scammer 钱包识别系统搭建,能基于交易行为、地址关联等数据构建特征,通过监督 / 半监督学习构建识别模型,迭代优化模型效果(如召回率、误判率)。 容器化与部署能力:熟练使用 Docker Compose/K8s 进行容器化部署(含机器学习模型服务化部署,如 TensorFlow Serving、TorchServe)与集群管理,精通 CI/CD 流程,具备机器学习中间件(如 MLflow)的自动化部署及故障处理能力,支撑高并发标签数据处理与模型推理场景。
宝玉
6个月前
一年之间 AI 做高考数学从 47 分到 145 分!AI 数学能力发生了什么?自从去年极客公园搞了次 AI 做数学题,今年各大媒体又开始让 AI 写作文做数学题了,但是估计明年再搞一年 AI 数学题以后就搞不下去了,因为明年的结果只会是各大模型高考数学都是满分的成绩,再也拉不开区分度了! 可能你会好奇今年各个模型的高考数学成绩如何,我觉得“机器之心”这篇《高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二》结果是挺靠谱的。 (参考图1) > "从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。" > "从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。" (参考图2) 从整个测试过程上来说是客观公正的,我把做错的几题验证了一下,o3 第 6 题错的和截图一样,18 题一样忘记化简,第9题在我这里做对了,也就是误差可能有1分。不管怎么说这个结果也比较符合我的感觉: 1. 现在的推理模型在数学方面已经可以轻松在高考级别的数学题上拿到几乎满分的成绩 2. 国内的推理模型像豆包和DeepSeek在数学方面和国际顶尖模型的差距是很小的 ** 从去年到今年:见证AI数学能力的指数级增长 有必要回顾一下去年大模型的高考数学上的表现(摘录自去年极客公园的测试结果 ): > 大模型解决数学问题的能力明显不足,在所有产品的 2 轮测试中,9 款产品的数学平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超过 60 分的,分别是 62.5 分和 61.5 分,剩下的六位大模型考生中则只有百小应能够维持 40 分以上的平均分。 (参考图3) 可能你会好奇,为什么才一年时间,这些大模型怎么就从刚刚及格线,一下子到了接近满分的成绩? 这背后离不开推理模型的功劳,如果你留意一下去年和今年参加测试的模型名单,去年的 6 月的时候还没有推理模型的概念,第一个推理模型 o1 还是 2024 年 9 月才发布的,DeepSeek R1 和豆包深度思考推理模型分别是 2025年的 1 月 20 日 和 3 月 5 日发布的。 *** 那么什么是推理模型?为什么推理模型做数学这么厉害呢? 假如说普通的大语言模型是一位会背书的同学:它看过海量课本,别人一问就能很快背出相似句子,但对于没有背过的数学题,它就只能靠蒙了! 推理模型就像一个正在学习如何解应用题的超级学霸 。这个学霸掌握了两种特别的学习方法:思维链(Chain of Thought) 和强化学习(Reinforcement Learning)。 思维链就像老师要求你“写出解题步骤”一样。这个学霸在遇到一个复杂的数学题时,不会直接猜答案,而是会一步一步地把思考过程写下来,比如“第一步,先算出A和B的总和... 第二步,再用总和除以C...”。每一步都建立在前一步的基础上,逻辑清晰,这样就不容易出错了。像豆包的深度思考模型就是通过这种方式,把一个大问题分解成一连串的小问题来解决,大大提高了准确性。 而强化学习则像一个奖励机制 。如果学霸通过一套“解题步骤”(也就是思维链)最终算对了答案,就会得到一朵小红花作为奖励;如果算错了,就没有奖励。通过成千上万次的练习,模型会不断调整自己的“思考路径”,学习哪些步骤是有效的,哪些是无效的,最终形成一套高效、准确的解题策略。就像你做多了练习题,自然而然就知道哪种方法最快最好一样。正是通过这两种方法的结合,豆包深度思考这样的推理模型才能像一个经验丰富的数学家一样,有条不紊地解决复杂的数学问题。 *** 为什么第 6 题大模型都没做对?难在哪里? 图4 就是第 6 题的截图,主要特点就是有一个坐标图,无法直接用自然语言描述。 现在的大语言模型,尤其是在训练时,还是以文本为主,虽然也支持图片的输入和输出,但是在图片识别的准确性上,还不能特别精确,比如图 6 右下角的坐标图,以现在 AI 的多模态能力,还不足以完整准确的理解这个坐标轴的数值和上面的箭头角度等信息。 并不是因为大模型不会做,而是它输入的信息是不完整的,就会影响到输出的准确性。 随着模型在多模态能力的进步,未来应该就不会是问题了。 *** 未来展望:高考数学将不再是AI的"试金石" 以现在推理模型在数学上的表现,在高考上已经没有什么区分度了,这就是为什么模型的评分标准也一直在升级,比如现在大模型在数学方面的评测基准之一是 FrontierMath,由 70 位数学家原创的 300 道研究级数学题,远超高考数学难度,目前的推理模型还只是突破 了 25% 左右。 ** 最后 1. 不必对于 AI 能力产生不必要的焦虑,AI 数学能力强,并不代表就能取代人类,相反我们可以让 AI 成为学习上的助手 2. 豆包与 DeepSeek 凭一分之差证明国产 AI 和国外顶尖模型的差距越来越小 3. 未来比拼模型能力的,不是光看分数,而是谁能把严谨推理与多模态理解真正融入日常应用场景中,让 AI 的语言能力、推理能力、数学能力能为人类所用,帮助人更好的提升效率。