#工程效率

21小时前

还记得去年 Devin 搞了一个 deepwiki 吗？ Google 现在也悄悄上了一个同类，Gemini 加持的CodeWiki：用法超级简单：把 GitHub 的项目仓库地址，直接贴到 CodeWiki 的 URL 后就行。比如 LangChain 的 repo：那么它对应的 CodeWiki 页面就是：私有仓库马也上会支持，据说 Google 在开发 Gemini CLI 扩展，企业内部 repo 也能用。所有做工程的人都知道一句残酷真相：写代码从来不是效率瓶颈，理解代码才是。尤其是大型仓库，文档永远跟不上代码，逻辑全靠口口相传。如果代码-文档-知识这条链路能打通，工程效率这块真的要再往前跳一级了。

谷歌Deep Research：AI操作系统雏形？· 125 条信息

#CodeWiki #Google #Gemini #代码理解 #工程效率

4个月前

很多公司或者开发者在开发智能体时，为了节约成本，会在一开始就选择便宜的能力较弱的模型，于是要花费很多时间在工程上，但实际上，在原型设计和基线测试阶段，应首先使用当前可用的最强大的模型（例如 Claude 4、o3、Gemini 2.5 Pro 等）来构建智能体。这样做的目的，是为了建立一个性能基准（Performance Baseline）。通过使用能力最强的模型，可以最大限度地确保智能体能够成功完成任务，从而验证工作流设计、工具定义和指令清晰度的有效性。这种策略看似有悖于常规的成本控制直觉，但在AI开发初期却至关重要。在智能体开发中，最大的不确定性并非来自执行效率，而是来自推理能力——即“这个复杂的任务是否有可能被自动化？”。如果从一开始就使用一个能力较弱的模型，当智能体执行失败时，开发者将面临一个难以诊断的困境：失败的原因是指令不够清晰，是工具存在缺陷，还是模型本身就不够“聪明”？这个混杂的变量使得问题排查变得异常困难。反之，通过从最强模型入手，开发者实际上是在测试中消除或最小化了“模型能力不足”这一变量。如果在这种最优配置下智能体仍然失败，那么问题几乎可以肯定地归结为指令或工具的设计缺陷——这是一个更具体、更易于解决的工程问题。这种方法论首先验证了项目的“可行性”，然后再去优化“经济性”，从而有效地为项目早期阶段去风险，避免团队因过早使用能力不足的模型进行测试而错误地放弃一个本有潜力的应用场景。一旦通过最强模型成功建立了性能基准，并利用评估框架（Evals）量化了其表现，下一步就是进行迭代优化。开发者可以尝试将系统中部分或全部任务替换为更小、更快或成本更低的模型，然后再次运行评估，观察其性能是否仍在可接受的范围内。并非所有任务都需要顶级模型的推理能力。一个复杂的智能体系统可能会采用异构模型部署策略：例如，由一个强大的“主管”智能体负责顶层规划和决策，而将一些相对简单的子任务，如意图分类或数据格式化，交由更小、更快的模型来处理。这种数据驱动的优化过程，使得团队能够在性能、延迟和成本三者之间找到最佳的平衡点。

#智能体开发 #成本管理 #模型选择 #性能基准 #工程效率

北美王路飞

9个月前

EP-11「工程与达尔文：DeepSeek 引爆新一轮 AI 革命」初码x王路飞 | DeepSeek | 强化学习 | 大模型 | 工程效率 ...

#DeepSeek #AI革命 #强化学习 #大模型 #工程效率