#模型能力

3周前

跑在 chatgpt atlas 里的那个 agent，谁有什么真实可用的、有价值的 use case 吗？ browser agent 这个类别，和 claude code 类文件系统 agent 比起来，实用性还是差很多啊。目前 browser agent 的实用价值，主要被 llm 操作计算机的能力被限制住了。期待模型能力能持续发展，就像视频生成模型这一年里的突飞猛进那样（具体的例子，就是威尔史密斯吃意大利面）。

#ChatGPT #agent #Browser Agent #LLM #模型能力

1个月前

首先 DeepSeek 模型和 DS 应用是两回事，模型的权重外部是改变不了的，能改变的是 DS 应用调用搜索引擎的搜索结果，这跟模型没关系，普通的 SEO 污染而已；然后现在很多人对 DeepSeek 不够满意不是 DS 变了，是用户的期望值变了，要知道 DS R1 是快一年前的模型，而现在用户对模型能力的要求已不是当时的标准了。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 131 条信息

#DeepSeek模型 #DS应用 #SEO污染 #用户期望 #模型能力

砍砍@标准件厂长

1个月前

（）可能这几是为什么模型写不出高质量代码的核心原因吧。他越写越觉得像实习生，理解能力还不太行的实习生。没有设计，没有结构，只会巴拉巴拉写一大坨逻辑。要解决这个问题，你的代码质量要够高，他能模仿的挺不错。再就是要更好的模型。

#AI编程：自学or科班？新旧码农之争· 150 条信息

#代码质量 #模型能力 #编程 #实习生代码 #逻辑性差

2个月前

深度对比了一天 ChatGPT 的 Codex 和 Claude Code，早上刚开始继续包月 ChatGPT Plus 的的时候，安装完 VSCode 的 Codex 体验下来，第一感觉是，Codex 的产品交互、模块展示丰富上完全强于 Claude Code，每个步骤展示也清晰的，代码改动对比也舒服的，而且甚至用了很久都没有之前的 Claude Code 的防沉迷设计，一时都不适应，甚至认为 OpenAI 真良心。但是发现碰到难解的疑难杂症，Claude Code 的逻辑清晰度思路完胜 Codex，虽然 Claude Code 非常毛坯的效果，但是完全不影响能力的展示以及问题的解决，Anthropic 虽然政治上不咋地，对用户也有点不客气，但真有两把刷子，不影响继续付费，打算等合适价格买点儿 Amazon 的股票。这也和当前很多大模型产品一样，其实单纯的把产品工具做好的阶段感觉也快过去了，「模型即产品」的概念再一次被突出重点，产品交互在好，在用户对于他的需求面前，最重要的还是模型本身的能力，交互变成了锦上添花，模型能解决问题变成了取胜关键。回到大模型公司而言，的确变成了谁掌握模型训练，谁就掌握未来，当前的 AI 竞争也不是像上一代那种应用创新的竞争了，卷不出啥来了，而是技术创新的竞争，如果下游依赖的模型能力不完善，直接去卷应用本身意义不大，单纯没有模型能力的公司去套壳弄 AICoding 编辑器的意义也不大。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1154 条信息

#ChatGPT #Claude Code #模型能力 #AI竞争 #技术创新

2个月前

如果你的 Agent 还要用 ReAct 框架写 Prompt，那么要么说明你在用没有 Agent 能力的模型（比如 GPT-4o、Gemini 2.5 Pro），要么就是用错了。因为有 Agent 能力的模型，比如 Claude 4 系列（包括前面的 Claude 3.7 和 GPT-5），是不需要通过 ReAct 提示词来激发 Agent 能力，只要提供正确的工具和合适的工具描述，就会自动的去规划、调用工具和完成任务。

#agent #ReAct框架 #GPT-4o #Claude 4 #模型能力

2个月前

不是 AI 产品垃圾时间，恰恰会是高速发展期，因为： 1. 模型增速虽然不再，但是能力已经足够，成本也能接受 2. 模型增速下降反而少了“模型及产品”的顾虑，不必过于担心模型一升级就白忙活了，可以安心基于现有模型去设计构造产品 3. 已经有了成功案例可以参考，比如 ChatGPT、NotebookLM、Cursor、Claude Code 等等 4. AI Coding 大大加速了产品构建的速度拭目以待

#AI产品 #高速发展 #模型能力 #成本可接受 #AI Coding

3个月前

我有种感觉， prompt 优化的策略可能会随着模型能力的不断提高变得慢慢丧失效力因为老板用秘书的时候一开始也是事无巨细的教，后面一个眼神就行了）

#Prompt优化 #模型能力 #策略失效 #技术发展 #类比老板与秘书

3个月前

测试了一下 monica 和 gemini 官网里面的 gemini 2.5 pro 模型的能力差异果然不是一个东西，但是 monica 里面的并不差详细对比见图片

Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 654 条信息

#Monica #Gemini 2.5 Pro #模型能力 #能力差异 #对比测评

4个月前

LMarena排版榜，可以很好的了解模型能力和适用场景。目前看，谷歌的 Gemini-2.5-Pro-Preview-06-05 模型一骑绝尘，遥遥领先。不过比较惊喜的是，WebDev场景，中国模型 Deepseek R1 0528，甚至超过了Opus4，相当能打。搜索场景最厉害的是gemini-2.5-pro-grounding，第二名是Perplexity的 ppl-sonar-reasoning-pro-high 整体结论 ① Gemini-2.5-Pro-Preview-06-05：目前综合能力最强，适合文本、视觉、代码等多场景，推荐作为主力通用大模型。 ② GPT-4o/4.5：多模态能力突出，适合需要图文混合、复杂推理的场景。 ③ DeepSeek 系列：在代码、开发协作方面表现优异，适合程序员和开发团队。 ④ Claude Opus/Sonnet：在代码解释、文档生成、推理等任务中表现稳定，适合需要高可靠性的企业级应用。 ⑤ GPT-Image-1/Imagen：文生图能力强，适合设计、创意、广告等视觉内容生成。

#LMArena #模型能力 #适用场景 #Gemini-2.5-Pro-Preview-06-05 #DeepSeek R1 0528 #Opus4 #WebDev #搜索场景 #gemini-2.5-pro-grounding #perplexity #ppl-sonar-r

5个月前

这篇翻译文章有一条评论： > 我去，这个翻译完全看不出来翻译痕迹，现在的翻译已经如此自然了嘛这里一方面当然是因为模型能力越来越强了，一方面也有提示工程（不是提示词）的功劳。首先我现在最常用的翻译模型是 Gemini 2.5 Pro，表达最自然上下文长度最长，其次才是 GPT-4.5 和 o1-pro，但是 GPT-4.5 长度不行，Claude 翻译的结果很生硬。然后这里我用了一点提示工程，就是先直译，然后结合上下文解释，再最后”重写“，那么就几乎无翻译痕迹了。 > "请结合上面的解释重写原始英文，不必完全一对一翻译英文原文，而是根据意思用中文重写"

#翻译 #模型能力 #提示工程 #Gemini 2.5 Pro #GPT-4.5 #Claude

6个月前

一段提示词直接生成PRD + 高保真原型，节省2-3天工作量。两年前，大家都觉得让 AI 写PRD文档很扯。实际体验确实如此，AI只会写一些不痛不痒的套话、空话。两年后的今天，模型能力足够强大。写一段提示词就能生成PRD需求文档 + 高保真原型。即使不直接用，也能多少给些启发思考。节后分享这套提示词。

#高保真原型 #AI生成PRD #模型能力 #自动化文档 #AI写作工具 #创新科技

歸藏(guizang.ai)

8个月前

新玩法 get，一套提示词将任何文档变成可视化网页这不比 PPT 和 PDF 更方便传播和理解？比如这个全是文字的 Stripe 年度报告 PDF 文件 - 支持响应式设计、夜间模式切换 - 一次成功无需调整以后随着模型能力增强估计内容展示方式也需要变化

#新玩法 #提示词 #可视化网页 #PPT #PDF #文档 #Stripe #年度报告 #响应式设计 #夜间模式 #模型能力 #内容展示

9个月前

一句简单的提示词就可以让 LLM 在翻译的时候更好的“意译” 以前为了让 LLM 达到更好的翻译效果，我尝试了很多方式，比如最初的先直译再意译，后来的直译、反思和意译。虽然效果好了，但是却复杂了。现在随着模型能力增强，不再追求复杂的提示词技巧，而是尝试返璞归真，找到更好更简单的提示词方法。我发现对于翻译的任务，有时候翻译的效果过于生硬，恰恰在于给模型的任务是“翻译”，因为是翻译，所以模型会尝试按照字面意思去翻译，尽量还原原始的格式，但也造成一些翻译过于直白和生硬。这就像我们在学英语的时候，老师让我们去把英文翻译成中文，通常就会按照英文的单词和句式去翻译，但是如果老师让我们用中文“重写”而不是翻译，那么就可以自由的多，只需要去理解原来英文的意思，用中文的方式去重新表达，反而效果好很多。所以我最近尝试了在做翻译任务的时候，让大语言模型去用“目标语言重写”而不是“翻译”，效果果然大不一样，结果不再拘泥于原有语言的格式语法，而是用更自然的方式表达出来。比如说昨天 OpenAI 星际之门的公告，最后一句话： “We want to connect with firms across the built data center infrastructure landscape, from power and land to construction to equipment, and everything in between.” 如果“翻译”，就是按照字面意思： “我们希望与整个数据中心基础设施领域的企业建立联系，从电力和土地到建设再到设备，以及这其中的所有环节。” 如果“用中文重写”，就自然的多： “我们希望与整个数据中心基础设施领域的企业建立联系，包括电力和土地、建筑施工、设备等各个方面的合作伙伴。” 至于提示词，则很简单： “请尊重原意，保持原有格式不变，用简体中文重写下面的内容：” or "Please respect the original meaning, maintain the original format, and rewrite the following content in Simplified Chinese:" 翻译其他语言也类似，只要把提示词中目标语言部分换掉即可。欢迎分享你用这个提示词成功或者失败的案例。

#LLM #翻译 #意译 #提示词 #直译 #翻译效果 #模型能力