#模型推理速度

9个月前

DeepSeek V3 感觉还是差 Sonet 一筹，Benchmark 是一回事，实际表现是一回事，感觉是混入的数学语料太多。我的感受（不考虑推理模型）第一档：Claude Sonet 、Gemini Flash 2.0、 GPT-4o 第二档：DeepSeek V3、Qwen2.5-72B、国内的一票Top 模型 DeepSeek优点是速度变快+便宜～

#DeepSeek v3 #Sonet #Claude Sonet #Gemini Flash 2.0 #GPT-4o #Qwen2.5-72B #AI Benchmark #AI模型对比 #模型推理速度 #模型成本

11个月前

2025年LLM趋势个人预测： 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用，端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型（不仅是数学、代码）从通用模型分化并提升效果。

#LLM趋势 #Test-time compute #多模态大模型 #模型推理速度 #领域级小模型