#推理速度

4个月前

Multiverse：首个开源的非自回归并行推理框架非自回归，能力相比AR模型保持的非常好，推理速度提升2倍，数据、模型、工具完全开源。官网： Github：

#Multiverse #非自回归 #开源 #并行推理 #AR模型 #推理速度 #数据开源 #模型开源 #工具开源

6个月前

兄弟们这个牛P了 2800 tokens/s 啊😂 全球最快推理速度模型不要眨眼↓ ChatDLM：全球首个扩散语言模型 (DLM) 即将开源 ChatDLM深度融合了 Block Diffusion 和 Mixture-of-Experts (MoE) 架构，实现了全球最快的推理速度。同时支持131,072 tokens的超长上下文它的工作原理是：将输入分成许多小块，同时用不同“专家”模块处理，再智能整合，既快又准。主要功能有哪些？ - 回答速度非常快，能让聊天更自然流畅。 - 可以让用户“指定”输出的风格、长度、语气等细节。 - 可以只修改一段话里的某个部分，而不用重新生成全部内容。 - 能同时应对多个要求，比如要它生成一个有多项要求的答案。 - 翻译能力很强，可以在多种语言之间准确转换。 - 用的算力资源少，使用成本低。

#ChatDLM #扩散语言模型 #全球最快推理速度 #Block Diffusion #Mixture-of-Experts #超长上下文 #AI技术 #开源项目 #推理速度

7个月前

就在刚刚，腾讯发布了自家的深度思考模型混元T1正式版。能力对齐 R1 ，使用创新架构，推理速度飞快。模型特点： - 性能强悍，混元 T1 在多项评测指标中都达到 DeepSeek R1 和 OpenAI o1 同样的水平 - 使用了 Hybrid-Mamba-Transformer 融合模式创新架构 - 速度飞快，提问秒回，吐字飞快，出色的超长文本推理能力 Hybrid-Mamba-Transformer 技术特点： - 有效降低传统 Transformer 结构的计算复杂度，减少 KV Cache 内存占用，显著降低训练和推理成本 - 大幅提升模型对超长文本任务的处理能力 - 这是工业界首次将混合Mamba架构无损应用于超大型推理模型模型价格：混元 T1 API 已经在腾讯云官网上线 - 输入价格：1元/百万token - 输出价格：4元/百万token 非常便宜，可以试试。

#腾讯 #深度思考模型 #混元T1 #创新架构 #推理速度 #性能评测 #Hybrid-Mamba-Transformer

9个月前

这几天在倒腾把Deepseek 7b模型装到本地的M1上，感觉token吐得有点慢，效果也比较差。今天看见清华的ktransformer，大幅提升推理速度，搞不好能直接单机运行DS满血版。等高手跑通以后搞一搞。

#DeepSeek #模型优化 #清华ktransformer #M1 #推理速度 #单机运行

9个月前

阿里巴巴推出Qwen2.5-1M 支持100万Token上下文的开源模型，性能媲美GPT4o mini Qwen2.5-1M 在处理超长文本任务和短文本任务上都表现出了卓越的能力，尤其是在处理复杂的长上下文场景中，达到了开源模型的领先水平。推理速度比传统方法快 3 到 7 倍，尤其在处理超长序列时表现优异。推理阶段通过块状预填充（Chunked Prefill）技术，使显存需求减少 96.7%。

#阿里巴巴 #Qwen2.5-1M #开源模型 #GPT4o mini #超长文本任务 #短文本任务 #长上下文场景 #推理速度 #块状预填充技术