时政
财经
科技
登录
#推理速度
关注
Gorden Sun
2周前
Multiverse:首个开源的非自回归并行推理框架 非自回归,能力相比AR模型保持的非常好,推理速度提升2倍,数据、模型、工具完全开源。 官网: Github:
#Multiverse
#非自回归
#开源
#并行推理
#AR模型
#推理速度
#数据开源
#模型开源
#工具开源
分享
评论 0
0
小互
2个月前
兄弟们 这个牛P了 2800 tokens/s 啊😂 全球最快推理速度模型 不要眨眼↓ ChatDLM:全球首个扩散语言模型 (DLM) 即将开源 ChatDLM深度融合了 Block Diffusion 和 Mixture-of-Experts (MoE) 架构,实现了全球最快的推理速度。 同时支持131,072 tokens的超长上下文 它的工作原理是:将输入分成许多小块,同时用不同“专家”模块处理,再智能整合,既快又准。 主要功能有哪些? - 回答速度非常快,能让聊天更自然流畅。 - 可以让用户“指定”输出的风格、长度、语气等细节。 - 可以只修改一段话里的某个部分,而不用重新生成全部内容。 - 能同时应对多个要求,比如要它生成一个有多项要求的答案。 - 翻译能力很强,可以在多种语言之间准确转换。 - 用的算力资源少,使用成本低。
#ChatDLM
#扩散语言模型
#全球最快推理速度
#Block Diffusion
#Mixture-of-Experts
#超长上下文
#AI技术
#开源项目
#推理速度
分享
评论 0
0
orange.ai
3个月前
就在刚刚,腾讯发布了自家的深度思考模型混元T1正式版。 能力对齐 R1 ,使用创新架构,推理速度飞快。 模型特点: - 性能强悍,混元 T1 在多项评测指标中都达到 DeepSeek R1 和 OpenAI o1 同样的水平 - 使用了 Hybrid-Mamba-Transformer 融合模式创新架构 - 速度飞快,提问秒回,吐字飞快,出色的超长文本推理能力 Hybrid-Mamba-Transformer 技术特点: - 有效降低传统 Transformer 结构的计算复杂度,减少 KV Cache 内存占用,显著降低训练和推理成本 - 大幅提升模型对超长文本任务的处理能力 - 这是工业界首次将混合Mamba架构无损应用于超大型推理模型 模型价格: 混元 T1 API 已经在腾讯云官网上线 - 输入价格:1元/百万token - 输出价格:4元/百万token 非常便宜,可以试试。
#腾讯
#深度思考模型
#混元T1
#创新架构
#推理速度
#性能评测
#Hybrid-Mamba-Transformer
分享
评论 0
0
小径残雪
4个月前
这几天在倒腾把Deepseek 7b模型装到本地的M1上,感觉token吐得有点慢,效果也比较差。今天看见清华的ktransformer,大幅提升推理速度,搞不好能直接单机运行DS满血版。等高手跑通以后搞一搞。
#DeepSeek
#模型优化
#清华ktransformer
#M1
#推理速度
#单机运行
分享
评论 0
0
小互
5个月前
阿里巴巴推出Qwen2.5-1M 支持100万Token上下文的开源模型,性能媲美GPT4o mini Qwen2.5-1M 在处理 超长文本任务 和 短文本任务 上都表现出了卓越的能力,尤其是在处理复杂的长上下文场景中,达到了开源模型的领先水平。 推理速度比传统方法快 3 到 7 倍,尤其在处理超长序列时表现优异。 推理阶段通过块状预填充(Chunked Prefill)技术,使显存需求减少 96.7%。
#阿里巴巴
#Qwen2.5-1M
#开源模型
#GPT4o mini
#超长文本任务
#短文本任务
#长上下文场景
#推理速度
#块状预填充技术
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞