小互 0 关注者 关注 7个月前 兄弟们 这个牛P了 2800 tokens/s 啊😂 全球最快推理速度模型 不要眨眼↓ ChatDLM:全球首个扩散语言模型 (DLM) 即将开源 ChatDLM深度融合了 Block Diffusion 和 Mixture-of-Experts (MoE) 架构,实现了全球最快的推理速度。 同时支持131,072 tokens的超长上下文 它的工作原理是:将输入分成许多小块,同时 #ChatDLM #扩散语言模型 #全球最快推理速度 #Block Diffusion #Mixture-of-Experts #超长上下文 #AI技术 #开源项目 #推理速度 前往原网页查看