karminski-牙医2025-02-26 09:13:05DeepSeek 开源周的3号炸弹来啦!DeepGEMM! 这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。 要知道在早些年高性能的BLAS库可是要收费的,并且卖得很贵。 地址: #DeepSeek
NanYi2025-02-25 14:35:13字节系所有免费的大模型产品(豆包、扣子、trea、剪映等)的协议中都是明确了会“无条件的、永久的、不受限”收集数据(包括所有输入和输出)。trae也是几个vscode套壳AI工具里唯一一个不支持隐私模式也不承诺不使用用户工具的产品。 所以内部系统开发时除非达到开源的程度,不然都不建议用。
勃勃OC2025-02-24 15:16:28DeepSeek 推出了 FlashMLA,这是一款专为 Hopper GPU 设计的新解码内核,标志着其开源周的开始。FlashMLA 旨在提高 AI 模型的效率,支持 BF16,采用 64 块大小的分页 KV 缓存,并在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的高性能。 该内核针对可变长度序列进行了优化,大幅降低计算需求,同时提升 AI 任务的速度