砍砍.ᐟ
2天前
好他妈烦啊都 2026 年了 LLM 的各种接口都还是各说各话的操
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3天前
harness engineering,我们给了LLM那么多tool-using tag,最终给了他们unix file system。
ariel reyez romero
4天前
google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
6天前
Saining Xie让我们社区重新审视在LLM中的entangled,把目光投向人类新皮层的L2/3层的表征。