GitHubDaily 0 关注者 关注 9小时前 想在自己电脑上跑大模型处理长文档,但动辄几十 GB 的模型参数让普通显卡根本吃不消,更别说处理 10 万字的超长上下文了。 无独有偶,找到了 oLLM 这个轻量化推理库,专为消费级 GPU 优化,用 8GB 显存就能跑 80B 参数的大模型。 通过巧妙的内存管理策略,将模型权重和 KV 缓存分层加载到 GPU 和硬盘,再配合 FlashAttention 优化,在不使用任何量化的情况下实现了惊 #大模型 #轻量化推理 #消费级GPU #oLLM #FlashAttention 前往原网页查看