MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制相比 DeepSeek R1 等模型，在处理 10 万 tokens 的生成任务时，MiniMax-M1 的计算量仅为其 25%。

#MiniMax-M1 #开源模型 #Lightning Attention #深度学习 #Qwen3 #DeepSeek-R1 #AI性能 #模型对比 #注意力机制 #上下文优化

相关新闻

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

#这个AGI冬天有点冷我的直觉，deepmind把GenAI在数字内容或者数字世界里推到一个新高度； Anthropic仍旧在LLM原生符号智能的路上探索… 产业价值和实体经济效应要看DeepSeek在纯符号智能如math和低成本长上下文的开源模型！

RamenPanda

2个月前

CUDA + PyTorch仍然统治地位，TPU动摇不了

DeBill

2个月前

Gemini 3 Pro Image 对包含复杂文字的图片生成要比其他模型强很多，图1和图2的测试案例里Gemini 3 Pro Image都是一把过（包含中英+logo设计），之前我试过的图片生成模型在这个测试案例上基本全部吃瘪。但是它在简单任务上又会不尽人意（图3 图4），图片生成模型的能力边界感觉比文字模型更难探索。

摆烂程序媛

2个月前

我用同一张老照片， 6 个模型复原—— 直接修出 6 种完全不同的气质：自然、复古、真实… 📸 老照片修复模型榜单（从强到弱） 1. Nano-Banan Pro 2. Nano-Banan 3. GPT 4. FLUX 5. Wan2.5 6. Seedream V4 1️⃣ Nano-Banan Pro — 最高级感的复原 ✨ 特点：自然 + 高级质感 📌 适合：想要“既自然又高级”的修复

向阳乔木

2个月前

Stable Diffusion背后的秘密：原来一直在去噪，不是在画图！ --- 你可能用过 Stable Diffusion。当输入"一只猫坐在沙发上"。然后，你看着进度条，一点一点往前走。 10%... 20%... 30%... 图像慢慢从模糊变清晰。一开始，全是噪点。然后，隐约能看到一些形状。再然后，能看到猫的轮廓。最后，一张清晰的图出现了。你有没有想过

关联事件

MiniMax M1发布：开源长上下文推理模型引发AI领域震动

MiniMax公司今日正式发布了其开源的长上下文推理模型MiniMax M1，该模型具有1M token的输入和80K token的输出能力，标志着开源AI模型的又一重大突破。MiniMax M1的训练成本仅为53.5万美元，性能超越了Qwen3和DeepSeek-R1，接近顶级闭源模型。新模型引入了Lightning Attention上下文优化机制，使其在处理10万tokens的生成任务时，计算量仅为DeepSeek R1的25%。此次发布不仅展示了MiniMax在开源领域的领先地位，也引发了对AI模型性能和训练成本的广泛关注，尤其是在与OpenAI O3、Gemini 2.5 Pro、Claude 4 Opus等模型的对比中，MiniMax M1展现出强大的Agentic Tool Use能力，进一步推动了人工智能技术的发展。