澎湃新闻-10%公司
0 关注者
Rainier
1天前
中国的做法,其实让市场竞争变得更加激烈。 一个产品的利润,往往来自几个部分——软件,以及硬件的租赁。在过去,美国的科技公司利润主要来自软件,硬件租赁只是小头。而从边际成本来看,软件的成本要低得多。软件靠什么赚钱?靠算法和工程实现。 比如,OpenAI 是最早发现通过强化学习(RL,比如 GPRO)可以产生“涌现”现象的公司,然后他们悄悄地把这一技术用于自家产品。从商业角度看,这是完全合理的做法
sitin
月之暗面把 Kimi Linear 开源了! 这东西是专门用来处理超长文本的。 简单说几个数据: KV 缓存降了 75%,处理百万字的文本时,解码速度能快 6 倍多。 技术上用了个 3:1 的混合设计, 就是 3 个线性注意力层配 1 个全注意力层。 核心模块叫 KDA,能让模型自己判断该记住什么、该忘掉什么。 测试下来,在长文本生成、代码理解、数学推理这些场景, 表现确实比传统的全注意力
AIGCLINK
美团刚刚开源了一款低延迟全模态大模型:LongCat-Flash-Omni,128K上下文+支持超8分钟实时音视频交互 能听能看能说,毫秒级延迟,可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等 在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni,接近Gemini 2.5 Pro;在MMBench与Gemini、GPT-4o、Qwen-VL相当;MVBench
Gorden Sun
2天前
ChronoEdit-14B:英伟达开源的图片编辑模型 类似Nano Banana,但是效果差一些,人物一致性保持的还可以,但是语义理解不太行,比Kontext Dev强一些。 模型:
LLM训练手册 HuggingFace分享了他们训练SmolLM3-3B的详细操作步骤,200多页的文档。 地址: