#Qwen3

ChandlerGuo 郭宏才宝二爷

1周前

XRP要成新比特币华尔街都在聊ETF了 AI炒币大赛结果出来了 QWEN3拿第一赚23% GPT5亏64%垫底还是人工智能不如人工

AI交易比赛：DeepSeek V3领先，GPT-5惨遭亏损· 77 条信息

#XRP #比特币ETF #AI炒币大赛 #Qwen3 #GPT5

3周前

仿盘阶段1 一觉醒来Qwen3的资产余额又到了$15000以上，DeepSeek超过$12000且有继续上涨的迹象我的仿盘的前端部分也已经开源，应该是目前为止复刻最完整的版本，欢迎star：预览网站：支持的特性有： 1. 资产曲线完美复刻 2. 持仓情况 3. 模型对话历史部分支持中文 4. 成交纪录 5. 亮色和暗色主题更多特性待您探索，同时还在不断优化中，欢迎戳戳评论

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6053 条信息

#Qwen3 #DeepSeek #开源 #资产余额 #中文支持

karminski-牙医

3周前

刚才我那个大模型实盘交易虚拟货币的帖子火了，于是我抓了几小时数据，给大家带来解析为什么 deepseek 在 2 天赚了 3500 刀答案很简单，18号开盘所有模型入场的时候，正好是价格低点，deepseek 全仓10-15x做多。然后不换手不止损不止盈，然后价格一路上涨........躺赢了.... 那么 gemini-2.5-pro 为啥亏了3000刀？答案是 gemini-2.5-pro 特别绷不住，疯狂操作一会做多一会做空，止损损失高达 $4398 (截至我脚本停止)，然后手续费还花了几百刀，虽然赚了1000多刀，但是完全无法回本。另外好玩的是，Qwen3 只持有BTC，然后杠杆也比较小，所以没亏也没赚多少。现在才过2天很难分出胜负，而deepseek的短期策略也没遭遇黑天鹅爆仓（插针），所以让我们静观其变，我会继续为大家带来解析。

AI交易比赛：DeepSeek V3领先，GPT-5惨遭亏损· 77 条信息

#DeepSeek #Gemini-2.5-Pro #Qwen3 #虚拟货币交易 #模型交易 #盈利/亏损 #杠杆 #短期策略

1个月前

Qwen3 Guard 模型引入了一个一直很期待的能力：流式输入。大模型大都支持了流式输出，但支持流式输入的模型还是第一个，如果大模型能支持流式输入，对很多低延迟的场景非常友好。阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力，非常期待。

#Qwen3 #Guard模型 #流式输入 #低延迟 #vLLM

1个月前

2025云栖大会开幕！阿里云CTO周靖人将聊通义大模型升级，主题“云智一体·碳硅共生”直击AI云融合，准有实用惊喜。云栖这AI盛会总让人上头，这次通义千问“全家桶”太对胃口——文本到多模态，全场景解锁。焦点千问3-Max，参数破万亿，家族最强将。Instruct日常稳，Thinking推理猛：在数学AIME 2025和HMMT 双100满分、代码SWE-Bench 69.6分也亮眼。它“多想几步”优化输出，报告分析快准狠，长文本稍耗力但值。千问3-Omni真人般聊天：视频+文本+语音，211ms延迟，还DIY角色。Wan2.5-Preview视频生成顺，音画同步，我试“夜城咖啡”出一段节奏感短片，创作者必备。 Coder-Plus代码稳、Next成本降九成，全覆盖，Qwen Chat免费玩，你的idea会擦出啥火花？云栖见！ #阿里云 #通义千问 #Qwen3 #2025云栖大会

#2025云栖大会 #阿里云 #通义千问 #AI云融合 #Qwen3

3个月前

刚刚，在本地下载了一个阿里巴巴的AI 开源模型 Qwen3，速度非常快，但是这个模型被练就成了中央党校的3好学生。😀

#Qwen3 #阿里巴巴 #AI模型 #中央党校 #开源

3个月前

四个模型调用工具的能力，谁胜出？ gpt-oss 120B 4bit GLM-4.5 Air 4bit qwen3-coder-Flash 8bit Jan-v1-4B 8bit 注：一个例子不代表所有，Exa 是 gpt-oss 的默认搜索工具模型的工具调用能力还有很大提升空间

#模型调用 #工具 #gpt-oss #GLM-4.5 #Qwen3

3个月前

本地跑qwen3:4b-instruct用来做翻译不错

#Qwen3 #4b-instruct #翻译 #本地运行 #积极

3个月前

最近非常喜欢的「信息卡」风格，今天感觉磨出来一套稳定的提示词，现在用 Gemini 2.5 Pro 和 Grok 3 可以稳定复现下图效果。晚上我再继续测国内的 Kimi K2、Qwen3 和 GLM-4.5 等，Claude 4 基本可以免测录取 😄 测试通过后，明早发出来给大家。

Google Gemini 2.5发布引发AI模型性价比热议· 279 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 652 条信息

#信息卡 #Gemini 2.5 Pro #Grok 3 #kimi k2 #Qwen3

3个月前

Kimi K2 还没捂热，Qwen3 235B A22B 2507 又上线了，现在我每天最期待的就是各种新模型发布。OpenRouter 免费版不太稳定，有时需要重试几次才能成功。今天收到 Google Cloud 平台邮件，大号有望解封…

#Kimi #Qwen3 #大模型 #Openrouter #Google Cloud

4个月前

MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制相比 DeepSeek R1 等模型，在处理 10 万 tokens 的生成任务时，MiniMax-M1 的计算量仅为其 25%。该模型基于前代模型 MiniMax-Text-01 开发，总参数规模为 4560亿，每个token激活参数为 45.9亿，支持最长 100万tokens 的上下文输入（约为 DeepSeek R1 的8倍）。提出了一种新型强化学习算法 CISPO（Clipped Importance Sampling with Policy Optimization），该算法：不裁剪 token 梯度，而是裁剪采样权重（importance weights）。减少训练不稳定性，提升收敛质量。缩短训练时长（Qwen2.5对比实验显示，训练速度提升2倍）

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 23 条信息

#MiniMax-M1 #开源模型 #Lightning Attention #深度学习 #Qwen3 #DeepSeek-R1 #AI性能 #模型对比 #注意力机制 #上下文优化

5个月前

古籍领域首个开源大语言模型——荀子大模型向公众开放。其对话模型是由Qwen3基于长思维链古籍推理任务和通用古籍处理任务训练而来，支持深度思考模式。项目：；网站：。

#古籍开源 #大语言模型 #荀子大模型 #Qwen3 #深度思考 #AI #技术开放

马东锡 NLP 🇸🇪

6个月前

「Qwen3, Token, Agent」分析 added_tokens，如主板上的卡槽，预留大模型新功能空间。昨天Qwen3发布，最亮眼的是，原生支持agentic tool call以及MCP。这篇分析，主要从tool call入手，了解大模型中added_tokens的作用和意义。每当大模型发布，我都会打开它的tokenizer.json去看added_tokens。 added_tokens的意义在于，在LLM的vacabulary中添加特殊token，我自己称之为 “协议token”，这部分token不会被BPE分词，会完成输出，目的就是规则性地提示大模型此处要进行特别的功能，比如tool call和thinking。当我们打开Qwen3的tokenizer.json，会很看十几个added_tokens，我把它们总结如下，并加上我对他们功能的理解和猜想：普通会话类： <|endoftext|> <|im_start|> <|im_end|> ：会话边界 Tool call，Agent类: <tool_call> / </tool_call> ：函数执行JSON <tool_response> / </tool_response>：工具执行结果 <think> / </think>：思考短评： [像不像Paper: ReCall？参考我前一篇分享] 多模态类： <|vision_start|End>: 预留视觉空间 <|image_pad|>：预留图片空间 <|video_pad|>：预留视频空间短评：Qwen3只支持文本，但未来一定会多模态！代码和RAG类： <|fim_prefix|>：代码类 <|repo_name|>：代码repo <|file_sep|>：大文件比喻的来说，这些added_token就像是计算机主板的卡槽，为新的功能，新的性能，提前预留空间。比如tool call，agent类，Qwen3已经支持，那就说明这个卡槽被利用，如何实现的，就是training recipe (SFT+RL)，具体的可以参考我分享的ReCall, ReSearch, ReTool, APR, PASTA等文章。那Qwen3是如何支持MCP的呢？一个完整例子用户问题：When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? 在mcp server中定义了两个tool来追踪国际空间站： def get_next_iss_pass(city: str) -> dict: def add_calendar_event(title: str, datetime_utc: str) -> str Jinja template会直接把用户的问题结合added_token，render给大模型： <|im_start|>user When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? <|im_end|> <|im_start|>assistant <think>I need an orbital pass → then a calendar entry.</think> <tool_call>{"name":"get_next_iss_pass","arguments":{"city":"Stockholm"}} </tool_call> <|im_end|> 工具get_next_iss_pass的返回结果，直接给mcp host side， <tool_response>{"datetime_utc":"2025-04-30T19:12:00Z"}</tool_response> <|im_end|> 然后继续触发下一个tool call。喜欢钻研的朋友，会发现其实DeepSeek R1也有类似的add_token, "<｜tool▁calls▁begin｜>", 但它不支持mcp，因为它只是预留了，并没有在实际训练中让LLM跟mcp互动。希望看完这篇分享的你，明白了added_token是什么，你也许也更加深刻地理解了我之前分享的一系列“协议token”的文章，ReCall, ReSearch, ReTool, APR, PASTA.

#Qwen3 #大模型 #agentic tool call #MCP #added_tokens

karminski-牙医

6个月前

Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现，并加强了 MCP 的支持另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布

#Qwen3 #MoE模型 #非MoE模型 #AI模型发布