时政
财经
科技
虚拟货币
其他
登录
#Qwen3
关注
ChandlerGuo 郭宏才 宝二爷
1周前
XRP要成新比特币 华尔街都在聊ETF了 AI炒币大赛结果出来了 QWEN3拿第一赚23% GPT5亏64%垫底 还是人工智能不如人工
AI交易比赛:DeepSeek V3领先,GPT-5惨遭亏损· 77 条信息
#XRP
#比特币ETF
#AI炒币大赛
#Qwen3
#GPT5
分享
评论 0
0
WquGuru🦀
3周前
仿盘阶段1 一觉醒来Qwen3的资产余额又到了$15000以上,DeepSeek超过$12000且有继续上涨的迹象 我的仿盘的前端部分也已经开源,应该是目前为止复刻最完整的版本,欢迎star: 预览网站: 支持的特性有: 1. 资产曲线完美复刻 2. 持仓情况 3. 模型对话历史部分支持中文 4. 成交纪录 5. 亮色和暗色主题 更多特性待您探索,同时还在不断优化中,欢迎戳戳评论
币圈“1011”六倍崩盘:高杠杆爆仓潮,谁在裸泳?· 6053 条信息
#Qwen3
#DeepSeek
#开源
#资产余额
#中文支持
分享
评论 0
0
karminski-牙医
3周前
刚才我那个大模型实盘交易虚拟货币的帖子火了,于是我抓了几小时数据,给大家带来解析为什么 deepseek 在 2 天赚了 3500 刀 答案很简单,18号开盘所有模型入场的时候,正好是价格低点,deepseek 全仓10-15x做多。然后不换手不止损不止盈,然后价格一路上涨........躺赢了.... 那么 gemini-2.5-pro 为啥亏了3000刀?答案是 gemini-2.5-pro 特别绷不住,疯狂操作一会做多一会做空,止损损失高达 $4398 (截至我脚本停止),然后手续费还花了几百刀,虽然赚了1000多刀,但是完全无法回本。 另外好玩的是,Qwen3 只持有BTC,然后杠杆也比较小,所以没亏也没赚多少。 现在才过2天很难分出胜负,而deepseek的短期策略也没遭遇黑天鹅爆仓(插针),所以让我们静观其变,我会继续为大家带来解析。
AI交易比赛:DeepSeek V3领先,GPT-5惨遭亏损· 77 条信息
#DeepSeek
#Gemini-2.5-Pro
#Qwen3
#虚拟货币交易
#模型交易
#盈利/亏损
#杠杆
#短期策略
分享
评论 0
0
Leo Xiang
1个月前
Qwen3 Guard 模型引入了一个一直很期待的能力: 流式输入。 大模型大都支持了流式输出,但支持流式输入的模型还是第一个,如果大模型能支持流式输入,对很多低延迟的场景非常友好。 阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力,非常期待。
#Qwen3
#Guard模型
#流式输入
#低延迟
#vLLM
分享
评论 0
0
meng shao
1个月前
2025云栖大会开幕!阿里云CTO周靖人将聊通义大模型升级,主题“云智一体·碳硅共生”直击AI云融合,准有实用惊喜。云栖这AI盛会总让人上头,这次通义千问“全家桶”太对胃口——文本到多模态,全场景解锁。 焦点千问3-Max,参数破万亿,家族最强将。Instruct日常稳,Thinking推理猛:在数学AIME 2025和HMMT 双100满分、代码SWE-Bench 69.6分也亮眼。它“多想几步”优化输出,报告分析快准狠,长文本稍耗力但值。 千问3-Omni真人般聊天:视频+文本+语音,211ms延迟,还DIY角色。Wan2.5-Preview视频生成顺,音画同步,我试“夜城咖啡”出一段节奏感短片,创作者必备。 Coder-Plus代码稳、Next成本降九成,全覆盖,Qwen Chat免费玩,你的idea会擦出啥火花?云栖见! #阿里云 #通义千问 #Qwen3 #2025云栖大会
#2025云栖大会
#阿里云
#通义千问
#AI云融合
#Qwen3
分享
评论 0
0
Inty News
3个月前
刚刚,在本地下载了一个阿里巴巴的AI 开源模型 Qwen3,速度非常快,但是这个模型被练就成了中央党校的3好学生。😀
#Qwen3
#阿里巴巴
#AI模型
#中央党校
#开源
分享
评论 0
0
nicekate
3个月前
四个模型调用工具的能力,谁胜出? gpt-oss 120B 4bit GLM-4.5 Air 4bit qwen3-coder-Flash 8bit Jan-v1-4B 8bit 注:一个例子不代表所有,Exa 是 gpt-oss 的默认搜索工具 模型的工具调用能力还有很大提升空间
#模型调用
#工具
#gpt-oss
#GLM-4.5
#Qwen3
分享
评论 0
0
wong2
3个月前
本地跑qwen3:4b-instruct用来做翻译不错
#Qwen3
#4b-instruct
#翻译
#本地运行
#积极
分享
评论 0
0
meng shao
3个月前
最近非常喜欢的「信息卡」风格,今天感觉磨出来一套稳定的提示词,现在用 Gemini 2.5 Pro 和 Grok 3 可以稳定复现下图效果。 晚上我再继续测国内的 Kimi K2、Qwen3 和 GLM-4.5 等,Claude 4 基本可以免测录取 😄 测试通过后,明早发出来给大家。
Google Gemini 2.5发布引发AI模型性价比热议· 279 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#信息卡
#Gemini 2.5 Pro
#Grok 3
#kimi k2
#Qwen3
分享
评论 0
0
Geek
3个月前
Kimi K2 还没捂热,Qwen3 235B A22B 2507 又上线了,现在我每天最期待的就是各种新模型发布。OpenRouter 免费版不太稳定,有时需要重试几次才能成功。今天收到 Google Cloud 平台邮件,大号有望解封…
#Kimi
#Qwen3
#大模型
#Openrouter
#Google Cloud
分享
评论 0
0
小互
4个月前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 23 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
芸窗
5个月前
古籍领域首个开源大语言模型——荀子大模型向公众开放。其对话模型是由Qwen3基于长思维链古籍推理任务和通用古籍处理任务训练而来,支持深度思考模式。项目:;网站: 。
#古籍开源
#大语言模型
#荀子大模型
#Qwen3
#深度思考
#AI
#技术开放
分享
评论 0
0
马东锡 NLP 🇸🇪
6个月前
「Qwen3, Token, Agent」分析 added_tokens, 如主板上的卡槽,预留大模型新功能空间。 昨天Qwen3发布,最亮眼的是,原生支持agentic tool call以及MCP。这篇分析,主要从tool call入手,了解大模型中added_tokens的作用和意义。 每当大模型发布,我都会打开它的tokenizer.json去看added_tokens。 added_tokens的意义在于,在LLM的vacabulary中添加特殊token,我自己称之为 “协议token”,这部分token不会被BPE分词,会完成输出,目的就是规则性地提示大模型此处要进行特别的功能,比如tool call和thinking。 当我们打开Qwen3的tokenizer.json, 会很看十几个added_tokens,我把它们总结如下,并加上我对他们功能的理解和猜想: 普通会话类: <|endoftext|> <|im_start|> <|im_end|> :会话边界 Tool call,Agent类: <tool_call> / </tool_call> : 函数执行JSON <tool_response> / </tool_response>:工具执行结果 <think> / </think>: 思考 短评: [像不像Paper: ReCall? 参考我前一篇分享] 多模态类: <|vision_start|End>: 预留视觉空间 <|image_pad|>:预留图片空间 <|video_pad|>: 预留视频空间 短评:Qwen3只支持文本,但未来一定会多模态! 代码和RAG类: <|fim_prefix|>: 代码类 <|repo_name|>:代码repo <|file_sep|>:大文件 比喻的来说,这些added_token就像是计算机主板的卡槽,为新的功能,新的性能,提前预留空间。 比如tool call,agent类,Qwen3已经支持,那就说明这个卡槽被利用,如何实现的,就是training recipe (SFT+RL),具体的可以参考我分享的ReCall, ReSearch, ReTool, APR, PASTA等文章。 那Qwen3是如何支持MCP的呢? 一个完整例子 用户问题:When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? 在mcp server中定义了两个tool来追踪国际空间站: def get_next_iss_pass(city: str) -> dict: def add_calendar_event(title: str, datetime_utc: str) -> str Jinja template会直接把用户的问题结合added_token,render给大模型: <|im_start|>user When will the ISS fly over Stockholm next, and could you add a calendar reminder for me? <|im_end|> <|im_start|>assistant <think>I need an orbital pass → then a calendar entry.</think> <tool_call>{"name":"get_next_iss_pass","arguments":{"city":"Stockholm"}} </tool_call> <|im_end|> 工具get_next_iss_pass的返回结果,直接给mcp host side, <tool_response>{"datetime_utc":"2025-04-30T19:12:00Z"}</tool_response> <|im_end|> 然后继续触发下一个tool call。 喜欢钻研的朋友,会发现其实DeepSeek R1也有类似的add_token, "<|tool▁calls▁begin|>", 但它不支持mcp,因为它只是预留了,并没有在实际训练中让LLM跟mcp互动。 希望看完这篇分享的你,明白了added_token是什么,你也许也更加深刻地理解了我之前分享的一系列“协议token”的文章,ReCall, ReSearch, ReTool, APR, PASTA.
#Qwen3
#大模型
#agentic tool call
#MCP
#added_tokens
分享
评论 0
0
karminski-牙医
6个月前
Qwen3 发布啦! 本次发布的模型包括: MoE 模型 Qwen3-235B-A22B (MoE, 总大小235B, 激活参数22B, 上下文128K) Qwen3-30B-A3B (MoE, 总大小30B, 激活参数3B, 上下文128K) 非 MoE 模型: Qwen3-32B Qwen3-14B Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B 新版本的 Qwen3 特性如下: - 混合思维模式, 搭载了 thinking 开关, 可以直接手动控制要不要开启 thinking - 多语言支持, 支持 119 种语言和方言 - Agent 能力提升, 提升了编码和 Agent 方面的表现,并加强了 MCP 的支持 另外, 的 Qwen3 也上线了啦! 技术报告地址: 模型地址: Github Repo: #qwen3发布
#Qwen3
#MoE模型
#非MoE模型
#AI模型发布
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞