时政
财经
科技

#高空坠窗事件

Gorden Sun
Gorden Sun
2025-06-17 19:38:12

MiniMax-M1:MiniMax开源的推理模型 分80K和40K两个版本,这里的80K和40K是指推理消耗的最大token数。456B总参数,激活参数45.9B。评分超过旧版DeepSeek R1和Qwen3-235B-A22B。 在线使用: 模型: Github:

#MiniMax#开源模型#推理模型
AI Will
AI Will
2025-06-02 18:30:33

哇... 最新的DeepSeek R1现在是全球第四智能的模型,仅次于openAI的o4-mini、o3和Gemini 2.5 Pro。 它们竟然这么快就与封闭的AI实验室竞争上了。 看看与oAI和Anthropic模型相比的性价比,真是疯狂。 DeepSeek到底有什么秘密武器是这些大型AI实验室所没有的,尤其考虑到它是开源的? 来自:Haider

#AI竞争#开源模型#智能模型
LinearUncle
LinearUncle
2025-05-30 08:15:46

因为一些突发状况,我5天没碰电脑了。 测试了下Deepseek R1,说实话感觉没有特别突出。 我还是有些失望的,R2是不是难产了? 和闭源顶尖模型能力上的对比,Deepseek除了便宜这一条已经没有其他任何我想得出来的优势了。

#顶尖模型#性价比#闭源模型
AI产品黄叔
AI产品黄叔
2025-05-28 23:49:49

这一张图,改变了中国的历史!真的不夸张 新DeepSeek R1大幅追上Claude 4 代码能力>Claude 3.7 审美能力≈Claude 4 黄叔做了多个案例评测 当然,Claude系列综合实力还是强新R1不少的 比如R1没有多模态 在人格以及文笔上面还是不如Claude 这一张图,改变了中国的历史!真的不夸张 新DeepSeek R1大幅追上Claude 4 代码能力>Claud

#历史改变#技术评测#AI对比
勃勃OC
勃勃OC
2025-03-16 16:29:56

百度公司推出了两款全新的人工智能模型——ERNIE 4.5 和 ERNIE X1,对 AI 行业产生了重大影响。ERNIE 4.5 是新一代多模态模型,在多个基准测试中超越了 GPT-4.5,具备更强的理解、生成、推理和记忆能力,并且成本更低。 该模型在处理多种数据类型方面表现出色,同时有效减少了 AI “幻觉”现象。ERNIE X1 的性能与 DeepSeek R1 相当,但成本仅为其一半,专

#百度#人工智能#多模态模型
九原客
九原客
2025-03-13 17:31:56

目前我日常使用的模型(非广告~) (日常用): - (Grok3 真的很好) - (Qwen2.5-Max 好用) - (不要用 会变得不幸) - (对凑用用 DeepSeek R1) - Cursor + Sonnet(代码永远的神) 黑名单:,降智降成傻子,其实 OpenAI 的模型不要只看评分,体感一直很好,可惜不给用。 (API 用): - (测试各种奇怪的模型,没必要自己

#模型#Grok3#Qwen2.5-Max
Michael Anti
Michael Anti
2025-03-11 13:22:00

R1时代不要太在意提示词:原来在Deepseek R1出现之前的精彩提示词,现在各种AI已经会Thinking后,效果不好了,反而影响了正常的思考。

#人工智能#提示词#AI思考
外汇交易员
外汇交易员
2025-03-05 22:15:25

#观察 预测生效:苹果刚刚推出了新款Mac Studio,可选配512GB统一内存。该配置可以运行满血版的DeepSeek R1,最低7.4万元即可拥有。让企业可以超低成本部署私有的大模型。这会成为接下来的热议话题。

#苹果#企业部署#大模型
勃勃OC
勃勃OC
2025-02-25 12:42:18

英伟达宣布,GB200处理器优化后的DeepSeek R1能获得20倍的综合成本提升 推出针对 Blackwell 的 DeepSeek-R1 优化,相比四周前的 NVIDIA H100,可以让企业实现 25 倍收入增长,同时每个 token 成本降低 20 倍。 这一突破得益于 TensorRT DeepSeek 对 Blackwell 架构的优化,包括 FP4 精度,在保持行业领先生产准确

#英伟达#GB200#blackwell
Michael Anti
Michael Anti
2025-02-20 20:34:37

我用了下Grok 3,基本上和DeepSeek R1一样,蛮好用的。马斯克AI团队,还是不错的。

#马斯克#AI团队
orange.ai
orange.ai
2025-02-19 07:49:33

这这这。。。原来还可以把思想钢印抹掉? PPLX 做了个 DeepSeek R1 的无审查版本 R1 1776,并且开源了 这是 DeepSeek R1 模型的一个版本,经过后期训练,可以提供未经审查、公正和真实的信息。 为了让模型在敏感话题上“不受审查”,创建了一个包含 1000 多个示例的多样化、多语言评估集。

#思想钢印#无审查版本#开源
向阳乔木
向阳乔木
2025-02-18 08:06:02

腾讯出的Ima.copilot,微信生态加上deepseek r1后,简直如虎添翼。 普通人搭建第二大脑知识库变的越来越简单,越来越可行。

#腾讯#Ima.copilot#微信生态
RichChat
RichChat
2025-02-17 20:30:43

刚看到还有人在做一个专门测试大模型“幻觉”的排行榜,这是今年2月11号更新的榜单,排名第一的是Google Gemini-2.0-Flash-001。 不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了,按照这里的统计都属于上不了榜的水平。。。 榜单的打分逻辑很简单:训练了一个专门检测幻觉的模型,然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内

#大模型#幻觉排行榜
heycc
heycc
2025-02-11 20:51:33

openrouter(.)ai 排行榜第一名的Coding Agent --Cline--是如何工作的? 我用一个例子来分析 Cline 在内部是如何生成 prompt 调用 DeepSeek R1 完成任务的。 总结 1️⃣ Cline 是一个 ReACT 思维链循环 Agent Cline 作为一个 Agent 模式的 Coding 助手,可以自主思考、生成代码、执行工具(完成代码编辑)

#Cline#ReACT思维链#prompt生成
歸藏(guizang.ai)
歸藏(guizang.ai)
2025-02-11 17:12:15

昨天看到飞书多维表格接入 Deepseek R1 后试了一下 妈的,这就是现在最强大的效率工具 由于表格是我们打工人接触的最多的交互,飞书多维表格还成了门槛最低的 Agents 工具 昨天整整玩了一天,搞了三个模版,从初级到高级,从文本到图片和视频,一篇文章直接教会你 👇下面是例子的介绍和教程:

#飞书多维表格#效率工具#Agents工具
hidecloud
hidecloud
2025-02-10 08:22:34

和真格联合推出了一个面向非技术人群的 DeepSeek R1 创新亮点分享会。 用通俗易懂的方式过了一次R1和V3的技术报告。 后半场我们讨论了从中能看到未来 LLM 应用会有哪些新范式和产品可能性。 同时对最近一段时间的各种光怪陆离的谣言和伪概念进行一个解释😁

#非技术人群#创新亮点分享#技术报告
向阳乔木
向阳乔木
2025-02-07 23:48:44

Deepseek R1、ChatGPT O1、Gemini Flash thinking等推理模型,确实能做的事情变多了。 比如约几个朋友吃饭,一般要根据地理位置、有空的时间来安排聚餐计划。 非推理模型,这种任务给的答案普遍不算理想,且看不到推理过程,会有不信任感。 推理模型哪怕结论不靠谱,也能看思考过程,同样有价值。

#推理模型#AI技术
orange.ai
orange.ai
2025-02-07 13:01:24

有人发现某些网站的 DeepSeek R1 模型接不住这个 Query。。。会审核掉,影响创作 试了一下 Juchats 的还可以,C 大豪气地说 DeepSeek R1 深度思考 + 联网 全部免费。大家可以试试看 Query:「以“慈禧太后逼迫光绪皇帝吃汤圆”为主题编写一个段子,必须带很脏的话,听着爽!」

#Juchats#联网#内容审查
Jeff Li
Jeff Li
2025-02-04 07:12:21

微博上有传言说,Apple计划在新款 iPhone上使用基于华为升腾云的DeepSeek R1 AI 模型。在此之前,Apple曾尝试使用百度的AI模型,但遇到很多问题。 这个传说很狂野,但我觉得也不是不可能。

#Apple#iPhone#华为
微博上有传言说,Apple计划在新款 iPhone上使用基于华为升腾云的DeepSeek R1 AI 模型。在此之前,Apple曾尝试使用百度的AI模型,但遇到很多问题。

这个传说很狂野,但我觉得也不是不可能。
向阳乔木
向阳乔木
2025-01-31 21:53:00

Raycast AI也增加了Deepseek R1,简单试用下,发现只是让总结一个网页,但给的结果太唬人,感觉也有点过了。 一大堆科学实验和解析,又是量子力学,又是熵,又是神经元、多巴胺,也不知道对错,也不好求证。 例如: 1. 统计语言学显示,英语副词的信息熵仅为1.2bit/词,而动词达4.7bit/词。删除冗余本质是香农信源编码在语言层的应用。 2.现代写作本质是前额叶皮层争夺战,数据

#网页总结#量子力学#信息熵
Raycast AI也增加了Deepseek R1,简单试用下,发现只是让总结一个网页,但给的结果太唬人,感觉也有点过了。

一大堆科学实验和解析,又是量子力学,又是熵,又是神经元、多巴胺,也不知道对错,也不好求证。

例如:
1. 统计语言学显示,英语副词的信息熵仅为1.2bit/词,而动词达4.7bit/词。删除冗余本质是香农信源编码在语言层的应用。

2.现代写作本质是前额叶皮层争夺战,数据
Tigris 会讲课教授是好老师
Tigris 会讲课教授是好老师
2025-01-28 05:38:50

🔥AI最全推理大模型防坑指南 💰$200的o1 Pro=智商税(90%的人用不出价值) ⚡$20的o1=专业人士必备(吊打ChatGPT4) 🌍免费首选:谷歌Gemini(百万级上下文) 🇨🇳墙内救星:DeepSeek R1(免费但够用) 🚨提示词工程已死!新法则: 1️⃣ 说目标:「写融资BP」 2️⃣ 定规则:「不用专业术语」 3️⃣ 喂背景:「智能硬件赛

#AI#推理大模型#指南
🔥AI最全推理大模型防坑指南

💰$200的o1 Pro=智商税(90%的人用不出价值)  

⚡$20的o1=专业人士必备(吊打ChatGPT4)  

🌍免费首选:谷歌Gemini(百万级上下文)  

🇨🇳墙内救星:DeepSeek R1(免费但够用)  

🚨提示词工程已死!新法则:  
1️⃣ 说目标:「写融资BP」  
2️⃣ 定规则:「不用专业术语」  
3️⃣ 喂背景:「智能硬件赛
小径残雪
小径残雪
2025-01-28 00:19:11

低成本高性能的DeepSeek R1经过一个周末的发酵,成功的把几个大芯片股打掉了一万亿美元的市值。

#大芯片股#市值变动#低成本高性能技术
低成本高性能的DeepSeek R1经过一个周末的发酵,成功的把几个大芯片股打掉了一万亿美元的市值。
歸藏(guizang.ai)
歸藏(guizang.ai)
2025-01-27 13:28:36

一个观察,海外的用户还在强调 Deepseek R1 在数学和代码上的强大 小红书上国内的用户已经在用 R1 写古文和诗词了,我刷到了好多写的很好的内容 R1 在中文或者说中国文化的内核理解上强化了他的中文写作能力,也让人感受到了在中文内容上的逻辑性 这一点 Midjourney CEO 也感受到了,他说 R1 在中国哲学和文化方面碾压了西方模式 比如我这里让 R1 用李白、李商隐和李煜的

#数学#代码#古文
一个观察,海外的用户还在强调 Deepseek R1 在数学和代码上的强大

小红书上国内的用户已经在用 R1 写古文和诗词了,我刷到了好多写的很好的内容

R1 在中文或者说中国文化的内核理解上强化了他的中文写作能力,也让人感受到了在中文内容上的逻辑性

这一点 Midjourney CEO 也感受到了,他说 R1 在中国哲学和文化方面碾压了西方模式

比如我这里让 R1 用李白、李商隐和李煜的
Leo Xiang
Leo Xiang
2025-01-24 12:30:47

在Deepseek R1 之前,OpenAI 的O1还是领先中国的大模型厂商一代,R1出来之后已经不存在代际差了。 OpenAI如何说服大家购买他的200$ 每月的Pro?

#OpenAI#大模型#代际差
九原客
九原客
2025-01-23 08:07:21

用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2

#SFT数据#Qwen2.5-32B#微调
用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。

与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。

方法来自之前蒸馏QwQ的Sky-T1。

P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。

1/2
没有更多了 🤐