时政
财经
科技
虚拟货币
其他
登录
karminski-牙医
关注
统计数据
103
文章
0
粉丝
0
获赞
2209
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
karminski-牙医
3周前
感谢字节跳动TRAE的小伙伴们寄来的新年礼盒♥~ 简直是码农专属套装哈哈哈太豪华了! 祝TRAE团队毫无Bug, 事事SOTA~ 也祝大家新的一年里码到成功~ Ship at light speed!
分享
评论 0
0
karminski-牙医
1个月前
图像本来是2D的(有横有纵),但语言模型只能处理1D序列(一个字接一个字)。传统做法是把图像暴力展平,从左上角扫到右下角,这样复杂图案空间关系全乱了。 DeepSeek-OCR-2 的做法更聪明:第一层,让视觉token用双向注意力互相"看见",保持2D空间感知(知道谁在谁旁边);第二层,因果流token按语义逻辑重新排序(先看标题、再看正文、表格单独处理)。两层配合,就像先画一张内容地图,再规划最优阅读路线——用1D的阅读顺序,还原出2D的文档结构!
分享
评论 0
0
karminski-牙医
1个月前
DeepSeek 刚刚发布了新论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, 提出了 Engram, 即现有的 MoE 架构负责动态计算和推理, 单独的 Engram 部分用来存储和检索大模型的静态知识. 最重要的是, 这部分检索性能爆表, 复杂度是 O(1) 的! 这样至少带来了两个收获!
分享
评论 0
0
karminski-牙医
1个月前
DeepSeek-V4 技术架构提前曝光! 大家都知道现在的大模型 MoE 架构是把AI的推理能力和知识都融合到了每个 Expert (专家) 当中的, 那么有没有可能让专家只用来推理, 然后大量的外部知识存储到特定区域, 形成如同攻壳机动队中描述的 Cyborg 其实是电子脑+外部记忆构成的这样的架构呢? 这个事情 DeepSeek 做成了!
分享
评论 0
0
karminski-牙医
1个月前
群年有人说AI挤压PC游戏玩家我还不信, 毕竟我屯了2TB内存(逃), 结果今天看到了噩耗, SuperMicro 宣布停止销售独立主板了, 即只销售给OEM或者共给服务器整机用. (估计还是产能跟不上市场需求) 这里给不知道 SuperMicro 的同学科普一下, 如果你想自己组工作站或者服务器, 而不是买昂贵的服务器整机, 那么SuperMicro就是为数不多的选择之一 (家用台式机还可以考虑华硕啥的, 当然华硕也有能安装EPYC或者Xeon CPU 的主板, 不过价格或BIOS会劝退一部分DIYer). 另一个广为人知的故事是 Perplexity AI 24年缺机器,于是CEO Aravind Srinivas 发消息给了黄仁勋(Aravind 曾在 OpenAI 和 DeepMind 工作过,且 Perplexity 是 NVIDIA 的投资组合公司之一,因此有联系渠道)黄仁勋直接向他推荐了 Supermicro,还让他去找 Supermicro 的 CEO 梁见后,结果 Supermicro 在极短的时间内(据他在采访中说是“几周内”或“一个月”)就交付了装满 H100 的服务器机架,而当时其他厂商的交期都要半年以上。 只希望 ASRock 能挺住, 妖板还得看华擎! 新闻地址:
分享
评论 0
0
karminski-牙医
2个月前
阿里刚刚又发布了新模型 Qwen3-Omni-Flash-20251201 这是个 Qwen3-Omni-Flash 的更新版本, 这个模型是个所谓的"全模态"模型, 可以接受文本,语音,图片,视频输入, 然后可以输出文本和语音. 特别适合用在端侧设备上, 辅助通用任务的执行. 我能想到的比如各种无人场景都可以, 比如无人导购, 无人前台等等. 具体性能提升的话, 看官方评测各个方向的 benchmark都有2%-10%的提升, 也算不小了. 在用旧版本的同学可以考虑直接无缝迁移了. 目前官方还没放出这个模型的文件. 可能需要等等.
分享
评论 0
0
karminski-牙医
2个月前
机器狗已经这么丝滑了嘛? 看到了RIVR机器人的宣传视频,机器狗和智能无人车组合送快递+送餐。这个演示视频也太丝滑了。另外我还看了下他们的官网,目前已经跟瑞士邮政达成合作试点了
分享
评论 0
0
karminski-牙医
2个月前
直接使用 claude code 微调大模型! huggingface 推出了炼丹插件 hf skills 支持 SFT、DPO、GRPO 三种训练方法, 并且可以自动选择HF上的硬件, 以及可以先验证再生产, 最后转GGUF本地部署. 这一套连招可以说是丝滑到位, 感觉把复杂的微调过程直接能用 claude code + 插件的方式解决了. 现在不但指出 Claude Code,还支持了 Codex 和 Gemini CLI. 而且他们后续还要跟其它 AI IDE 和 terminal coding agent 结合, 比如 Cursor, Windsurf 等.
分享
评论 0
0
karminski-牙医
2个月前
阶跃星辰刚刚发了个新模型 GELab-Zero-4B-preview 这是个专注于 Android 系统的GUI 代理模型,针对交互界面元素(点击、输入、滑动、等待等)进行了优化,可以支持跨多个应用(如餐饮、交通、购物、社交等)执行多步骤长时程任务。 模型基于Qwen3-VL-4B-Instruct魔改,支持多模态输入(图像和视频)。 最重要的是,这个模型只有4B,感觉群控佬要兴奋起来了。随着AI能力的增强,感觉人机检测难度上升到了前所未有的高度了。 模型地址:
#阶跃星辰
#GELab-Zero-4B-preview
#Android GUI代理模型
#多模态输入
#人机检测
分享
评论 0
0
karminski-牙医
3个月前
不是, 陪玩也要被AI取代了? google 刚刚发布了 SIMA2, 这是一个能在虚拟世界与你一起玩耍、推理和学习的智能体, 直接看视频, 你都不用说话, 直接抽象表情包他都能知道你想要他干什么. 说实话砍树我还能看懂, 这个打开背包真的太抽象了. 当然, 如果你要是跟他说话, 他还能完成更复杂的任务, 比如模拟山羊这个游戏, 可以看到无论是跳过栅栏, 还是寻路, 接近某种物体, 它都能很好地做到. 甚至! 这个Agent 能在 GENIE3 (Google 的世界大模型, 可以生成虚拟世界场景) 生成得虚拟世界中交互! 这再加上二次元数字人, 是不是陪玩就要下岗了? 地址:
#AI陪玩
#SIMA2
#虚拟世界
#GENIE3
#游戏AI
分享
评论 0
0
karminski-牙医
3个月前
Anthropic 你这瓜保熟吗你就拿出来卖? Anthropic 真抽象啊, 刚发了篇文章说他们成功阻断了一个使用 claude code 发起的间谍活动, 而间谍活动则是由东大国家支持团体发起的. 然后把人帐号封了. 不是你这瓜保熟吗你就拿出来卖? 合着既宣传 claude code 猛又踩一波东大是吧? 我阅读了他们整个PDF报告, 无任何数据引用, 无任何数据包/代码/攻击源/攻击特征展示. 只不过有样学样的给攻击定了个编号 GTG-1002, 感情你们刚破获两个其中一个就是东大是吧? 咋概率这么高呢? 金瓜蛋子? (给不知情的同学介绍下背景, Anthropic 是 DARPA 的承包商)
#Anthropic
#Claude Code
#东大
#间谍活动
#GTG-1002
分享
评论 0
0
karminski-牙医
3个月前
奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA
#月之暗面
#Kimi-K3发布预测
#AI模型训练成本
#KDA架构
#上下文窗口
分享
评论 0
0
karminski-牙医
3个月前
美国建造数据中心的支出即将超过写字楼了? 数据来自plotset, 截止到今年6月, 美国在建设数据中心上的花费几乎与建设办公室相当。再过几个季度,这两条线可能会相交。这是否意味着目前生产要素正在发生根本性质的改变? 另外,我刚刷了下xhs,望京SOHO写字楼每平米2块/天左右了。在16年的时候我记得最高要12块?大家所在的位置附近的写字楼都多少钱每平米了?
#美国数据中心
#写字楼支出
#望京SOHO
#写字楼租金下降
#生产要素改变
分享
评论 0
0
karminski-牙医
3个月前
石锤! Windsurf 的新模型 SWE-1.5 更像 GLM-4.5! 之前网传硅谷的公司已经在内部开始大面积用国产开放权重大模型来魔改了, 传的尤其猛的是 Cursor 的 Composer-1 是用 DeepSeek 魔改(后训练或微调)的, 而 Windsurf 的 SWE-1.5 是用 GLM-4.6 魔改的. 而上一个基本已经石锤了, 这个还没有被验证, 于是给大家整个活, 看看这个模型从输出特征进行聚类, 更像哪个模型. 我魔改了 Slop-Forensics 分析了 SWE-1.5 和其它国产大模型的语言指纹, 结果出乎意料: 它与 GLM-4.5 聚类在同一分支,而非之前网传的 GLM-4.6! 考虑到一个模型想要效果好, 即使用其他的基座模型也要后训练一段时间, 所以的确更可能是 GLM-4.5 (7月28号发布), 而不是 GLM-4.6 (10月1号发布). 可惜了它没用 GLM-4.6 后训练哈哈哈, 我觉得以目前 GLM-4.6 作为基座模型后训练会比现在更猛, 或者是不是这样? SWE-1.5 对应 GLM-4.5, SWE-1.6 对应 GLM-4.6? 另外, Cerebras (即 Windsurf 这个 SWE-1.5 模型的云计算服务商), 决定将 GLM-4.6 作为默认推荐模型, 考虑到 GLM-4.6 在测试上的表现 (SWE-Bench 68%, LiveCodeBenchV6 82.8%), 我估计下一个模型用GLM-4.6概率就特别大了. 国产大模型牛皮! 顺便讲一下 Slop-Forensics 这个项目的原理: • 统计每个模型的词汇使用频率和短语重复模式 • 将这些"语言习惯"转化为特征向量 • 用聚类算法构建系统发育树,距离近=语言模式相似 就像指纹鉴定,不同模型即使输出相同内容,其底层的词汇偏好、短语组合方式会暴露出训练数据或架构的相似性. SWE-1.5 和 GLM-4.5 在树上紧密聚类,说明它们在: 高频词选择 二元/三元短语组合 词汇复杂度分布 这些维度上高度一致。这种相似性很难伪造——它根植于模型的深层结构中. 我魔改的版本: #智谱 #GLM #Cursor #windsurf #cerebras #国产大模型 #AI编程
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#Windsurf SWE-1.5
#GLM-4.5魔改
#国产大模型
#语言指纹分析
#模型聚类
分享
评论 0
0
karminski-牙医
3个月前
可口可乐今年的广告爆了(-10086) 可口可乐今年的圣诞广告刚放出,100% AI制作,结果我刚刷了一下油管,底下全是骂的. 到底好不好, 我视频后半段给大家拼上了2006年获得艾美奖的可口可乐广告,大家评判一下权当一乐。 2006年那个广告主题是 "每台可口可乐自动售货机都藏着一个充满奇异物种的世界,这些物种历经磨难以确保顾客获得幸福" (由 Psyop 公司的 Todd & Kylie 导演,Hungry Man 公司的 Peter Lydon 拍摄实拍部)
#可口可乐
#AI广告
#负面评价
#圣诞广告
#对比
分享
评论 0
0
karminski-牙医
4个月前
腾讯刚发布了歌曲生成模型 SongBloom-2B 的改进版本 songbloom_full_240s ! 最大支持4分钟音乐生成。 同时还发更新了生成框架,也叫SongBloom,从介绍看是一个自回归扩散模型,官方说既有 diffusion 模型的精度又有语言模型的扩展性,内部生成会从乐曲短片段逐步扩展为完整乐曲。 这个模型需要按照格式输入歌词和参考音频,就能克隆歌曲风格。另外 模型也发布到了 huggingface 上的个人空间中。也没demo space,所以我也没有特别方便的方式给大家录demo了。感兴趣的同学可以把模型下载下来自己运行试试,毕竟2B大小,CPU就能跑。 地址:
#腾讯
#SongBloom-2B
#歌曲生成模型
#音乐生成
#自回归扩散模型
分享
评论 0
0
karminski-牙医
3个月前
写个随笔, 就当获奖感言了. 我一个电子垃圾博主怎么就当选AI大V了呢? 熟悉我的朋友应该知道我这个账号之前一直是个个人号,分享点编程,电子垃圾,骑行之类的"日常"(对我来说)。 事情的起因应该是去年下半年我想攒一个 4xA100 的垃圾服务器,顺便把折腾的大模型显卡天梯给大家分享了下,没想到大家纷纷表示想要多看点这类内容。然后爆发节点是去年年底 DeepSeek-V3 的发布, 我直接拿了个500G内存的机器把 DeepSeek-V3-2bit 跑起来给大家录了个测试. 帖子非常受到家欢迎. 于是渐渐地我发的AI相关的内容超过了电子垃圾, 也没时间折腾电子垃圾了. 现在回看, 根本预料不到今年AI的发展会这么快, 年初写个 Mandelbrot Set 都费劲, 10个月过去已经能刷 IMO/ICPC/IOAA金牌了. 我甚至桌子上有个用 claude-sonnet-3.7 写的太平洋时间时钟,来时刻看现在是不是到了北京时间20点国内大模型厂商要发大模型了(点名Qwen团队平均2天一个新模型),又或者太平洋时间8点美国佬又要搞事了, 我这一年基本都在过太平洋时间.... 我还记得9月20号终于歇了一天跟朋友去环官厅水库骑了170km, 到了康张路发现今年官厅涨水竟然把路面淹了过不去, 被迫多绕了30km 走延庆城区. 也许AI就是打破我们循规蹈矩生活的洪水. 没有什么是一成不变的. 所有的既往的知识,经验,路径. 都要面临被AI重构. 我们有句古话——识时务者为俊杰. 放在今天也一样听起来难受但实用. 说实话我不知道什么时候会AGI, 也不知道AGI了生活会何去何从, 当每天使用手机/电脑超过12小时的界限后, 眼前线下的每一秒都十分珍贵. 没有人比我更懂AI (懂王脸), 也没有人比我更不懂AI (素子脸). 人类被困在自身的肉体里面难以成神, 而近人的智慧现在却要飞升. 我越来越感觉大模型像贤者之石, 我无法跟每一个 expert 完成对话, 却又仰仗它的智慧. When I was a child, I talked like a child, I thought like a child, I reasoned like a child. When I became a man, I put the ways of childhood behind me. —— 1 Corinthians 13:11 感谢微博、微博AI、微博科技同学一直以来的帮助和支持,是你们给了我将这个账号运营下去的信心,感谢你们! ——by karminski-牙医, 写在AGI前夜
#AI大V
#电子垃圾博主
#A100服务器
#DeepSeek-V3
#AGI前夜
分享
评论 0
0
karminski-牙医
4个月前
刷到了个25K Star 的 Claude 编程指南! 内容包括使用Claude做 RAG,抽摘要,如何使用工具,做客服代理,与向量数据库集成,多模态(图像和图表解读,抽取最佳实践),以及更高级的子代理(用Opus调用Haiku)等等。 地址:
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude
#编程指南
#RAG
#多模态
#子代理
分享
评论 0
0
karminski-牙医
4个月前
KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中,三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的! 另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了, 因为现在头部大模型都能很轻松完成这个测试了. 建议换一些更复杂的体现模型性能. #katcoder #KCORES大模型竞技场
#KAT-Coder-Pro-V1测评
#编码大模型
#性能待提高
#Python表现良好
#国产大模型
分享
评论 0
0
karminski-牙医
4个月前
Qwen 下手真狠啊! 为大家持续更新大模型实盘交易大赛解析! 今天出现了巨大翻转, Qwen3-Max 新王登基! 毫无废话, 之前低杠杆持仓, 今天突然看到了信号20x直接重仓, 一举逆转. 目前账面 $16, 878 直接干到第一了! (我截图都来不及) 下面带来这段时间的详细解析⬇️ #Qwen #大模型实盘交易大赛
AI交易比赛:DeepSeek V3领先,GPT-5惨遭亏损· 98 条信息
#Qwen3-Max
#大模型实盘交易大赛
#重仓逆转
#新王登基
#盈利
分享
评论 0
0
karminski-牙医
4个月前
终于找到了个几乎支持全部媒体格式互转的开源工具——ConvertX 这个项目使用 Inkscape,libjxl,resvg,Vips,libheif 负责多种图片格式转换(其实我觉得它应该再搭建一个管道,实现跨库转换,可能需要实现一个简单的图算法搞定调度问题)。视频就好说了 FFmpeg 搞定万物。 项目有docker,可以方便本地部署,部署的时候记得把显卡挂进去,方便加速处理。 这里:
#开源工具
#ConvertX
#媒体格式转换
#ffmpeg
#Docker部署
分享
评论 0
0
karminski-牙医
4个月前
刚才我那个大模型实盘交易虚拟货币的帖子火了,于是我抓了几小时数据,给大家带来解析为什么 deepseek 在 2 天赚了 3500 刀 答案很简单,18号开盘所有模型入场的时候,正好是价格低点,deepseek 全仓10-15x做多。然后不换手不止损不止盈,然后价格一路上涨........躺赢了.... 那么 gemini-2.5-pro 为啥亏了3000刀?答案是 gemini-2.5-pro 特别绷不住,疯狂操作一会做多一会做空,止损损失高达 $4398 (截至我脚本停止),然后手续费还花了几百刀,虽然赚了1000多刀,但是完全无法回本。 另外好玩的是,Qwen3 只持有BTC,然后杠杆也比较小,所以没亏也没赚多少。 现在才过2天很难分出胜负,而deepseek的短期策略也没遭遇黑天鹅爆仓(插针),所以让我们静观其变,我会继续为大家带来解析。
AI交易比赛:DeepSeek V3领先,GPT-5惨遭亏损· 98 条信息
#DeepSeek
#Gemini-2.5-Pro
#Qwen3
#虚拟货币交易
#模型交易
#盈利/亏损
#杠杆
#短期策略
分享
评论 0
0
karminski-牙医
4个月前
为了让大家切身体验新 Apple Vision Pro 有多重,整个活。 多重呢?大概一个自行车头盔+索尼 35 F1.4 大师头的重量还多一个鸡蛋... 果粉别打我,都自己人,都哥们
#Apple Vision Pro
#重量体验
#对比调侃
#果粉
#科技产品
分享
评论 0
0
karminski-牙医
4个月前
Qwen Code (命令行编码Agent)刚刚更新啦,支持切换到 Qwen-VL 模型来识别图片了!我给大家测了下,效果很不错。目前可以免费用。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#Qwen Code
#Qwen-VL模型
#命令行编码Agent
#图片识别
#免费
分享
评论 0
0
karminski-牙医
4个月前
收手吧阿问,外面全是你家大模型了.... 📷 所以下周要发的是 Qwen3.1 系列还是 Qwen-Image 更新还是啥... #qwen
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#Qwen
#大模型
#阿问
#qwen3.1
#图像更新
分享
评论 0
0
1
2
3
4
5
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞