karminski-牙医2025-04-07 07:56:43无了,昨天以为 llama-4 虽然写代码不行,但是1M-10M的超长上下文还能干点别的。 结果今天 Fiction.LiveBench 结果放出了。llama-4 在 1K 上下文召回(近似, 实际上这个分数是问题回答的正确率)就掉到60%以下了,甚至 llama-4-scout 超过16K只有22%。 顺带一提哈利波特与魔法石正好是16K左右。这意味着你把这本书塞进去,然后问哈利小时候生活预览#llama-4#超长上下文#Fiction.LiveBench
karminski-牙医2025-04-04 07:37:00刚看到的侧面消息,Meta 的 AI 负责人已经离职了,可能是由于 llama-4 搞不出来 目前 llama-4 面临的压力我们来数一数,首先它肯定不能大于 120B,甚至最好还是维持在 70B,然后要超越 Qwen2.5-QwQ,Gemma3-27B 的水平,然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一预览#Meta#AI#离职
karminski-牙医2025-03-31 08:14:06今年的确是 AI Agent 爆发年,MacOS Agent 来了!—— Cua 简单来讲这个程序可以在 Mac 上开一个虚拟机,然后提供 cua-agent 让 AI 能够操作虚拟机中的 Mac 系统。详细可以直接看视频,不但能操作系统,还能使用内部的程序比如浏览器, VSCode 等等。 到目前为止,windows,MacOS,Linux 的 Agent 都有了,操作系统 Agent 已经#虚拟机#cua-agent#操作系统
karminski-牙医2025-03-25 00:41:54给大家带来全网最速 DeepSeek-V3-0324 写代码实测! 直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型! DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错预览预览预览123#DeepSeek-V3-0324#DeepSeek-R1#Claude-3.7
karminski-牙医2025-03-17 07:38:00才发现 GPT-SoVITS 发布新版本了,GPT-Sovits V3 TTS 407M,这个新模型提升了语音clone的效果。 另外,这个工具+模型是国产的哦,仅仅407M大小的模型,笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。 地址: 预览预览预览123#GPT-SoVITS#语音克隆#国产工具
karminski-牙医2025-03-15 10:02:10草,我刚看到了Gemini-2.0-Flash-Image-Generation 的最佳使用场景,真的心动了。 用 RPG Maker 的 tile set 来制作地图!我生成了几张大家看看效果。真的很好玩! 预览预览预览预览1234#Gemini-2.0#Flash-Image-Generation#RPG-Maker
karminski-牙医2025-03-14 09:02:00看到了个基于 Whisper.cpp 的转录工具SoftWhisper。 这个项目可以将音频/视频中的音频转为文字,最大的特点是使用了 Whisper.cpp,所以兼容性非常好,所有平台都能跑。另外性能也很不错,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比,Whisper API转录 20-30 分钟的音频需要大约 40 分钟。 地址:预览预览12#Whisper#SoftWhisper#音频转文字
karminski-牙医2025-03-13 05:05:47刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Ge预览预览12#Google#开源模型#多模态
karminski-牙医2025-03-02 13:29:54卧槽,我刚试了一下这个,SesameAILabs 实现了一个几乎无延迟的AI数字音频模型 ,应该是我体验过的最强的模型了。 我给大家录了个视频,大家可以听听看(一定要开声音,请忽略我的垃圾口语)。同时也建议直接访问试试,体验下延迟 (说实话别说延迟了,太快了,连气口都不给我)。 demo 我发下不仅可以顺畅聊天,甚至还有记忆,我跟他聊小米的车,结果我每次重新开始她就问我你的黄色车怎么样了...#SesameAILabs#AI数字音频模型#人工智能
karminski-牙医2025-02-28 09:10:15DeepSeek 开源周的 5 号炸弹来啦!又是集束炸弹!3FS 和 smallpond! 我不敢相信DeepSeek甚至颠覆了存储架构...... 我上次为网络文件系统震惊还是HDFS和CEPH. 但这些都是面向磁盘的分布式文件系统. 现在一个真正意义上面向现代SSD和RDMA网络的文件系统诞生了! 飞火流星文件系统(3FS)- 一种利用现代 SSD 和 RDMA 网络全带宽的并行文件系统 预览预览12#DeepSeek#开源周#集束炸弹
karminski-牙医2025-02-26 09:13:05DeepSeek 开源周的3号炸弹来啦!DeepGEMM! 这是个FP8 通用矩阵乘法库,该库用 CUDA 编写,安装时无需编译,并且内置了JIT(真的牛逼)!官方数据最大性能获得了2.7倍的提升。 要知道在早些年高性能的BLAS库可是要收费的,并且卖得很贵。 地址: #DeepSeek 预览#DeepSeek#DeepGEMM#FP8
karminski-牙医2025-02-26 07:43:52看到个PDF识别大模型 olmOCR-7B-0225-preview 。我用发票试了一下,感觉效果还可以? 这个7B模型是BF16的,量化后估计能在4GB左右?普通电脑也能用。 模型地址: 在线测试地址: #大模型竞技场 预览预览12#大模型竞技场#PDF识别#olmOCR
karminski-牙医2025-02-20 09:00:01LLama-4 或许会在4月底之前发布? 昨天的消息,meta搞了个 llamaCon 大会,预计在4月29号召开,感觉4月底前应该就能发llama-4了?要不然感觉也没啥可con的.... 地址: 预览#Llama4#Meta#发布会
karminski-牙医2025-02-08 07:00:02分享反编译大模型!LLM4Decompile。反编译工作不需要苦哈哈盯着intel汇编头痛了,这个模型可以将 x86_64二进制程序反编译为C代码 我看了下模型大小从1.3B到22B都有,22B如果Q4量化的话只有10G左右,Q8大概22G。好一点的显卡就能本地用了 项目地址: 预览#反编译#LLM4Decompile#人工智能
karminski-牙医2025-02-02 08:14:53深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大? 重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。 根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s #DeepSeek-R1#华为昇腾#AI加速卡
karminski-牙医2025-01-28 04:18:03来了嗷!全网首测!DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro!这个模型的特点是将文生图和图生文合二为一了! 我觉得这个模型更多是方向上的验证,如果验证靠谱就会推出可以投入生产的模型了。 [1/?] #DeepSeek#Janus-Pro#多模态模型
karminski-牙医2025-01-26 16:40:37速报,寄了嗷,NVIDIA Project Digits 内存带宽只有 275GB/s. 意味着跑 70B-int4 速度只能到 6.8 token/s. 如果跑 DeepSeek-R1-Distill-Qwen-32B-Q5_K_M, 大概是 12.5 token/s. 就是个更便宜的 MacMini M4 Pro。 如果信了老黄的说法,用这个跑200B的大模型,一分钟也就能吐出来2句话。 #NVIDIA#内存带宽#DeepSeek-R1-Distill-Qwen
karminski-牙医2025-01-14 01:30:01kotoro-TTS 荣登 TTS Arena 排行榜第一名,录了个视频大家可以看下它中文的语音合成效果。 值得一提的是,这个模型只有 82M,树莓派都能跑。而且是 MIT 协议的。 排行榜地址: 在线测试地址: #kotoro-TTS#语音合成#中文