karminski-牙医

统计数据

94

文章

0

粉丝

0

获赞

592

阅读

karminski-牙医

7个月前

刚看到的侧面消息，Meta 的 AI 负责人已经离职了，可能是由于 llama-4 搞不出来目前 llama-4 面临的压力我们来数一数，首先它肯定不能大于 120B，甚至最好还是维持在 70B，然后要超越 Qwen2.5-QwQ，Gemma3-27B 的水平，然后还要面临马上 Google 的新编码模型, DeepSeek-R2, Qwen-3 的冲击.... 不过我还是希望开源模型会多一些的... 去年 Llama 用的真的很爽，然后 DeepSeek-V3 一出，就没 Llama 啥事情了...

#Meta #AI #离职 #llama-4 #Qwen #Gemma #Google #开源模型

karminski-牙医

7个月前

今年的确是 AI Agent 爆发年，MacOS Agent 来了！—— Cua 简单来讲这个程序可以在 Mac 上开一个虚拟机，然后提供 cua-agent 让 AI 能够操作虚拟机中的 Mac 系统。详细可以直接看视频，不但能操作系统，还能使用内部的程序比如浏览器， VSCode 等等。到目前为止，windows，MacOS，Linux 的 Agent 都有了，操作系统 Agent 已经补齐了。地址：

#AI Agent #MacOS Agent #虚拟机 #cua-agent #操作系统 #技术进展 #自动化 #虚拟操作

karminski-牙医

8个月前

给大家带来全网最速 DeepSeek-V3-0324 写代码实测！直接说结论—— 超越 DeepSeek-R1！甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型！ DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1)，仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。四项评测中（放不下的图我放评论区）： 20 小球碰撞测试 (图2)，肉眼可见的进步，之前 DeepSeek-V3 的小球挤成一团，现在物理运动模拟得非常好，仅因掉出了7边形扣了5分，项目排名第5 (图3) mandelbrot-set-meet-libai 测试 (图4)，没有过多变化，分数较DeepSeek-V3 低了2分，主要还是将渲染方向搞反了以至于拖累了渲染性能，但是完成度可以看到比之前高很多。项目排名第12 （图5）火星任务测试（图6），巨大的提升，这次星球，图例均渲染正确，甚至发射和返回窗口计算也有很大进步！项目排名第3 （图7）九大行星模拟测试（图8），这个是史诗级提升，这是测试的25个模型中，唯一一个画了土星环的大模型！（画土星环就如同画时钟要写3，6，9，12. 画苹果要有个梗一样）项目排名第16，主要还是地球轨道周期没写对（图9）总体而言，DeepSeek-V3-0324 能力十分可怕，甚至这还都不是 DeepSeek-V4，更不是 DeepSeek-R2 ！我现在十分期待 DeepSeek-R2 的发布了！评测是开源的哦，地址： #大模型竞技场

#DeepSeek-V3-0324 #DeepSeek-R1 #Claude-3.7 #Thinking模型 #KCORES #大模型竞技场

karminski-牙医

8个月前

才发现 GPT-SoVITS 发布新版本了，GPT-Sovits V3 TTS 407M，这个新模型提升了语音clone的效果。另外，这个工具+模型是国产的哦，仅仅407M大小的模型，笔记本轻松运行。效果也是非常不错的。有需要的同学可以试试。地址：

#GPT-SoVITS #语音克隆 #国产工具 #GPT-Sovits V3 #TTS模型

karminski-牙医

8个月前

草，我刚看到了Gemini-2.0-Flash-Image-Generation 的最佳使用场景，真的心动了。用 RPG Maker 的 tile set 来制作地图！我生成了几张大家看看效果。真的很好玩！

#Gemini-2.0 #Flash-Image-Generation #RPG-Maker #Tile-Set #地图制作

karminski-牙医

8个月前

看到了个基于 Whisper.cpp 的转录工具SoftWhisper。这个项目可以将音频/视频中的音频转为文字，最大的特点是使用了 Whisper.cpp，所以兼容性非常好，所有平台都能跑。另外性能也很不错，官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比，Whisper API转录 20-30 分钟的音频需要大约 40 分钟。地址：

#Whisper #SoftWhisper #音频转文字 #项目 #Whisper API #转录工具

karminski-牙医

8个月前

刚刚 Google 的开源模型 Gemma 3 发布了！几个关键点： - 这次放出了pt（预训练，Pre-Training）和 it （指令微调，Instruction Tuning）版本，默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的，可以处理图片输入 - 大小分别是1B，4B，12B，27B - 支持 128K 上下文 - MMLU-Pro 评分，Gemma 3-27B-it 得分为 67.5，接近 Gemini 1.5 Pro（75.8） - ChatbotArena 得分 133，超过了更大的 LLaMA 3 405B（1257）和 Qwen2.5-70B（1257） - GGUF量化版本已经放出了，包括Mac专用的mlx版本。地址我放在最下面我正在测了！稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈，注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址： MLX量化版本：

#Google #Gemma 3 #开源模型 #多模态 #预训练 #指令微调

karminski-牙医

8个月前

字节的AI代码编辑器 TRAE 国内版刚刚发布了！地址：

#字节跳动 #AI代码编辑器 #Trae #发布 #科技新闻 #国内版

karminski-牙医

8个月前

卧槽，我刚试了一下这个，SesameAILabs 实现了一个几乎无延迟的AI数字音频模型，应该是我体验过的最强的模型了。我给大家录了个视频，大家可以听听看（一定要开声音，请忽略我的垃圾口语）。同时也建议直接访问试试，体验下延迟（说实话别说延迟了，太快了，连气口都不给我）。 demo 我发下不仅可以顺畅聊天，甚至还有记忆，我跟他聊小米的车，结果我每次重新开始她就问我你的黄色车怎么样了..... 要说缺点，也不是没有，她太多俚语了，我听不懂.... （当然这其实是我的缺点... [苦涩][苦涩][苦涩]）顺便，这个是开源的！分三个大小：1B，3B，8B。本地轻松运行。在线地址：开源项目地址（目前还在准备）： #大模型竞技场

#SesameAILabs #AI数字音频模型 #人工智能 #科技 #小米汽车 #延迟优化

karminski-牙医

9个月前

EA刚刚开源了红警1的源代码。license是GPLv3 地址：

#EA #开源 #红警1 #源代码 #GPLv3

karminski-牙医

9个月前

DeepSeek 开源周的 5 号炸弹来啦！又是集束炸弹！3FS 和 smallpond！我不敢相信DeepSeek甚至颠覆了存储架构...... 我上次为网络文件系统震惊还是HDFS和CEPH. 但这些都是面向磁盘的分布式文件系统. 现在一个真正意义上面向现代SSD和RDMA网络的文件系统诞生了！飞火流星文件系统（3FS）- 一种利用现代 SSD 和 RDMA 网络全带宽的并行文件系统这个文件系统可以在 180 节点集群中达到6.6 TiB/s 总读取吞吐量，每个客户端节点 KVCache 查找峰值吞吐量 40+ GiB。另一个 smallpond（小池塘）是基于 3FS 的数据处理框架！这个框架由 DuckDB 提供的高性能数据处理，可扩展以处理 PB 级数据集！地址：地址： #DeepSeek #deepseek开源周

#DeepSeek #开源周 #集束炸弹 #3FS #smallpond #存储架构 #文件系统 #HDFS #CEPH #磁盘 #分布式文件系统 #SSD #RDMA网络 #飞火流星 #并行文件系统

karminski-牙医

9个月前

DeepSeek 开源周的3号炸弹来啦！DeepGEMM！这是个FP8 通用矩阵乘法库，该库用 CUDA 编写，安装时无需编译，并且内置了JIT（真的牛逼）！官方数据最大性能获得了2.7倍的提升。要知道在早些年高性能的BLAS库可是要收费的，并且卖得很贵。地址： #DeepSeek

#DeepSeek #DeepGEMM #FP8 #矩阵乘法 #CUDA #JIT #高性能计算 #开源 #BLAS

karminski-牙医

9个月前

看到个PDF识别大模型 olmOCR-7B-0225-preview 。我用发票试了一下，感觉效果还可以？这个7B模型是BF16的，量化后估计能在4GB左右？普通电脑也能用。模型地址：在线测试地址： #大模型竞技场

#大模型竞技场 #PDF识别 #olmOCR #量化模型 #BF16

karminski-牙医

9个月前

LLama-4 或许会在4月底之前发布？昨天的消息，meta搞了个 llamaCon 大会，预计在4月29号召开，感觉4月底前应该就能发llama-4了？要不然感觉也没啥可con的.... 地址：

#Llama4 #Meta #发布会 #AI

karminski-牙医

9个月前

分享反编译大模型！LLM4Decompile。反编译工作不需要苦哈哈盯着intel汇编头痛了，这个模型可以将 x86_64二进制程序反编译为C代码我看了下模型大小从1.3B到22B都有，22B如果Q4量化的话只有10G左右，Q8大概22G。好一点的显卡就能本地用了项目地址：

#反编译 #LLM4Decompile #人工智能 #x86_64 #C语言 #二进制 #模型量化 #显卡 #汇编

karminski-牙医

9个月前

深度分析下 DeepSeek-R1 用华为昇腾，推理集群大概多大？重磅消息，昨天的新闻，DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。根据华为官方，Atlas（昇腾） 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用，但关键的内存则使用了LPDDR4X 24 GB，总带宽204.8 GB/s

#DeepSeek-R1 #华为昇腾 #AI加速卡 #Atlas 300I Pro #AI推理 #深度学习 #科技新闻

karminski-牙医

10个月前

来了嗷！全网首测！DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro！这个模型的特点是将文生图和图生文合二为一了！我觉得这个模型更多是方向上的验证，如果验证靠谱就会推出可以投入生产的模型了。 [1/?]

#DeepSeek #Janus-Pro #多模态模型 #文生图 #图生文 #模型验证 #新技术 #人工智能

karminski-牙医

10个月前

速报，寄了嗷，NVIDIA Project Digits 内存带宽只有 275GB/s. 意味着跑 70B-int4 速度只能到 6.8 token/s. 如果跑 DeepSeek-R1-Distill-Qwen-32B-Q5_K_M, 大概是 12.5 token/s. 就是个更便宜的 MacMini M4 Pro。如果信了老黄的说法，用这个跑200B的大模型，一分钟也就能吐出来2句话。

#NVIDIA #内存带宽 #Project DIGITS #DeepSeek-R1-Distill-Qwen #MacMini M4 Pro #大模型

karminski-牙医

10个月前

kotoro-TTS 荣登 TTS Arena 排行榜第一名，录了个视频大家可以看下它中文的语音合成效果。值得一提的是，这个模型只有 82M，树莓派都能跑。而且是 MIT 协议的。排行榜地址：在线测试地址：

#kotoro-TTS #TTS Arena #语音合成 #中文 #模型 #树莓派 #MIT 协议