nicekate

统计数据

114
文章
0
粉丝
0
获赞
773
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
nicekate
1个月前
PaddleOCR-VL 依赖下了,模型下了,突然发现 Mac 上还用不了
#PaddleOCR-VL #Mac #模型 #无法使用 #技术问题
avatar
nicekate
1个月前
喜欢 和菜头 最近文章的配图风格,参考样式让 Gemini 生成了几张
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#和菜头 #文章配图 #Gemini #图像生成 #风格参考
avatar
nicekate
1个月前
Claude Code 新的交互式问题工具挺好,可以多选或单选
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #Code #交互式 #问题工具 #多选/单选
avatar
nicekate
1个月前
喂给 Grok Imagine 一张图,它能为你生成适合视频或幻灯片的动感素材
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#Grok Imagine #动感素材 #视频幻灯片 #AI生成 #图像处理
avatar
nicekate
1个月前
Grok Image 太有意思了,让实拍照片里的文物活了 记得选 有趣模式,生成的视频更动感
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#Grok Image #文物 #有趣模式 #动感 #AI
avatar
nicekate
1个月前
Veo3 生成的儿童故事画面真的好治愈 音效和画面搭配得很完美
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#Veo3 #儿童故事 #治愈 #音画搭配 #积极
avatar
nicekate
1个月前
马斯克说 Grok Imagine 模型升级了,试了下 Grok 官网,视频生成效果相当不错,生成速度快,视频无可见水印,有声音 以下视频都是图片生成视频(没有提示,自动生成视频) 生成后的视频和我发给它的图片一致性保持相当好 物理真实性很好 一些画面 Veo 生成不了,Grok 可以 小问题:视频音效欠佳 瑕不掩瑜,8刀 X 会员性价比很高
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#马斯克 #Grok Imagine #视频生成 #快速 #性价比高
avatar
nicekate
1个月前
在 Augment 里使用 Sonnet 4.5 一次提问调用了 84 tools Sonnet 4.5 运行还是很持久的,在 Augment 调用工具似乎比 GPT-5 更强 不过两个模型都不擅长 AppleScript 脚本编写,要说矮子里拔尖,Sonnet 4.5 更好
#augment #Sonnet 4.5 #tools调用 #AppleScript脚本编写 #模型对比
avatar
nicekate
2个月前
测试了下 GLM-4.6,非常不错,在两项任务上超过 Claude Sonnet 4.5,我对比了3个任务 昨晚10点使用,速度正常,23点就开始卡顿了,无论是 Claude Code、Roo Code 还是 z ai 官网 估计是越来越多外国用户使用了,可能需要限流或尽快扩大算力,才能保证已购买编码套餐用户的使用体验 注:智谱清言速度还OK
#GLM-4.6 #Claude Sonnet 4.5 #智谱清言 #速度卡顿 #用户体验
avatar
nicekate
2个月前
太棒了,智谱升级到 4.6 刚发现,只要是支持 OpenAI 协议 的工具,都可以通过替换请求的 API 链接来接入 GLM-4.6 模型及 GLM 编程套餐 例如: Cursor、ChatWise、Gemini CLI、Cherry 使用 GLM 编程套餐 时,需要配置专属的 Coding API 端点
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#智谱AI #GLM-4.6 #编程套餐 #API接入 #工具升级
avatar
nicekate
2个月前
新视频上线——实测 DeepSeek V3.2‑Exp PK Qwen 3 Max 测试包括信息可视化(《人类简史》《黑客与画家》) 翻译与诗歌生成、面向儿童的科普、指令鲁棒性、安全与拒绝策略、“大海捞针”检索、零售经营分析 V3.2‑Exp 的突破不仅是“降本增效”,更为行业提供了通过架构升级提升效率的可行路径 完整视频:🧵
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek V3.2-Exp #Qwen 3 Max #AI模型评测 #架构升级 #降本增效
avatar
nicekate
2个月前
Claude Sonnet 4.5 把中文标点又变成了 半角符号,啊啊啊,有其他人也遇到这样情况吗
#Claude Sonnet 4.5 #中文标点 #半角符号 #bug #用户抱怨
avatar
nicekate
2个月前
目前 Qwen Code 更好用了,工具调用成功率较高,识别图片后自动转图片模型,之后再自动回到 Coder 模型
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#Qwen Code #工具调用 #图片模型 #Coder 模型 #成功率较高
avatar
nicekate
2个月前
夜晚,来点 Radio 的音乐,两个机器都有 FM 经典机器:山进 SR35、索尼 NWZ-B183F
#FM Radio #山进 SR35 #索尼 NWZ-B183F #音乐 #经典机器
avatar
nicekate
2个月前
LM Studio 用上免费的 duckduckgo 插件后,如虎添翼 图2-校对后 图3-校对前
#LM Studio #duckduckgo插件 #免费 #效率提升 #校对功能
avatar
nicekate
2个月前
不是替代,是分工:IDE 里沉浸写码用 Augment Code VS Code 插件 需要自动审查/日志清洗/告警分流,用 Auggie CLI 点开视频,少走弯路👇🧵
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Augment Code #VS Code插件 #Auggie CLI #IDE #代码
avatar
nicekate
2个月前
用上了 Recraft 的 chat 模式,很大的感受是速度很快,它的文字回复很简洁,很适合设计前get灵感
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Recraft #chat模式 #设计灵感 #速度快 #简洁
avatar
nicekate
2个月前
Qwen3-Omni 不降智还超越,太牛了 Qwen3-Omni 技术报告写道: Qwen3-Omni-30B-A3B-Instruct 对比 Qwen3-235B-A22B 前者在 GPQA、AIME25、ZebraLogic、WritingBench 上超越后者更大的模型 多模态训练反而提升了语言能力
#Qwen3-Omni #AI模型 #技术突破 #多模态训练 #性能超越
avatar
nicekate
2个月前
Qwen 开源 Qwen3-Omni-30B-A3B-Captioner,不明白这里的 Captioner 是什么意思,让 GPT 解释了下 Captioner”指的是“音频描述生成器”——一种专门做音频描述(audio captioning)的模型:输入任意一段音频,模型用自然语言生成对声音场景的细致描述,而不是逐字把人声转成文本 举个例子: 给模型一段街头录音,ASR会输出“有人说:‘往左走’”; 而Captioner会输出“傍晚的繁忙街道上,车辆驶过伴随间歇的喇叭声,远处有人交谈”。
#Qwen3-Omni-30B-A3B-Captioner #音频描述生成器 #audio captioning #声音场景描述 #自然语言生成
avatar
nicekate
2个月前
提问:Grok 4 Fast 和 DeepSeek-V3.1-Terminus,搜索他们在不同基准上的对比,生成表格,还有价格的对比 结果:两个模型在这个问题都回答不好 图1-图2是我将链接和图片信息直接发给 Grok 4 Fast,几次修改后的结果 图3 是Grok 4 Fast生成的错误信息 图4 是DeepSeek-V3.1-Terminus生成的
#Grok 4 Fast #DeepSeek-V3.1-Terminus #模型对比 #回答错误 #基准测试
avatar
nicekate
2个月前
OpenBMB 推出 VoxCPM-0.5B,试了下,中文语音生成 还不错,读数字也准确,他们给出的性能图里有多个不同语音模型的表现,推荐看下 注: Seed-TTS-eval 用哪些指标? - WER(Word Error Rate,↓越低越好):把合成语音用 ASR 转回文本,与目标文本比对得到词错率;英文用 Whisper-large-v3,中文用 Paraformer-zh 做 ASR。 - SIM(Speaker Similarity,↑越高越好):用 WavLM-large(说话人验证微调版) 提取说话人嵌入,计算合成语音与参考语音的余弦相似度。 CV3-eval 用哪些指标? - 内容一致性:CER/WER(↓) 依据语种选 CER(中文常用)或 WER(英文常用);ASR 引擎为 Whisper-large-v3(英) 和 Paraformer(中)。 - 说话人相似度:SIM(↑) 用 ERes2Net 说话人验证模型提取嵌入,计算与参考语音的余弦相似度。 - 音频质量:DNSMOS(↑) 用 DNSMOS 网络打分,无参考评估与人听感高度相关。 此外,CV3-eval 还包含情感克隆子集(用情感分类器做情感准确率)以及若干主观 MOS 测试集,但核心客观三项是 CER/WER、SIM、DNSMOS。 小结: WER/CER:越低越清晰、越“读对字”。 SIM:越高越像参考说话人。 DNSMOS:越高越干净、音质越好(常见范围约 1–5 分)。
#OpenBMB #VoxCPM-0.5B #中文语音生成 #语音模型性能 #语音评估指标
avatar
nicekate
2个月前
终于能用上 Chrome 里的 Gemini 了,期待几个月了,支持文字对话,语音对话 chrome://settings/ai/gemini 可以设置更多
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#CHROME #Gemini #文字对话 #语音对话 #AI
avatar
nicekate
2个月前
lovart 目前也可以免费使用 Nanobanana 和 即梦4.0 而且它的 Agent 功能比即梦 AI 更强
#Lovart #nanobanana #即梦4.0 #Agent功能 #AI
avatar
nicekate
2个月前
即梦 4.0 连续生图功能也太好用了吧 提示词最后---生成5张图片,而不是1张图片
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#即梦4.0 #连续生图 #AI #图像生成 #积极
avatar
nicekate
2个月前
即梦 4.0 4K 出图相当可以,生成多格漫画,1 张图裁切可以当 4 张图用,一致性也很好,文字也都对,词意理解和文字排版、字体稍有问题,但已经相当好了 提示词: 分镜1:竹林小屋,少年持剑望月,对话框文字:“师父,妖兽又来了!”(楷体,墨色,毛笔质感) 分镜2:竹林深处,少年与白狐并肩,白狐爪中托着发光符文,对话框文字:“信我,能破阵!”(行书,青色,半透明) 分镜3:山洞阵法,符文环绕少年,对话框文字:“天地共鸣,起!”(篆体,金色,微光效果) 分镜4:破阵后朝阳升起,少年与白狐背影,对话框文字:“守护这片山林,直到永远。”(隶书,暖橙,背景光晕) 风格:中国水墨+现代漫画,角色衣着细节一致,所有中文文字清晰工整。 (白狐爪而不是少年的手)
#即梦4.0 #4K出图 #多格漫画 #中国水墨风 #少年与白狐
© 2025 news.news. All rights reserved. 0.04054 秒. v1.0.46
我的评论