Gorden Sun

统计数据

818

文章

0

粉丝

0

获赞

51556

阅读

2个月前

可灵的动作控制效果确实不错，大幅度动作也没问题（Wan 2.2 Animate大动作不够好），就是有点太贵了。

2个月前

AI资讯日报，1月19日：

2个月前

都说AI替代程序员，但我还是第一次遇到真实替代的情况。

2个月前

DroPE：扩展LLM上下文的方法在预训练后移除位置嵌入并进行短期校准，实现上下文窗口的无缝扩展。保持基准性能，显著优于RoPE方法，在7B模型上得到了有效验证。 Github：论文：

2个月前

Mistral开源Ministral 3系列模型都是适合本地跑的小模型，分3B、8B、14B三个大小，14B大小有推理模型，所有模型都有视觉能力，能分析图片。14B的能力不错，评分比Qwen 14B要高。模型：

2个月前

AI资讯日报，1月18日：

2个月前

browser use开源bu-agent-sdk browser use发布的通用Agent已经开放使用了，使用地址：，效果还可以。同时开源了背后的SDK：bu-agent-sdk，本质是一个调用工具的for循环，支持多家LLM API。 Github：

2个月前

一个AI做动作的思路在上找动作，然后提出的思路，让Gemini 3 Pro写出完整的提示词，最后再用Banana出图。

2个月前

AI资讯日报，1月17日：

2个月前

谷歌开源MedGemma 1.5 1.0版本的升级版，专门用于医疗领域的多模态LLM，特点是能解读医疗影像，目前只开源了4B版本。模型：

2个月前

AI资讯日报，1月16日：

2个月前

Black Forest Labs开源FLUX.2 [klein] 分4B和9B两个大小，特点是出图速度极快，效果也非常好，支持编辑图片。4B可商用，9B不可商用。在线使用（安全校验极其严格）：官方介绍：模型：图片时我生成的效果，图1是原图，图2是修改为3D卡通风格。

2个月前

谷歌开源TranslateGemma：高效的翻译模型基于Gemma3训练，训练数据来自人类数据和Gemini合成的数据，分4B、12B、27B三个尺寸。最大的特点是高效，12B模型可以达到原来27B的翻译准确率，而且保留了Gemma3的视觉能力，能翻译图片。官方介绍：模型：

2个月前

Step-Audio-R1.1：实时语音对话模型阶跃开源，能一边对话一边思考的模型，延迟比较低，评分显著高于其他实时语音模型。采用双脑架构，一个大脑专门推理，一个大脑专门生成语音。模型：

2个月前

AI资讯日报，1月15日：

2个月前

json-render：AI生成可控UI样式 Vercel开源的框架，预先定义好UI样式组件，AI只能使用这些定义好的UI组件，从而控制生成效果，且可以流式渲染。组件可以是不同曾经的内容，基础的例如按钮、输入框，复杂的例如卡片、播放器样式。 Github：

2个月前

千问接入的生态：淘宝、支付宝、闪购、飞猪，能给你点外卖。谷歌Personal Intelligence接入的生态：Gmail、谷歌相册、YouTube，你要买轮胎他能根据你相册里车的照片给你提供合适的型号，你要读书他能根据你的YouTube记录推荐你感兴趣的书，给谷歌开的隐私权限越大，AI越懂你。生态差距太大了。

2个月前

阶跃开源视觉多模态模型Step3-VL-10B 评分很高，除了Qwen之外，又多了一个开源视觉模型的选择。模型：

2个月前

AI资讯日报，1月14日：、

2个月前

Yolo26：最新的实时物体检测和分割 Ultralytics发布了Yolo26，以后也跟苹果一样，按年份来给版本命名了。在实时检测、实时分割方面是最佳的模型。 Github：

2个月前

GLM-Image还可以，部分能力达到了Nano Banana一代的水平，整体是稍弱于即梦4.0和Banana一代，但重点是，这是完全开源的模型。图片转手办效果可以，能写几句话的中文不出错，语义理解也不错。模型：

2个月前

AI资讯日报，1月13日：

2个月前

Baichuan-M3：百川开源的医疗模型基于Qwen3-235B-A22B微调，幻觉率低。模型：

2个月前

Vercel开源agent-browser 专门给CLI Agent（基于命令行的Agent，例如Claude Code、Codex）使用的浏览器自动化Agent，使用无头浏览器，能实现浏览器内查找、操作、管理状态等操作，可以实现自动化网页操作，但是实际使用需要考虑账号风控的问题。 Github：

2个月前

我对DeepSeek V4的期待是代码和Agent能力超过Sonnet 4.5，接近Opus 4.5，然后国内进入百Agent大战时代，生产力又又又提升。提前攒好一个Agent，等DeepSeek V4上线后，把API从Claude切到DeepSeek，彻底成功！

...