Gorden Sun

统计数据

818
文章
0
粉丝
0
获赞
51556
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Gorden Sun
2个月前
可灵的动作控制效果确实不错,大幅度动作也没问题(Wan 2.2 Animate大动作不够好),就是有点太贵了。
avatar
Gorden Sun
2个月前
AI资讯日报,1月19日:
avatar
Gorden Sun
2个月前
都说AI替代程序员,但我还是第一次遇到真实替代的情况。
avatar
Gorden Sun
2个月前
DroPE:扩展LLM上下文的方法 在预训练后移除位置嵌入并进行短期校准,实现上下文窗口的无缝扩展。保持基准性能,显著优于RoPE方法,在7B模型上得到了有效验证。 Github: 论文:
avatar
Gorden Sun
2个月前
Mistral开源Ministral 3系列模型 都是适合本地跑的小模型,分3B、8B、14B三个大小,14B大小有推理模型,所有模型都有视觉能力,能分析图片。14B的能力不错,评分比Qwen 14B要高。 模型:
avatar
Gorden Sun
2个月前
AI资讯日报,1月18日:
avatar
Gorden Sun
2个月前
browser use开源bu-agent-sdk browser use发布的通用Agent已经开放使用了,使用地址:,效果还可以。 同时开源了背后的SDK:bu-agent-sdk,本质是一个调用工具的for循环,支持多家LLM API。 Github:
avatar
Gorden Sun
2个月前
一个AI做动作的思路 在上找动作,然后提出的思路,让Gemini 3 Pro写出完整的提示词,最后再用Banana出图。
avatar
Gorden Sun
2个月前
AI资讯日报,1月17日:
avatar
Gorden Sun
2个月前
谷歌开源MedGemma 1.5 1.0版本的升级版,专门用于医疗领域的多模态LLM,特点是能解读医疗影像,目前只开源了4B版本。 模型:
avatar
Gorden Sun
2个月前
AI资讯日报,1月16日:
avatar
Gorden Sun
2个月前
Black Forest Labs开源FLUX.2 [klein] 分4B和9B两个大小,特点是出图速度极快,效果也非常好,支持编辑图片。4B可商用,9B不可商用。 在线使用(安全校验极其严格): 官方介绍: 模型: 图片时我生成的效果,图1是原图,图2是修改为3D卡通风格。
avatar
Gorden Sun
2个月前
谷歌开源TranslateGemma:高效的翻译模型 基于Gemma3训练,训练数据来自人类数据和Gemini合成的数据,分4B、12B、27B三个尺寸。 最大的特点是高效,12B模型可以达到原来27B的翻译准确率,而且保留了Gemma3的视觉能力,能翻译图片。 官方介绍: 模型:
avatar
Gorden Sun
2个月前
Step-Audio-R1.1:实时语音对话模型 阶跃开源,能一边对话一边思考的模型,延迟比较低,评分显著高于其他实时语音模型。采用双脑架构,一个大脑专门推理,一个大脑专门生成语音。 模型:
avatar
Gorden Sun
2个月前
AI资讯日报,1月15日:
avatar
Gorden Sun
2个月前
json-render:AI生成可控UI样式 Vercel开源的框架,预先定义好UI样式组件,AI只能使用这些定义好的UI组件,从而控制生成效果,且可以流式渲染。组件可以是不同曾经的内容,基础的例如按钮、输入框,复杂的例如卡片、播放器样式。 Github:
avatar
Gorden Sun
2个月前
千问接入的生态:淘宝、支付宝、闪购、飞猪,能给你点外卖。 谷歌Personal Intelligence接入的生态:Gmail、谷歌相册、YouTube,你要买轮胎他能根据你相册里车的照片给你提供合适的型号,你要读书他能根据你的YouTube记录推荐你感兴趣的书,给谷歌开的隐私权限越大,AI越懂你。 生态差距太大了。
avatar
Gorden Sun
2个月前
阶跃开源视觉多模态模型Step3-VL-10B 评分很高,除了Qwen之外,又多了一个开源视觉模型的选择。 模型:
avatar
Gorden Sun
2个月前
AI资讯日报,1月14日:、
avatar
Gorden Sun
2个月前
Yolo26:最新的实时物体检测和分割 Ultralytics发布了Yolo26,以后也跟苹果一样,按年份来给版本命名了。在实时检测、实时分割方面是最佳的模型。 Github:
avatar
Gorden Sun
2个月前
GLM-Image还可以,部分能力达到了Nano Banana一代的水平,整体是稍弱于即梦4.0和Banana一代,但重点是,这是完全开源的模型。 图片转手办效果可以,能写几句话的中文不出错,语义理解也不错。 模型:
avatar
Gorden Sun
2个月前
AI资讯日报,1月13日:
avatar
Gorden Sun
2个月前
Baichuan-M3:百川开源的医疗模型 基于Qwen3-235B-A22B微调,幻觉率低。 模型:
avatar
Gorden Sun
2个月前
Vercel开源agent-browser 专门给CLI Agent(基于命令行的Agent,例如Claude Code、Codex)使用的浏览器自动化Agent,使用无头浏览器,能实现浏览器内查找、操作、管理状态等操作,可以实现自动化网页操作,但是实际使用需要考虑账号风控的问题。 Github:
avatar
Gorden Sun
2个月前
我对DeepSeek V4的期待是代码和Agent能力超过Sonnet 4.5,接近Opus 4.5,然后国内进入百Agent大战时代,生产力又又又提升。 提前攒好一个Agent,等DeepSeek V4上线后,把API从Claude切到DeepSeek,彻底成功!
...
© 2025 news.news. All rights reserved. 0.05788 秒. v1.0.46
我的评论