Gorden Sun

统计数据

410
文章
0
粉丝
0
获赞
2928
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Gorden Sun
3个月前
Cohere发布Command A Vision 视觉多模态模型,评分超过GPT 4.1,开源但不可商用。 模型:
#Cohere #Command A Vision #多模态模型 #GPT 4.1 #开源
avatar
Gorden Sun
3个月前
类似扩散模型的Deep Research框架 谷歌发布的论文,把生成研究报告的过程概念化成一个扩散过程,生成的过程就是去噪的过程。 先生成一份初稿,类似扩散模型可以更新,作为指导下一步的基础。然后每一步都基于上一步的结果,整合外部信息更新报告,直到生成最终的结果。 论文:
谷歌Deep Research:AI操作系统雏形?· 126 条信息
#扩散模型 #Deep Research #谷歌 #研究报告生成 #去噪过程
avatar
Gorden Sun
3个月前
超薄3D MR眼镜实现 一篇发表在自然上的论文,使用波导全息技术和AI驱动的全息算法,实现在超薄的眼镜硬件上显示3D MR效果。后续代码会开源。 项目地址: 论文:
#超薄3D MR眼镜 #波导全息技术 #AI驱动全息算法 #开源 #自然
avatar
Gorden Sun
3个月前
--sref 864764428 Midjourney的这个风格参考,可以生成一只手在画铅笔画,然后用Flux Kontext编辑图片去掉主体只保留手,然后把这两张图用作首尾帧,即可生成一只手画铅笔画的全过程。
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
#midjourney #风格参考 #铅笔画 #FLUX kontext #图片编辑
avatar
Gorden Sun
3个月前
资讯日报,7月29日:
#资讯日报 #7月29日
avatar
Gorden Sun
3个月前
我感觉Wan 2.2没什么明显提升啊?就是用MoE提升了生成速度么?
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Wan 2.2 #MoE #生成速度 #性能提升 #疑问
avatar
Gorden Sun
3个月前
微软给Edge浏览器增加了Copilot Mode,可以把Edge变成AI浏览器,支持多标签页总结,自动操作等功能,基本跟Fellou一致。
#Edge浏览器 #Copilot Mode #AI浏览器 #多标签页总结 #自动操作
avatar
Gorden Sun
3个月前
资讯日报,7月28日:
#资讯日报 #7月28日
avatar
Gorden Sun
3个月前
模型架构的AlphaGo时刻 上海交大发布的论文,这篇论文提出并证明了一个观点:AI能够自主发现新的创新架构,并写出代码实现和验证性能。他们设计的模型ASI-Arch,在超过 2万个 GPU 小时的时间内进行了 1773 次自主实验,发现了 106 个创新的、更好的线性注意力架构。 论文:
#AI #模型架构 #AlphaGo时刻 #上海交大 #ASI-Arch
avatar
Gorden Sun
3个月前
周末又研究了一下HRM(分层推理模型),这个模型的特点是模仿人类大脑的信息处理机制,高层模块推理慢负责规划,低层模块推理快负责计算。 初始状态时,高层模块和低层模块的参与率相似,在经过1000个样本的学习(训练)后,高层模块的参与率明显高于低层模块,也就是说HRM的分层智能并非由设计者硬编码,而是在学习过程中“涌现”出的特性。 一个设想:因为HRM只有0.027B的大小,训练新能力也只需要1000个样本,也许可以发展成大模型的工具来用。现在的LLM的tool use/function cal都是调用已有的API和工具,针对特定领域的推理性任务,可以收集1000个样本快速训练出一个HRM模型,然后当做工具来用,这种方式理论上没有天花板。 HRM论文: Github:
#HRM #分层推理模型 #大模型工具 #涌现 #小样本学习
avatar
Gorden Sun
3个月前
资讯日报,7月27日:
#资讯日报 #7月27日
avatar
Gorden Sun
3个月前
Zread:智谱的Github Wiki 类似DeepWiki,AI整理了Github仓库的内容,可以快速上手、了解架构。相比DeepWiki,优点是原生就有中英双语,对国人更友好。 使用地址:
#智谱 #Github Wiki #AI整理 #中英双语 #知识库
avatar
Gorden Sun
3个月前
こうすればうまくいくのに。 #タコピーの原罪 #タコピー
#タコピーの原罪
avatar
Gorden Sun
3个月前
资讯日报,7月26日:
#资讯日报 #7月26日
avatar
Gorden Sun
3个月前
3Blue1Brown发布了一个介绍Diffusion模型原理的视频 用图形化和简单易懂的方式,介绍了AI绘画和AI视频背后的扩散模型的原理,包括CLIP、Shared Embedding Space、Diffusion Models & DDPM、Prompt等内容,普通人也能看懂。 YouTube:
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
#3Blue1Brown #Diffusion模型 #AI绘画 #AI视频 #科普
avatar
Gorden Sun
3个月前
Coze开源,肯定是好事,只不过开源的稍微有点别扭。 字节内部,Coze肯定已经变成两个版本了,原Coze的版本和这次开源的社区版。社区版跟抖音相关的功能不开源是正常的,为啥语音输入输出、项目级别的触发器、应用发布记录这种功能也不开源。 另外可以说整体说面向的是国内商家用户,毕竟代码里注释都是中文的。我比较好奇,具体哪种类型的公司会部署Coze,原来国内用Dify的那些么?
#Coze开源 #字节跳动 #Dify #国内商家 #中文注释
avatar
Gorden Sun
3个月前
资讯日报,7月25日:
#资讯日报 #7月25日
avatar
Gorden Sun
3个月前
Seed LiveInterpret 2.0:同声传译模型 字节发布的新版本同声传译模型,延迟非常低,自动克隆人声,支持中英互译。试了一下效果整体不错,翻译效果肯定没问题,首句话的延迟稍高,开始后速度没问题,人声音质稍差。 在线体验: 论文:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Seed LiveInterpret 2.0 #同声传译模型 #字节跳动 #中英互译 #人声克隆
avatar
Gorden Sun
3个月前
Midjourney生成视频,新增了首尾帧功能,且支持生成循环视频。效果挺好。
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
avatar
Gorden Sun
3个月前
ThinkSound:视频生成声音 实际支持视频、文本、音频生成和编辑音频,适用于给视频配音效,效果还可以。个人感觉不如MMAudio。 项目地址: Github: 在线体验:
#ThinkSound #视频生成声音 #视频配音效 #音频编辑 #AI
avatar
Gorden Sun
3个月前
资讯日报,7月23日:
avatar
Gorden Sun
3个月前
使用SDXL实现类似Flux Kontext的图片编辑效果 需要稍微复杂的workflow,但是方法很妙。 第一步:准备要编辑的图片,把它放在一张空白图的右一半 第二步:添加一个遮罩,控制生成图片时只在左一半生成 第三步:使用图生图功能,到此就实现了保持角色一致的编辑,但是左侧的是镜像图。提示词:(split screen, multiple views, reference sheet:1.1), 1girl, [:arm up:0.2] 第四步:如果把要编辑的图片,同时用作图片参考,那么就能纠正镜像,实现类似Kontext的编辑图片效果。 效果和便捷度都比不上Kontext上,但确实是SDXL老树新发芽的余热。 原贴:
#SDXL #图片编辑 #FLUX kontext #图生图 #镜像纠正
avatar
Gorden Sun
3个月前
资讯日报,7月22日:
#AI乱象不止:内容注水,隐私堪忧· 202 条信息
avatar
Gorden Sun
3个月前
谷歌在AI Studio里上线了一个小应用,利用Gemini Flash 2.5的图片识别能力,识别出图片中的指定物体,并标记出来。也可以自己开发部署,提供了原始的prompt供使用。 官方介绍: 在线使用:
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Gemini Flash 2.5 #图片识别 #AI Studio #谷歌 #物体标记
avatar
Gorden Sun
3个月前
OpenMed:开源顶级NER模型 开源、免费、效果超过付费模型,造福人类的模型。NER模型是用于结构化提取关键信息的模型,可以把关键的医疗术语从句子中提取出来,尤其能识别医疗领域才会出现的词汇(p53 gene这种)。AI要想参与医疗诊断,这是起始必经的第一步。相比于LLM,OpenMed开源的NER模型参数极其微小,且准确率高到接近100%。 OpenMed覆盖医疗场景齐全,文档规范、工程化完备,低门槛就能上手,医疗领域+可商用协议+完备的细节,可以让各个国家的医疗模型都有落地的基础设施,所以说是造福人类的模型。 官方介绍: 模型:
#开源NER模型 #医疗术语提取 #OpenMed #AI医疗诊断 #低门槛可商用
© 2025 news.news. All rights reserved. 0.06978 秒. v1.0.46
我的评论