时政
财经
科技
虚拟货币
其他
登录
Gorden Sun
关注
统计数据
410
文章
0
粉丝
0
获赞
2928
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Gorden Sun
3个月前
Cohere发布Command A Vision 视觉多模态模型,评分超过GPT 4.1,开源但不可商用。 模型:
#Cohere
#Command A Vision
#多模态模型
#GPT 4.1
#开源
分享
评论 0
0
Gorden Sun
3个月前
类似扩散模型的Deep Research框架 谷歌发布的论文,把生成研究报告的过程概念化成一个扩散过程,生成的过程就是去噪的过程。 先生成一份初稿,类似扩散模型可以更新,作为指导下一步的基础。然后每一步都基于上一步的结果,整合外部信息更新报告,直到生成最终的结果。 论文:
谷歌Deep Research:AI操作系统雏形?· 126 条信息
#扩散模型
#Deep Research
#谷歌
#研究报告生成
#去噪过程
分享
评论 0
0
Gorden Sun
3个月前
超薄3D MR眼镜实现 一篇发表在自然上的论文,使用波导全息技术和AI驱动的全息算法,实现在超薄的眼镜硬件上显示3D MR效果。后续代码会开源。 项目地址: 论文:
#超薄3D MR眼镜
#波导全息技术
#AI驱动全息算法
#开源
#自然
分享
评论 0
0
Gorden Sun
3个月前
--sref 864764428 Midjourney的这个风格参考,可以生成一只手在画铅笔画,然后用Flux Kontext编辑图片去掉主体只保留手,然后把这两张图用作首尾帧,即可生成一只手画铅笔画的全过程。
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
#midjourney
#风格参考
#铅笔画
#FLUX kontext
#图片编辑
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月29日:
#资讯日报
#7月29日
分享
评论 0
0
Gorden Sun
3个月前
我感觉Wan 2.2没什么明显提升啊?就是用MoE提升了生成速度么?
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Wan 2.2
#MoE
#生成速度
#性能提升
#疑问
分享
评论 0
0
Gorden Sun
3个月前
微软给Edge浏览器增加了Copilot Mode,可以把Edge变成AI浏览器,支持多标签页总结,自动操作等功能,基本跟Fellou一致。
#Edge浏览器
#Copilot Mode
#AI浏览器
#多标签页总结
#自动操作
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月28日:
#资讯日报
#7月28日
分享
评论 0
0
Gorden Sun
3个月前
模型架构的AlphaGo时刻 上海交大发布的论文,这篇论文提出并证明了一个观点:AI能够自主发现新的创新架构,并写出代码实现和验证性能。他们设计的模型ASI-Arch,在超过 2万个 GPU 小时的时间内进行了 1773 次自主实验,发现了 106 个创新的、更好的线性注意力架构。 论文:
#AI
#模型架构
#AlphaGo时刻
#上海交大
#ASI-Arch
分享
评论 0
0
Gorden Sun
3个月前
周末又研究了一下HRM(分层推理模型),这个模型的特点是模仿人类大脑的信息处理机制,高层模块推理慢负责规划,低层模块推理快负责计算。 初始状态时,高层模块和低层模块的参与率相似,在经过1000个样本的学习(训练)后,高层模块的参与率明显高于低层模块,也就是说HRM的分层智能并非由设计者硬编码,而是在学习过程中“涌现”出的特性。 一个设想:因为HRM只有0.027B的大小,训练新能力也只需要1000个样本,也许可以发展成大模型的工具来用。现在的LLM的tool use/function cal都是调用已有的API和工具,针对特定领域的推理性任务,可以收集1000个样本快速训练出一个HRM模型,然后当做工具来用,这种方式理论上没有天花板。 HRM论文: Github:
#HRM
#分层推理模型
#大模型工具
#涌现
#小样本学习
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月27日:
#资讯日报
#7月27日
分享
评论 0
0
Gorden Sun
3个月前
Zread:智谱的Github Wiki 类似DeepWiki,AI整理了Github仓库的内容,可以快速上手、了解架构。相比DeepWiki,优点是原生就有中英双语,对国人更友好。 使用地址:
#智谱
#Github Wiki
#AI整理
#中英双语
#知识库
分享
评论 0
0
Gorden Sun
3个月前
こうすればうまくいくのに。 #タコピーの原罪 #タコピー
#タコピーの原罪
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月26日:
#资讯日报
#7月26日
分享
评论 0
0
Gorden Sun
3个月前
3Blue1Brown发布了一个介绍Diffusion模型原理的视频 用图形化和简单易懂的方式,介绍了AI绘画和AI视频背后的扩散模型的原理,包括CLIP、Shared Embedding Space、Diffusion Models & DDPM、Prompt等内容,普通人也能看懂。 YouTube:
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
#3Blue1Brown
#Diffusion模型
#AI绘画
#AI视频
#科普
分享
评论 0
0
Gorden Sun
3个月前
Coze开源,肯定是好事,只不过开源的稍微有点别扭。 字节内部,Coze肯定已经变成两个版本了,原Coze的版本和这次开源的社区版。社区版跟抖音相关的功能不开源是正常的,为啥语音输入输出、项目级别的触发器、应用发布记录这种功能也不开源。 另外可以说整体说面向的是国内商家用户,毕竟代码里注释都是中文的。我比较好奇,具体哪种类型的公司会部署Coze,原来国内用Dify的那些么?
#Coze开源
#字节跳动
#Dify
#国内商家
#中文注释
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月25日:
#资讯日报
#7月25日
分享
评论 0
0
Gorden Sun
3个月前
Seed LiveInterpret 2.0:同声传译模型 字节发布的新版本同声传译模型,延迟非常低,自动克隆人声,支持中英互译。试了一下效果整体不错,翻译效果肯定没问题,首句话的延迟稍高,开始后速度没问题,人声音质稍差。 在线体验: 论文:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Seed LiveInterpret 2.0
#同声传译模型
#字节跳动
#中英互译
#人声克隆
分享
评论 0
0
Gorden Sun
3个月前
Midjourney生成视频,新增了首尾帧功能,且支持生成循环视频。效果挺好。
AI视频井喷:Midjourney领跑,多模态混战· 310 条信息
分享
评论 0
0
Gorden Sun
3个月前
ThinkSound:视频生成声音 实际支持视频、文本、音频生成和编辑音频,适用于给视频配音效,效果还可以。个人感觉不如MMAudio。 项目地址: Github: 在线体验:
#ThinkSound
#视频生成声音
#视频配音效
#音频编辑
#AI
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月23日:
分享
评论 0
0
Gorden Sun
3个月前
使用SDXL实现类似Flux Kontext的图片编辑效果 需要稍微复杂的workflow,但是方法很妙。 第一步:准备要编辑的图片,把它放在一张空白图的右一半 第二步:添加一个遮罩,控制生成图片时只在左一半生成 第三步:使用图生图功能,到此就实现了保持角色一致的编辑,但是左侧的是镜像图。提示词:(split screen, multiple views, reference sheet:1.1), 1girl, [:arm up:0.2] 第四步:如果把要编辑的图片,同时用作图片参考,那么就能纠正镜像,实现类似Kontext的编辑图片效果。 效果和便捷度都比不上Kontext上,但确实是SDXL老树新发芽的余热。 原贴:
#SDXL
#图片编辑
#FLUX kontext
#图生图
#镜像纠正
分享
评论 0
0
Gorden Sun
3个月前
资讯日报,7月22日:
#AI乱象不止:内容注水,隐私堪忧· 202 条信息
分享
评论 0
0
Gorden Sun
3个月前
谷歌在AI Studio里上线了一个小应用,利用Gemini Flash 2.5的图片识别能力,识别出图片中的指定物体,并标记出来。也可以自己开发部署,提供了原始的prompt供使用。 官方介绍: 在线使用:
Google Gemini 2.5发布引发AI模型性价比热议· 282 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 657 条信息
#Gemini Flash 2.5
#图片识别
#AI Studio
#谷歌
#物体标记
分享
评论 0
0
Gorden Sun
3个月前
OpenMed:开源顶级NER模型 开源、免费、效果超过付费模型,造福人类的模型。NER模型是用于结构化提取关键信息的模型,可以把关键的医疗术语从句子中提取出来,尤其能识别医疗领域才会出现的词汇(p53 gene这种)。AI要想参与医疗诊断,这是起始必经的第一步。相比于LLM,OpenMed开源的NER模型参数极其微小,且准确率高到接近100%。 OpenMed覆盖医疗场景齐全,文档规范、工程化完备,低门槛就能上手,医疗领域+可商用协议+完备的细节,可以让各个国家的医疗模型都有落地的基础设施,所以说是造福人类的模型。 官方介绍: 模型:
#开源NER模型
#医疗术语提取
#OpenMed
#AI医疗诊断
#低门槛可商用
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞