Gorden Sun

统计数据

475
文章
0
粉丝
0
获赞
3015
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Gorden Sun
4个月前
资讯日报,7月27日:
#资讯日报 #7月27日
avatar
Gorden Sun
4个月前
Zread:智谱的Github Wiki 类似DeepWiki,AI整理了Github仓库的内容,可以快速上手、了解架构。相比DeepWiki,优点是原生就有中英双语,对国人更友好。 使用地址:
#智谱 #Github Wiki #AI整理 #中英双语 #知识库
avatar
Gorden Sun
4个月前
こうすればうまくいくのに。 #タコピーの原罪 #タコピー
#タコピーの原罪
avatar
Gorden Sun
4个月前
资讯日报,7月26日:
#资讯日报 #7月26日
avatar
Gorden Sun
4个月前
3Blue1Brown发布了一个介绍Diffusion模型原理的视频 用图形化和简单易懂的方式,介绍了AI绘画和AI视频背后的扩散模型的原理,包括CLIP、Shared Embedding Space、Diffusion Models & DDPM、Prompt等内容,普通人也能看懂。 YouTube:
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
#3Blue1Brown #Diffusion模型 #AI绘画 #AI视频 #科普
avatar
Gorden Sun
4个月前
Coze开源,肯定是好事,只不过开源的稍微有点别扭。 字节内部,Coze肯定已经变成两个版本了,原Coze的版本和这次开源的社区版。社区版跟抖音相关的功能不开源是正常的,为啥语音输入输出、项目级别的触发器、应用发布记录这种功能也不开源。 另外可以说整体说面向的是国内商家用户,毕竟代码里注释都是中文的。我比较好奇,具体哪种类型的公司会部署Coze,原来国内用Dify的那些么?
#Coze开源 #字节跳动 #Dify #国内商家 #中文注释
avatar
Gorden Sun
4个月前
资讯日报,7月25日:
#资讯日报 #7月25日
avatar
Gorden Sun
4个月前
Seed LiveInterpret 2.0:同声传译模型 字节发布的新版本同声传译模型,延迟非常低,自动克隆人声,支持中英互译。试了一下效果整体不错,翻译效果肯定没问题,首句话的延迟稍高,开始后速度没问题,人声音质稍差。 在线体验: 论文:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Seed LiveInterpret 2.0 #同声传译模型 #字节跳动 #中英互译 #人声克隆
avatar
Gorden Sun
4个月前
Midjourney生成视频,新增了首尾帧功能,且支持生成循环视频。效果挺好。
AI视频井喷:Midjourney领跑,多模态混战· 337 条信息
avatar
Gorden Sun
4个月前
ThinkSound:视频生成声音 实际支持视频、文本、音频生成和编辑音频,适用于给视频配音效,效果还可以。个人感觉不如MMAudio。 项目地址: Github: 在线体验:
#ThinkSound #视频生成声音 #视频配音效 #音频编辑 #AI
avatar
Gorden Sun
4个月前
资讯日报,7月23日:
avatar
Gorden Sun
4个月前
使用SDXL实现类似Flux Kontext的图片编辑效果 需要稍微复杂的workflow,但是方法很妙。 第一步:准备要编辑的图片,把它放在一张空白图的右一半 第二步:添加一个遮罩,控制生成图片时只在左一半生成 第三步:使用图生图功能,到此就实现了保持角色一致的编辑,但是左侧的是镜像图。提示词:(split screen, multiple views, reference sheet:1.1), 1girl, [:arm up:0.2] 第四步:如果把要编辑的图片,同时用作图片参考,那么就能纠正镜像,实现类似Kontext的编辑图片效果。 效果和便捷度都比不上Kontext上,但确实是SDXL老树新发芽的余热。 原贴:
#SDXL #图片编辑 #FLUX kontext #图生图 #镜像纠正
avatar
Gorden Sun
4个月前
资讯日报,7月22日:
#AI乱象不止:内容注水,隐私堪忧· 206 条信息
avatar
Gorden Sun
4个月前
谷歌在AI Studio里上线了一个小应用,利用Gemini Flash 2.5的图片识别能力,识别出图片中的指定物体,并标记出来。也可以自己开发部署,提供了原始的prompt供使用。 官方介绍: 在线使用:
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Gemini Flash 2.5 #图片识别 #AI Studio #谷歌 #物体标记
avatar
Gorden Sun
4个月前
OpenMed:开源顶级NER模型 开源、免费、效果超过付费模型,造福人类的模型。NER模型是用于结构化提取关键信息的模型,可以把关键的医疗术语从句子中提取出来,尤其能识别医疗领域才会出现的词汇(p53 gene这种)。AI要想参与医疗诊断,这是起始必经的第一步。相比于LLM,OpenMed开源的NER模型参数极其微小,且准确率高到接近100%。 OpenMed覆盖医疗场景齐全,文档规范、工程化完备,低门槛就能上手,医疗领域+可商用协议+完备的细节,可以让各个国家的医疗模型都有落地的基础设施,所以说是造福人类的模型。 官方介绍: 模型:
#开源NER模型 #医疗术语提取 #OpenMed #AI医疗诊断 #低门槛可商用
avatar
Gorden Sun
4个月前
我认为是字节的豆包。 Gemini认为是月之暗面; ChatGPT认为是OpenAI,告诉他是中国公司后猜是百度; Grok认为是xAI,告诉他是中国公司后猜是DeepSeek; Claude拒绝明确回答;
#豆包 #月之暗面 #OpenAI #DeepSeek
avatar
Gorden Sun
4个月前
资讯日报,7月21日:
#AI乱象不止:内容注水,隐私堪忧· 206 条信息
avatar
Gorden Sun
4个月前
JDGenie:京东开源的通用智能体 完整的多Agent框架,开箱即用,轻量,不依赖于云平台。在GAIA榜单准确率达到75.15%,超过OpenManus、OWL、AutoAgent等产品。 Github:
#JDGenie #多Agent框架 #开源 #智能体 #GAIA榜单
avatar
Gorden Sun
4个月前
我是如何免费、快速给视频制作字幕的 方法1:Gemini 流程:Gemini识别音频/视频,手动创建.srt文件,复制粘贴进去,然后导入剪映使用。 使用我这个提示词,在AI Studio里选择Gemini Flash 2.5,效果好到不需要开Think模式就能准确出结果,速度快的很。 提示词: 识别我上传的音频/视频里的文字,并提供可快速复制的srt格式的字幕文本,每句字幕必须使用 hh:mm:ss,xxx --> hh:mm:ss,xxx 的时间标记,尤其是每句字幕的截止时间也务必遵循格式。中文必须使用简体中文,不能出现繁体字。 以下是一段示例字幕,用作格式参考: 1 00:00:00,347 --> 00:00:07,037 有一个问题其实就是,以后现在和过去哪个其实是最重要的, 2 00:00:07,037 --> 00:00:11,107 那我觉得是过去创造了现在,现在来决定未来, 3 00:00:11,107 --> 00:00:17,217 那我觉得说我们能够把握的其实只有现在。 方法2:剪映老版本 Mac端的5.9.0的老版本剪映,还能免费用字幕识别功能,不知道还能用多久,随缘用吧。
#视频字幕 #Gemini #剪映 #免费 #AI Studio
avatar
Gorden Sun
4个月前
资讯日报,7月20日:
avatar
Gorden Sun
4个月前
资讯日报,7月19日:
avatar
Gorden Sun
4个月前
资讯日报,7月18日:
avatar
Gorden Sun
4个月前
Seed-X:专门用于翻译的小模型 字节开源Seed-X,专门用于翻译的小模型,仅7B大小,在人类评分中,翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是,训练过程特意去掉了STEM、代码、推理的相关数据,特别专注于翻译任务。 模型:
#Seed-X #翻译模型 #字节跳动 #开源 #小模型
avatar
Gorden Sun
4个月前
跟ElevenLabs生成的对话相比,豆包播客和NotebookLM生成的音频还是太机械了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#elevenlabs #豆包播客 #NotebookLM #音频生成 #机械感
avatar
Gorden Sun
4个月前
资讯日报,7月17日:
...
© 2025 news.news. All rights reserved. 0.0558 秒. v1.0.46
我的评论