时政
财经
科技
虚拟货币
其他
登录
Gorden Sun
关注
统计数据
266
文章
0
粉丝
0
获赞
642
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Gorden Sun
1个月前
ThinkSound:视频生成声音 实际支持视频、文本、音频生成和编辑音频,适用于给视频配音效,效果还可以。个人感觉不如MMAudio。 项目地址: Github: 在线体验:
#ThinkSound
#视频生成声音
#视频配音效
#音频编辑
#AI
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月23日:
分享
评论 0
0
Gorden Sun
1个月前
使用SDXL实现类似Flux Kontext的图片编辑效果 需要稍微复杂的workflow,但是方法很妙。 第一步:准备要编辑的图片,把它放在一张空白图的右一半 第二步:添加一个遮罩,控制生成图片时只在左一半生成 第三步:使用图生图功能,到此就实现了保持角色一致的编辑,但是左侧的是镜像图。提示词:(split screen, multiple views, reference sheet:1.1), 1girl, [:arm up:0.2] 第四步:如果把要编辑的图片,同时用作图片参考,那么就能纠正镜像,实现类似Kontext的编辑图片效果。 效果和便捷度都比不上Kontext上,但确实是SDXL老树新发芽的余热。 原贴:
#SDXL
#图片编辑
#FLUX kontext
#图生图
#镜像纠正
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月22日:
#AI乱象不止:内容注水,隐私堪忧· 173 条信息
分享
评论 0
0
Gorden Sun
1个月前
谷歌在AI Studio里上线了一个小应用,利用Gemini Flash 2.5的图片识别能力,识别出图片中的指定物体,并标记出来。也可以自己开发部署,提供了原始的prompt供使用。 官方介绍: 在线使用:
Google Gemini 2.5发布引发AI模型性价比热议· 171 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 475 条信息
#Gemini Flash 2.5
#图片识别
#AI Studio
#谷歌
#物体标记
分享
评论 0
0
Gorden Sun
1个月前
OpenMed:开源顶级NER模型 开源、免费、效果超过付费模型,造福人类的模型。NER模型是用于结构化提取关键信息的模型,可以把关键的医疗术语从句子中提取出来,尤其能识别医疗领域才会出现的词汇(p53 gene这种)。AI要想参与医疗诊断,这是起始必经的第一步。相比于LLM,OpenMed开源的NER模型参数极其微小,且准确率高到接近100%。 OpenMed覆盖医疗场景齐全,文档规范、工程化完备,低门槛就能上手,医疗领域+可商用协议+完备的细节,可以让各个国家的医疗模型都有落地的基础设施,所以说是造福人类的模型。 官方介绍: 模型:
#开源NER模型
#医疗术语提取
#OpenMed
#AI医疗诊断
#低门槛可商用
分享
评论 0
0
Gorden Sun
1个月前
我认为是字节的豆包。 Gemini认为是月之暗面; ChatGPT认为是OpenAI,告诉他是中国公司后猜是百度; Grok认为是xAI,告诉他是中国公司后猜是DeepSeek; Claude拒绝明确回答;
#豆包
#月之暗面
#OpenAI
#DeepSeek
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月21日:
#AI乱象不止:内容注水,隐私堪忧· 173 条信息
分享
评论 0
0
Gorden Sun
1个月前
JDGenie:京东开源的通用智能体 完整的多Agent框架,开箱即用,轻量,不依赖于云平台。在GAIA榜单准确率达到75.15%,超过OpenManus、OWL、AutoAgent等产品。 Github:
#JDGenie
#多Agent框架
#开源
#智能体
#GAIA榜单
分享
评论 0
0
Gorden Sun
1个月前
我是如何免费、快速给视频制作字幕的 方法1:Gemini 流程:Gemini识别音频/视频,手动创建.srt文件,复制粘贴进去,然后导入剪映使用。 使用我这个提示词,在AI Studio里选择Gemini Flash 2.5,效果好到不需要开Think模式就能准确出结果,速度快的很。 提示词: 识别我上传的音频/视频里的文字,并提供可快速复制的srt格式的字幕文本,每句字幕必须使用 hh:mm:ss,xxx --> hh:mm:ss,xxx 的时间标记,尤其是每句字幕的截止时间也务必遵循格式。中文必须使用简体中文,不能出现繁体字。 以下是一段示例字幕,用作格式参考: 1 00:00:00,347 --> 00:00:07,037 有一个问题其实就是,以后现在和过去哪个其实是最重要的, 2 00:00:07,037 --> 00:00:11,107 那我觉得是过去创造了现在,现在来决定未来, 3 00:00:11,107 --> 00:00:17,217 那我觉得说我们能够把握的其实只有现在。 方法2:剪映老版本 Mac端的5.9.0的老版本剪映,还能免费用字幕识别功能,不知道还能用多久,随缘用吧。
#视频字幕
#Gemini
#剪映
#免费
#AI Studio
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月20日:
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月19日:
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月18日:
分享
评论 0
0
Gorden Sun
1个月前
Seed-X:专门用于翻译的小模型 字节开源Seed-X,专门用于翻译的小模型,仅7B大小,在人类评分中,翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是,训练过程特意去掉了STEM、代码、推理的相关数据,特别专注于翻译任务。 模型:
#Seed-X
#翻译模型
#字节跳动
#开源
#小模型
分享
评论 0
0
Gorden Sun
1个月前
跟ElevenLabs生成的对话相比,豆包播客和NotebookLM生成的音频还是太机械了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 475 条信息
#elevenlabs
#豆包播客
#NotebookLM
#音频生成
#机械感
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月17日:
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月16日:
分享
评论 0
0
Gorden Sun
1个月前
资讯日报,7月15日:
分享
评论 0
0
Gorden Sun
1个月前
Voxtral:开源最佳语音识别模型 由Mistral AI开源,分3B和24B两个大小,准确率显著高于Whisper v3 Large、Gemini Flash 2.5,支持多语言。 模型(应该还在上传中):
分享
评论 0
0
Gorden Sun
2个月前
不要在公开场合外放视频! 还得是马斯克,Grok里集成了3D虚拟形象,记忆聊天内容,甚至还有好感度系统(低好感度不能色色) 更新Grok,美区IP,设置里即可打开companion。
分享
评论 0
0
Gorden Sun
2个月前
资讯日报,7月14日:
分享
评论 0
0
Gorden Sun
2个月前
T-LoRA:能避免过拟合的LoRA方法 普通的LoRA方法,虽然能保持主体一致,但是常常会出现其他元素影响了生成结果的情况,例如动作也复用了参考图的动作、背景也复用参考图的背景(MidJourney的图片参考经常这样)。T-LoRA可以调整LoRA和文本对齐平衡点,保持主体一致的同时避免过拟合。 Github:
分享
评论 0
0
Gorden Sun
2个月前
PyVision:LLM生成工具解决视觉问题 在视觉推理领域,现有多模态模型的方法很大程度上受限于预定义的工作流和静态工具集。PyVision让MLLM能够自主生成、执行和优化基于Python的工具,从而开发出针对当前任务的视觉工具,然后再调用工具解决问题。在 V* 上使 GPT-4.1 的性能提升了 7.8%,在 VLMsAreBlind-mini 上使 Claude-4.0-Sonnet 的性能提升了 31.1%。 Github: 项目地址:
分享
评论 0
0
Gorden Sun
2个月前
ElevenLabs v3语音模型,AI语音的言出法随时刻
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 475 条信息
#elevenlabs
#v3语音模型
#AI语音
#语音合成
#技术进展
分享
评论 0
0
Gorden Sun
2个月前
资讯日报,7月13日:
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞