时政
财经
科技
虚拟货币
其他
登录
Gorden Sun
关注
统计数据
559
文章
0
粉丝
0
获赞
7779
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Gorden Sun
5个月前
JDGenie:京东开源的通用智能体 完整的多Agent框架,开箱即用,轻量,不依赖于云平台。在GAIA榜单准确率达到75.15%,超过OpenManus、OWL、AutoAgent等产品。 Github:
#JDGenie
#多Agent框架
#开源
#智能体
#GAIA榜单
分享
评论 0
0
Gorden Sun
5个月前
我是如何免费、快速给视频制作字幕的 方法1:Gemini 流程:Gemini识别音频/视频,手动创建.srt文件,复制粘贴进去,然后导入剪映使用。 使用我这个提示词,在AI Studio里选择Gemini Flash 2.5,效果好到不需要开Think模式就能准确出结果,速度快的很。 提示词: 识别我上传的音频/视频里的文字,并提供可快速复制的srt格式的字幕文本,每句字幕必须使用 hh:mm:ss,xxx --> hh:mm:ss,xxx 的时间标记,尤其是每句字幕的截止时间也务必遵循格式。中文必须使用简体中文,不能出现繁体字。 以下是一段示例字幕,用作格式参考: 1 00:00:00,347 --> 00:00:07,037 有一个问题其实就是,以后现在和过去哪个其实是最重要的, 2 00:00:07,037 --> 00:00:11,107 那我觉得是过去创造了现在,现在来决定未来, 3 00:00:11,107 --> 00:00:17,217 那我觉得说我们能够把握的其实只有现在。 方法2:剪映老版本 Mac端的5.9.0的老版本剪映,还能免费用字幕识别功能,不知道还能用多久,随缘用吧。
#视频字幕
#Gemini
#剪映
#免费
#AI Studio
分享
评论 0
0
Gorden Sun
5个月前
资讯日报,7月20日:
分享
评论 0
0
Gorden Sun
5个月前
资讯日报,7月19日:
分享
评论 0
0
Gorden Sun
5个月前
资讯日报,7月18日:
分享
评论 0
0
Gorden Sun
5个月前
Seed-X:专门用于翻译的小模型 字节开源Seed-X,专门用于翻译的小模型,仅7B大小,在人类评分中,翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是,训练过程特意去掉了STEM、代码、推理的相关数据,特别专注于翻译任务。 模型:
#Seed-X
#翻译模型
#字节跳动
#开源
#小模型
分享
评论 0
0
Gorden Sun
6个月前
跟ElevenLabs生成的对话相比,豆包播客和NotebookLM生成的音频还是太机械了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#elevenlabs
#豆包播客
#NotebookLM
#音频生成
#机械感
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月17日:
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月16日:
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月15日:
分享
评论 0
0
Gorden Sun
6个月前
Voxtral:开源最佳语音识别模型 由Mistral AI开源,分3B和24B两个大小,准确率显著高于Whisper v3 Large、Gemini Flash 2.5,支持多语言。 模型(应该还在上传中):
分享
评论 0
0
Gorden Sun
6个月前
不要在公开场合外放视频! 还得是马斯克,Grok里集成了3D虚拟形象,记忆聊天内容,甚至还有好感度系统(低好感度不能色色) 更新Grok,美区IP,设置里即可打开companion。
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月14日:
分享
评论 0
0
Gorden Sun
6个月前
T-LoRA:能避免过拟合的LoRA方法 普通的LoRA方法,虽然能保持主体一致,但是常常会出现其他元素影响了生成结果的情况,例如动作也复用了参考图的动作、背景也复用参考图的背景(MidJourney的图片参考经常这样)。T-LoRA可以调整LoRA和文本对齐平衡点,保持主体一致的同时避免过拟合。 Github:
分享
评论 0
0
Gorden Sun
6个月前
PyVision:LLM生成工具解决视觉问题 在视觉推理领域,现有多模态模型的方法很大程度上受限于预定义的工作流和静态工具集。PyVision让MLLM能够自主生成、执行和优化基于Python的工具,从而开发出针对当前任务的视觉工具,然后再调用工具解决问题。在 V* 上使 GPT-4.1 的性能提升了 7.8%,在 VLMsAreBlind-mini 上使 Claude-4.0-Sonnet 的性能提升了 31.1%。 Github: 项目地址:
分享
评论 0
0
Gorden Sun
6个月前
ElevenLabs v3语音模型,AI语音的言出法随时刻
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#elevenlabs
#v3语音模型
#AI语音
#语音合成
#技术进展
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月13日:
分享
评论 0
0
Gorden Sun
6个月前
我草ElevenLabs的v3语音模型,已经是Next Level级别了,超越Fish Audio成为最佳中文语音模型,同时也是多语言的首选模型。不知道是不是因为Alpha阶段的原因,现在没有屏蔽NSFW内容。 不要在公开场合外放视频!不要在公开场合外放视频!不要在公开场合外放视频!
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月12日:
分享
评论 0
0
Gorden Sun
6个月前
Manus搬到新加坡总体讲是好事。之前也有个类似情况的公司,叫HeyGen,从深圳搬到了美国,现在基本是虚拟人领域第一了。 为什么说整体是好事? 公司:Manus搬到新加坡可以用Claude模型,有机会争取做到世界第一(现在其实很不好用)。 员工:没法带到新加坡的员工,赔偿不用说,有Manus这段履历,这些员工也不用愁找不到工作。 行业:至于中国的通用智能体,慢一点也没关系,等DeepSeek千问豆包的模型再追一追,智能体的路证实能走通了,字节自然就做好了。
分享
评论 0
0
Gorden Sun
6个月前
米哈游创始人蔡浩宇的AI游戏出Demo了 简单玩了下,游戏体验类似豆包+生命线(iOS文字多支线游戏)。 像豆包的部分:3D人物说话,有表情,嘴型同步。玩家语音输入,游戏人物根据用户的输入实时给出语音反馈。语音响应很快(有个通信的动画也降低了延迟的感受),应该自己搭建的ASR+LLM+TTS的对话流程。能听懂中文,但是只会说英文。 像生命线的部分:每当游戏进度有进展,游戏界面会变成聊天框的形式,打字或者发语音交流。 游戏有主线故事,就是帮助人物脱困,你没找到线索也会自动推进剧情。有点AI游戏的雏形了,有主线故事但是没有固定台词,游戏人物有性格设定,说话语气和内容能体现出来,真是期待5年后的AI游戏形态。现阶段的话,有个3D能互动的虚拟人聊天,稍晚加点背景设定,我就挺爱聊的。 美区Steam可以玩(我记得当初填Waitlist明明要求iPhone手机),地址:
分享
评论 0
0
Gorden Sun
6个月前
CSDN怎么有脸收费。。。
分享
评论 0
0
Gorden Sun
6个月前
资讯日报,7月11日:
分享
评论 0
0
Gorden Sun
6个月前
Reka Flash 3.1:开源高性价比模型 20B参数,性能接近Qwen 3 32B,非常适合用作本地运行的模型(代码、自动化任务等),也适合进一步微调用于智能体。Reka是一家成立成立不久的小公司,成员基本来自谷歌DeepMind。 模型:
分享
评论 0
0
Gorden Sun
6个月前
WebSailor:开源WebAgent 阿里开源,专门执行复杂信息搜索的WebAgent,WebSailor-72B版本目前是开源最佳Web Agent,能力接近豆包Search。 Github:
分享
评论 0
0
上一页
1
...
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞