Gorden Sun

统计数据

660

文章

0

粉丝

0

获赞

46897

阅读

7个月前

资讯日报，7月21日：

#AI乱象不止：内容注水，隐私堪忧· 206 条信息

7个月前

JDGenie：京东开源的通用智能体完整的多Agent框架，开箱即用，轻量，不依赖于云平台。在GAIA榜单准确率达到75.15%，超过OpenManus、OWL、AutoAgent等产品。 Github：

#JDGenie #多Agent框架 #开源 #智能体 #GAIA榜单

7个月前

我是如何免费、快速给视频制作字幕的方法1：Gemini 流程：Gemini识别音频/视频，手动创建.srt文件，复制粘贴进去，然后导入剪映使用。使用我这个提示词，在AI Studio里选择Gemini Flash 2.5，效果好到不需要开Think模式就能准确出结果，速度快的很。提示词：识别我上传的音频/视频里的文字，并提供可快速复制的srt格式的字幕文本，每句字幕必须使用 hh:mm:ss,xxx --> hh:mm:ss,xxx 的时间标记，尤其是每句字幕的截止时间也务必遵循格式。中文必须使用简体中文，不能出现繁体字。以下是一段示例字幕，用作格式参考： 1 00:00:00,347 --> 00:00:07,037 有一个问题其实就是，以后现在和过去哪个其实是最重要的， 2 00:00:07,037 --> 00:00:11,107 那我觉得是过去创造了现在，现在来决定未来， 3 00:00:11,107 --> 00:00:17,217 那我觉得说我们能够把握的其实只有现在。方法2：剪映老版本 Mac端的5.9.0的老版本剪映，还能免费用字幕识别功能，不知道还能用多久，随缘用吧。

#视频字幕 #Gemini #剪映 #免费 #AI Studio

7个月前

资讯日报，7月20日：

7个月前

资讯日报，7月19日：

7个月前

资讯日报，7月18日：

7个月前

Seed-X：专门用于翻译的小模型字节开源Seed-X，专门用于翻译的小模型，仅7B大小，在人类评分中，翻译效果接近DeepSeek R1和Gemini Pro 2.5的水平。值得一提的是，训练过程特意去掉了STEM、代码、推理的相关数据，特别专注于翻译任务。模型：

#Seed-X #翻译模型 #字节跳动 #开源 #小模型

7个月前

跟ElevenLabs生成的对话相比，豆包播客和NotebookLM生成的音频还是太机械了。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #豆包播客 #NotebookLM #音频生成 #机械感

7个月前

资讯日报，7月17日：

7个月前

资讯日报，7月16日：

7个月前

资讯日报，7月15日：

7个月前

Voxtral：开源最佳语音识别模型由Mistral AI开源，分3B和24B两个大小，准确率显著高于Whisper v3 Large、Gemini Flash 2.5，支持多语言。模型（应该还在上传中）：

7个月前

不要在公开场合外放视频！还得是马斯克，Grok里集成了3D虚拟形象，记忆聊天内容，甚至还有好感度系统（低好感度不能色色）更新Grok，美区IP，设置里即可打开companion。

7个月前

资讯日报，7月14日：

7个月前

T-LoRA：能避免过拟合的LoRA方法普通的LoRA方法，虽然能保持主体一致，但是常常会出现其他元素影响了生成结果的情况，例如动作也复用了参考图的动作、背景也复用参考图的背景（MidJourney的图片参考经常这样）。T-LoRA可以调整LoRA和文本对齐平衡点，保持主体一致的同时避免过拟合。 Github：

7个月前

PyVision：LLM生成工具解决视觉问题在视觉推理领域，现有多模态模型的方法很大程度上受限于预定义的工作流和静态工具集。PyVision让MLLM能够自主生成、执行和优化基于Python的工具，从而开发出针对当前任务的视觉工具，然后再调用工具解决问题。在 V* 上使 GPT-4.1 的性能提升了 7.8%，在 VLMsAreBlind-mini 上使 Claude-4.0-Sonnet 的性能提升了 31.1%。 Github：项目地址：

7个月前

ElevenLabs v3语音模型，AI语音的言出法随时刻

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #v3语音模型 #AI语音 #语音合成 #技术进展

7个月前

资讯日报，7月13日：

7个月前

我草ElevenLabs的v3语音模型，已经是Next Level级别了，超越Fish Audio成为最佳中文语音模型，同时也是多语言的首选模型。不知道是不是因为Alpha阶段的原因，现在没有屏蔽NSFW内容。不要在公开场合外放视频！不要在公开场合外放视频！不要在公开场合外放视频！

7个月前

资讯日报，7月12日：

7个月前

Manus搬到新加坡总体讲是好事。之前也有个类似情况的公司，叫HeyGen，从深圳搬到了美国，现在基本是虚拟人领域第一了。为什么说整体是好事？公司：Manus搬到新加坡可以用Claude模型，有机会争取做到世界第一（现在其实很不好用）。员工：没法带到新加坡的员工，赔偿不用说，有Manus这段履历，这些员工也不用愁找不到工作。行业：至于中国的通用智能体，慢一点也没关系，等DeepSeek千问豆包的模型再追一追，智能体的路证实能走通了，字节自然就做好了。

7个月前

米哈游创始人蔡浩宇的AI游戏出Demo了简单玩了下，游戏体验类似豆包+生命线（iOS文字多支线游戏）。像豆包的部分：3D人物说话，有表情，嘴型同步。玩家语音输入，游戏人物根据用户的输入实时给出语音反馈。语音响应很快（有个通信的动画也降低了延迟的感受），应该自己搭建的ASR+LLM+TTS的对话流程。能听懂中文，但是只会说英文。像生命线的部分：每当游戏进度有进展，游戏界面会变成聊天框的形式，打字或者发语音交流。游戏有主线故事，就是帮助人物脱困，你没找到线索也会自动推进剧情。有点AI游戏的雏形了，有主线故事但是没有固定台词，游戏人物有性格设定，说话语气和内容能体现出来，真是期待5年后的AI游戏形态。现阶段的话，有个3D能互动的虚拟人聊天，稍晚加点背景设定，我就挺爱聊的。美区Steam可以玩（我记得当初填Waitlist明明要求iPhone手机），地址：

7个月前

CSDN怎么有脸收费。。。

7个月前

资讯日报，7月11日：

7个月前

Reka Flash 3.1：开源高性价比模型 20B参数，性能接近Qwen 3 32B，非常适合用作本地运行的模型（代码、自动化任务等），也适合进一步微调用于智能体。Reka是一家成立成立不久的小公司，成员基本来自谷歌DeepMind。模型：

...