小互

统计数据

144
文章
0
粉丝
0
获赞
249
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
小互
6个月前
OpenAI 开发者日,推出了一个实时 API 可以通过语音和3D太阳系进行实时的语音交互 该项目基于 Spline(3D 设计工具)构建,使用 Function Calling 机制来触发应用中的动画和交互。 结合语音 AI、WebRTC 和 3D 交互的演示项目,可用于探索太阳系,也可扩展到其他语音控制 3D 场景应用。 适合开发者学习 Function Calling、WebRTC 实时交互、3D 数据可视化等技术。 可定制 AI 交互方式,或更换 3D 场景,适用于教育、游戏、数据可视化等领域。
#OpenAI #API #实时语音交互 #3D太阳系 #Function Calling #Spline #WebRTC #语音AI #开发者日
avatar
小互
6个月前
微软在 Azure AI 和 GitHub 上提供 DeepSeek 的 R1 模型 这意味着企业和开发者可以更方便地集成和部署这个 AI 模型,无需自己搭建复杂的计算资源。 Azure 提供了一键部署,开发者可以快速测试和集成 AI 模型。 微软还将很快提供一个精简版、更小的 R1,以便在 Copilot Plus PC 上本地运行。
#微软 #Azure AI #DeepSeek #GitHub #R1模型 #企业集成 #开发者 #AI模型部署 #计算资源 #一键部署 #Copilot Plus PC
avatar
小互
6个月前
OpenAI 更新账号共享政策 不允许共享ChatGPT账号 你可以在多个设备上使用你的 OpenAI 账户。然而,OpenAI会根据no的账户活动和订阅级别,可能会采取一些使用限制。 具体什么限制没有说明!
#OpenAI #ChatGPT #账号共享政策 #使用限制
avatar
小互
6个月前
YuE:一个全新多模态音乐开源模型 可以从歌词生成长达5分钟的含人声和伴奏的高质量、完整音乐。 -支持多种语言生成,包括英语、中文、日语和韩语。 -生成的歌曲拥有完整的音乐结构,包括前奏、主歌、合唱等部分。 -提供跨语言混合生成功能,例如中英混合歌词的嘻哈音乐。 -YuE 支持生成多种音乐风格,包括但不限于: 金属(Metal) 爵士(Jazz) 流行(Pop) 乡村(Country) 抒情(Ballad) 另类摇滚(Alternative Rock) 儿歌(Children's Song) YuE 展示了多种专业级声乐表现,如: 即兴演唱(Scatting):即兴创作无词旋律。 低吼(Death Growl):多用于金属音乐中的极端演唱技术。 混声(Mix Voice):融合胸声和头声的演唱技术。
#多模态音乐模型 #歌词生成 #跨语言生成 #音乐风格
avatar
小互
6个月前
兄弟们,这个强啊,效果真的挺棒 复旦大学OpenMOSS人工智能开放实验室 推出首个端到端实时语音交互模型 中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒,支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音,包括模仿特定角色的情绪。 - 丰富的情感控制:支持生成多种情感语音,如欢快、严肃、悲伤等。 语音风格多样化:可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格
#复旦大学 #OpenMOSS #人工智能 #语音交互 #实时语音 #情感控制 #语音风格 #GPT-4 #中文语音
avatar
小互
6个月前
阿里巴巴推出Qwen2.5-1M 支持100万Token上下文的开源模型,性能媲美GPT4o mini Qwen2.5-1M 在处理 超长文本任务 和 短文本任务 上都表现出了卓越的能力,尤其是在处理复杂的长上下文场景中,达到了开源模型的领先水平。 推理速度比传统方法快 3 到 7 倍,尤其在处理超长序列时表现优异。 推理阶段通过块状预填充(Chunked Prefill)技术,使显存需求减少 96.7%。
#阿里巴巴 #Qwen2.5-1M #开源模型 #GPT4o mini #超长文本任务 #短文本任务 #长上下文场景 #推理速度 #块状预填充技术
avatar
小互
6个月前
我去 这个语音克隆模型有点牛P 哈哈哈 使用了 250,000 小时的中英双语语音数据训练 只需15秒的声音就能完美克隆声音,保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示(Prompt),在生成目标语音时保留提示语音中的情感特征。 基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。
#语音克隆 #Llasa-3B #情感特征 #语言模型 #语音合成
avatar
小互
6个月前
据《The Information》报道,OpenAI 正在研发一种高级 AI 编码助手,目标是取代顶级工程师(相当于谷歌等公司的 6 级工程师)的一些工作能力。 与 ChatGPT 的复制粘贴方法不同,该助手可以通过 Slack 发送消息,主动告知你它希望对代码库进行的更改。 根据与 OpenAI 领导层交谈的三人透露,新 AI 编码助手将能够连接代码库,处理复杂任务,例如代码重构、数据系统迁移以及具有个性化的功能集成。 根据一位 OpenAI 员工的声明,该公司已经在内部使用一个由其 01 推理模型(于 9 月发布)驱动的工具,帮助 AI 研究人员为模型实验生成代码。 据其中一人透露,OpenAI 已准备好与部分客户测试一个早期版本的工具。
#OpenAI #AI编码助手 #代码库 #工程师工作 #技术革新 #人工智能进展
avatar
小互
6个月前
中美AI较量 😌 表扬鼓励 VS 5000亿美金
#中美关系 #人工智能 #经济竞争 #表扬 #鼓励 #5000亿美金
avatar
小互
6个月前
Google 发布Gemini 2.0 Flash Thinking 新模型EXP-01-21 •支持 100万 token 上下文窗口。 •增加对 原生代码执行 的支持。 •输出 token 的生成更长。 •减少模型矛盾的发生频率 •在 AI Studio 中可免费体验
#Google #Gemini 2.0 #AI Studio #模型更新 #技术创新 #代码执行 #人工智能
avatar
小互
6个月前
字节跳动发布全新的 AI IDE 产品: Trae 标配Claude 3.5sonnet 和 GPT-4o 限时免费 直接对标的 Cursor 的 Agent 功能,提出了全新的从Copilot向Autopilot演进概念 即:通过用户的提问直接生成一个完整的代码项目出来。 看我演示,全程我只动用了一次键盘,鼠标点点就行 操作起来非常的流畅,对编程小白用户来说也是非常容易上手。
#字节跳动 #AI #IDE #Trae #Claude 3.5 #GPT-4 #Cursor #agent #Copilot #Autopilot #编程 #编程工具 #技术创新 #代码生成
avatar
小互
7个月前
Grok 客户端现已推出,可以下载了 可以免费生成图像和聊天 图像生成还是很不错的,可以薅羊毛
#Grok客户端 #图像生成 #免费下载 #薅羊毛
avatar
小互
7个月前
牛P大了 英伟达发布了Groot Teleop 技术 允许你通过Apple Vision Pro 来训练机器人 你可以佩戴Apple Vision Pro进入到虚拟机器人的身体里面来进行虚拟操控机器人,训练它的各种操作和动作。 然后可以将训练成果转移到真实机器人身上!
#英伟达 #Groot Teleop #Apple Vision Pro #机器人训练 #虚拟现实 #技术创新
avatar
小互
7个月前
第一个大模型公司倒了 01万物散伙了 卡和与训练团队卖给阿里了🙃
#大模型公司 #倒闭 #阿里巴巴 #收购
avatar
小互
7个月前
字节跳动终于开源了一个好东西 LatentSync:精准的唇形同步工具 可以根据音频输入,自动调整视频中角色的嘴型,实现精准的口型同步。 直接用声音驱动嘴巴的动作,不需要复杂的中间步骤。 提出了一种“时间对齐”的技术,专门解决画面可能会跳动或不一致的问题。 左:原视频,右:口型同步后 提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。
#字节跳动 #开源 #LatentSync #唇形同步 #音频处理 #视频处理 #口型同步
avatar
小互
7个月前
小互AI年度总结: 2024重大AI技术和超实用AI工具盘点... 全文见2楼↓
#AI技术 #AI工具 #年度总结 #2024
avatar
小互
7个月前
通义千问视觉理解模型降价 最高降幅85%↓ Qwen-vl-max 输入是0.003 输出降到了0.009 对比Doubao vision Pro的输入价格也是0.003
#通义千问 #视觉理解模型 #价格调整
avatar
小互
7个月前
Google Veo 2 还可以生产Vlog视频 还挺逼真的🤔
#GoogleVeo2 #Vlog #视频创新 #AI生成 #科技进步
avatar
小互
7个月前
发了BYD巴西报道的罗列信息而已 转发键给我没收了 还屏蔽了内容 现在真是肆无忌惮
#BYD #巴西 #信息控制
© 2025 news.news. All rights reserved. 0.22955 秒. v1.0.42
我的评论