Leo Xiang发布的内容- 第2页 news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

Leo Xiang

统计数据

58

文章

0

粉丝

0

获赞

77

阅读

Leo Xiang

3周前

Gemini 2.5 Pro 多模态确实遥遥领先，扔一个跟AI对话的视频让大模型分析延迟，直接给出结果。而且跟人打标签给出的结果类似。

Google Gemini 2.5发布引发AI模型性价比热议· 34 条信息

#AI编程：Kimi搅局，Claude封号，群雄逐鹿· 332 条信息

Leo Xiang

3周前

我这边的团队长期招音频算法方向的伙伴，主要为对话式TTS方向。重点突破的方向有三个： 1、延迟，推理延迟足够低(150ms内)； 2、音色创作成本尽可能低； 3、拟人 & 口语化。工作地点为北京和深圳，想探索对话式TTS方向的欢迎骚扰我。

#音频算法 #对话式TTS #低延迟 #音色创作 #拟人化 #招聘 #北京 #深圳

Leo Xiang

3周前

有个非常大的痛点：我一般会把我的代码目录放到 icloud 中同步，自从搞了python 和 node的项目之后 icloud的容量就很不够用了。icloud不知道有没有办法单独过滤 python和node的依赖项。

#Python项目 #Node项目 #iCloud #存储容量 #依赖项管理

Leo Xiang

4周前

网络延迟已经超过推理延迟，对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环，只有在需要强推理的情况下才调用外部大模型。

#网络延迟 #实时代理 #ASR #LLM #TTS #闭环 #推理延迟 #大模型

Leo Xiang

1个月前

想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了： Realtime API = ASR + TTS + 意图识别小模型。更多的是作为语音交互Agent的接入层。

#AI编程：Kimi搅局，Claude封号，群雄逐鹿· 332 条信息

#OpenAI #Realtime API #Gemini Live API #ASR #TTS #语音交互 #意图识别 #AI

Leo Xiang

1个月前

关于多Agent 以及单Agent之争，大家都是站在自己的角度来描述观点： Anthropic：从大模型角度来说要建立一个多Agent系统的生态，每个Agent做好自己的事情，多Agent才是未来。 Cognition(Devin)：是在做一个具体的Agent，会从如何更好的完成任务，如何更稳定入手，更关注单个Agent的效率。

#多智能体之争：Anthropic生态VS单智能体· 8 条信息

#多Agent #单Agent #大模型 #Agent系统生态 #任务效率

Leo Xiang

1个月前

今年音频多模态方向的研发抢人薪资给的非常疯狂。这个是一个大热的方向。

#音频多模态 #研发抢人 #薪资

Leo Xiang

1个月前

抛个问题： low code的agent平台，大家有在生产环境中用起来的么？

#低代码 #平台 #生产环境

Leo Xiang

1个月前

过了一遍openai 的 agent sdk，设计的非常简洁清晰，喜欢这种轻量的设计。

#OpenAI #Agent SDK #设计 #简洁 #轻量

Leo Xiang

1个月前

Gemini Live API 这次模型更新有两个特别好的能力： 1、Proactive Audio（主动音频响应）模型会根据上下文主动判断是否有必要作出回应，以及打断。 2、Asynchronous Function Calling（异步函数调用）允许模型在函数执行期间继续与用户对话。这两个都非常实用。

#Gemini #API #模型更新 #Proactive Audio #主动音频响应 #Asynchronous Function Calling #异步函数调用

Leo Xiang

1个月前

不知道有没有基于webscoekt 的agent 互通协议，基于http的agent协议完全不考虑实时场景。基于http的agent 协议在实时场景有很大问题，http 这种调来调去一是延迟大，二是还得搞webhook，交互一点没简单。

#WebSocket #agent互通协议 #http协议 #实时通信 #webhook #延迟问题

Leo Xiang

1个月前

太忧伤了，还是继续用ChatGPT吧。

#ChatGPT #继续使用 #不放弃 #用户体验 #选择 #忧伤

Leo Xiang

1个月前

Google 在多模态方向真是碾压的存在。

#Google #多模态方向 #技术创新

Leo Xiang

1个月前

Gemini 放出来了一次性合成多个人的对话的TTS，复现NotebookLM 的多人播客效果的门槛也没了。

#Gemini #TTS #NotebookLM #多人播客 #合成对话

Leo Xiang

1个月前

每天通过Chatgpt 学习一个小时，很快就能初步了解一个方向：

#ChatGPT #学习 #人工智能 #自我提升

Leo Xiang

1个月前

OpenAI 在协议定义上还是有号召力，Realtime API 的规范也基本成为标准了，看到多家的端到端方案都采用了Realtime API标准，或者是修改版的Realtime API 标准。

#OpenAI #协议定义 #Realtime API #标准化 #端到端方案

Leo Xiang

1个月前

好消息是：gemini live api 支持中文了坏消息是：中文tts效果基本没法听

#gemini live #API #中文支持 #TTS #语音合成

Leo Xiang

4个月前

OpenAI Agent SDK 仓库中有一个"Research Agent" 的实现，流程如下： 1、用户输入研究主题。 2、planner_agent 制定搜索计划，列出查询词及其理由。 3、search_agent 并行执行搜索，使用 Web Search 工具获取并总结结果。 4、writer_agent 整合搜索摘要，生成最终报告。 ChatGPT 的 DeepResearch应该也是这个流程，用了更好的模型 + 更好的工程化。

#OpenAI #Agent SDK #Research Agent #搜索流程 #聊天机器人 #DeepResearch #AI技术

Leo Xiang

4个月前

OpenAI 这套开发工具把Agent开发需要的基础能力都提供了，搜索、RAG、意图识别、内容审核、Computer use 以及 Browser use，整个Agent开发的成本瞬间降低了很多。预期可见的会出来一批Agent方向的产品。

#OpenAI #开发工具 #agent #搜索 #RAG #意图识别 #内容审核 #Computer use #Browser Use

Leo Xiang

5个月前

国内大模型公司To B不好做了，大家需求很一致，效果对齐deepseek 或者直接部署deepseek。

#国内大模型公司 #To B市场 #市场需求 #效果对齐 #技术部署 #DeepSeek

Leo Xiang

5个月前

看到好几个群里都有在找 deepseek 稳定的api供应商的信息，从这个层面说算力还是远远不够。

#DeepSeek #api供应商 #算力

Leo Xiang

5个月前

OpenAI Deep Research 输出的研报质量非常之高，用它输出了两份我所在行业的分析报告，质量应该能赶上工作三年的分析师出的内容。 Deep Research 还只能从互联网上收集信息，如果能支持把私有数据喂给他进行二次创作，效果会更好。

#OpenAI #Deep Research #研报质量 #行业分析 #私有数据

Leo Xiang

5个月前

经过这几天的开发，RealtimeAI开源项目已经初具雏形，目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。主要包括三部分： - AI SDK (WebRTC)：在客户端侧通过WebRTC协议捕获音视频流并进行处理，如音视频编码、部分前置推理等； - WebRTC Gateway：主要负责信令管理、NAT/防火墙穿透、转发媒体流等工作.； - AI Service ：提供实时推理或实时数据处理能力，如语音识别、图像识别、实时字幕、语音合成、实时大模型交互；项目地址：

#RealtimeAI #开源项目 #Gemini Multimodel #OpenAI Realtime API #AI SDK #WebRTC #WebRTC Gateway #信令管理 #音视频处理

Leo Xiang

5个月前

让Operator 去抓取X Timeline 上的10条内容，Operator操作半天给我返回了几条Post的链接，短期之内可能都是用来做做demo，到真正产生生产力还有很长路要走。 1、Operator 会在云端记录你的Session，比如之前登录过再次登录就不需要密码，但这个安全性怎么保证？ 2、Operator 目前的能力还是只能完成点一点，输入文本类似的操作，更复杂的操作就无能为力了。

#Operator #X Timeline #demo #生产 #安全性 #能力 #操作

Leo Xiang

5个月前

在Deepseek R1 之前，OpenAI 的O1还是领先中国的大模型厂商一代，R1出来之后已经不存在代际差了。 OpenAI如何说服大家购买他的200$ 每月的Pro？

#DeepSeek R1 #OpenAI #大模型 #代际差 #Pro订阅