时政
财经
科技
登录
#Whisper
关注
铁锤人
2周前
看到很多人现在觉得自己 AI 编程 用语音输入了 就在包装一个 whisper 来做转录 但是为啥没人提用讯飞语音之类的输入法,天然就很好,也是免费的 你要知道 whisper 的转录中文是很垃圾的🥲
#AI编程
#语音输入
#Whisper
#转录
#讯飞语音
#输入法
#免费
分享
评论 0
0
𝘁𝗮𝗿𝗲𝘀𝗸𝘆
2周前
#AI Whisper 的模型好像各家的识别效果都差不多,最终还是用本地模型了。大多数时候速度比 OpenAI 返回还快一点。机器是 M3 Ultra 的 Mac Studio。
#Whisper
#OpenAI
#本地模型
#Mac Studio
分享
评论 0
0
ginobefun
3周前
#BestBlogs Amazon Bedrock + Whisper:构建高效无服务器音频摘要方案 | 亚马逊云科技 | AWS Machine Learning Blog 基于 AWS Bedrock 和 Whisper 的无服务器音频摘要方案。 摘要: 本文详细介绍了如何使用 AWS 服务构建无服务器解决方案,实现音频录音的转录、摘要和敏感信息脱敏。该方案利用 Amazon Bedrock 平台,通过 Anthropic 的 Claude 等模型实现内容摘要,并使用 Bedrock Guardrails 进行 PII 脱敏,结合 Amazon Bedrock Marketplace 提供的 Whisper 模型进行转录。架构采用 AWS Lambda、Step Functions 进行流程编排,S3 提供存储,CloudFront 用于前端内容分发,以及 API Gateway。文章详细阐述了架构设计、部署前提、Whisper 模型和 Bedrock Guardrail 的部署步骤,并提供 AWS CDK 代码,方便快速部署。同时,强调了方案的实用性和安全性,包括自动 PII 脱敏、细粒度的 IAM 权限控制和 S3 访问控制。 主要内容: 1. 通过 Amazon Bedrock 集成多种 AI 模型,实现完整工作流。 -- 在一个无服务器流水线中,结合 Whisper 进行准确转录,Claude 进行简洁摘要,并使用 Bedrock Guardrails 自动进行 PII 脱敏。 2. 利用 AWS 无服务器服务实现可扩展且经济高效的解决方案。 -- 使用 Lambda、Step Functions、S3 和 API Gateway 构建高度可扩展、托管且按需付费的架构,适用于音频处理工作流。 3. 使用 Amazon Bedrock Guardrails 实施 PII 脱敏,保护数据隐私。 -- 演示如何配置和应用 Bedrock Guardrails,自动识别并脱敏摘要结果中的敏感信息,例如姓名和电话号码。 4. 提供可以使用 AWS CDK 代码随时部署的架构。 -- 提供了一个实用且可操作的解决方案,通过基础设施即代码,开发者可以快速部署和测试该工作流程。 文章链接:
#AWS
#无服务器
#音频摘要
#机器学习
#AWS Bedrock
#Whisper
分享
评论 0
0
karminski-牙医
3个月前
看到了个基于 Whisper.cpp 的转录工具SoftWhisper。 这个项目可以将音频/视频中的音频转为文字,最大的特点是使用了 Whisper.cpp,所以兼容性非常好,所有平台都能跑。另外性能也很不错,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比,Whisper API转录 20-30 分钟的音频需要大约 40 分钟。 地址:
#Whisper
#SoftWhisper
#音频转文字
#项目
#Whisper API
#转录工具
分享
评论 0
0
AIGCLINK
4个月前
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
#西北工业大学
#OSUM
#语音理解
#开源模型
#ASR
#情感识别
#Whisper
#Qwen2
#多任务支持
#语音识别技术
#科技新品
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞