好像每一次有新的语音输入法发布,都会在推上引发激烈的讨论。有的小伙伴激动得就像发现了新大陆,有的小伙伴则皱眉挑战它与之前的某款相比有何特色。比如这次豆包也公测了自己的 Mac 输入法,体验了一下,确实被惊艳到了(但不是语音输入)。分享一下我对于不同 Mac 语音输入法特色的理解,帮你找到适合你的那款: Mac 原生语音输入: 激活后,光标处会跟随一个麦克风符号,视觉很轻量。在口述的过程中,「流式输出」口述的内容,并根据后面输出的内容动态调整之前的内容、断句和标点。其核心是最大程度 1:1 还原口述内容,识别和输出速度极快,视觉反馈很好。但因为是本地算法,准确率不佳,时常伴随发音相似的错别词。 微信语音输入: 分为两款。一款集成在【微信输入法】中,适合日常使用微信输入法的朋友,因为使用时需要确保当前输入法是微信输入法;另一款则集成在【微信客户端】中,使用过程中只要微信客户端在后台运行即可,无需切换输入法。输入体验与 Mac 自带的语音输入法很像:流式输出,1:1 还原口述内容。输出速度相比 Mac 原生的要慢一些,但准确率要高很多,适合代替 Mac 原生语音输入功能。 豆包输入法: 对标微信输入法,一款包含语音输入的文本输入法,使用时需要切换到豆包输入法。输入体验也和微信输入法类似:在口述表达的过程中,流式输出刚刚说的内容,并结合上下文语境自动纠错前面的内容和标点。整体来说,输入的速度要比微信输入法快一些,体感要好一些,个人体感准确率也要比微信高一些。但可能是因为测试版,使用过程中经常中断失败,可能是没做自动重连。最让我惊艳的反而是【键盘输入】,它的准确率甚至媲美我积累了多年词库的搜狗输入法,明显是具备了根据上下文自动调整词频的能力,可能还包含了自动纠错的能力,因为我几乎没有感受到什么阻碍,退格删除的频次很低很低,这也是为什么我除了跨端场景一直很少用微信输入法:懒得再培养词库了。目前输入法本身的可配置项还比较简陋,比如不支持模糊音配置(但我发现似乎压根不需要用户去操心什么是模糊音,默认支持),虽然配置项少,但似乎也够用,看来是产品有花心思做减法。 Typeless: 产品形态并不是输入法,可搭配任意键盘输入法使用,无需切换。其核心是【语音输入】+【语音助手】+【即时翻译】。对于语音输入:口述输入的过程并不是流式输出,也不会 1:1 还原口述的内容,而是会自动帮助用户过滤“嗯”、“啊”等口语词,删除口误内容并使用正确版本,将输入内容言简意赅地结构化表达。其另外一个特色是语音助手,可以选中一封「英文」邮件的内容,直接说「中文」指令,比如「帮我答复这封邮件,就说我收到了,感谢对方」,然后它会输出一封包含客套内容的「英文」邮件。即时翻译功能则是直接说中文,它根据中文内容润色加工后输出英文翻译。所以 Typeless 的核心场景是【交流】,而非【输入】,就很适合用来和 AI 对话,比如 Vibe Coding。订阅制,开箱即用,用户不需要操心「模型」、「API Key」等概念。要说缺点,那就是贵,真贵,$144 一年。使用强度不大的话(比如白天公司打字晚上回家语音),免费版也够用。 闪电说: 目前的版本产品形态已不再是单纯的语音输入,形态和 Typeless 类似,集成了【语音输入】+【语音助手】,并且拥有长期记忆、自定义技能(口语过滤、结构化表达等为内置技能)、阅读屏幕(通过截图给多模态模型来了解上下文并针对性输出结果)等能力。对极客友好的一点是:不同的场景支持配置不同的模型,比如「语音识别」可以用 flash 模型提高速度,而「语音助手」则可以配置参数更高的模型来确保对指令的理解和输出的质量。最牛逼的是:目前完全免费。 整体感受: 微信/豆包输入法,适合作为【输入】本身,比如写文章,它能 1:1 保留你的原始内容语气、文风、埋梗等等。目前感觉豆包的准确率和速度会更好一些,输出速度快,说完即写完;而 Typeless 则适合用于【交流】,说完后需要等一会,但也节省了复制到 GPT 让它帮润色纠错等环节的时间。闪电说则可以作为 Typeless 的「更强定制化」平替。至于输出内容的质量,除了依赖产品的提示词分层设计、系统提示词质量外,也非常依赖你配置的模型如何,针对这部分我还没能充分测试。Typeless 的产品理念是小白友好,开箱即用,尽量少地让用户操心技术概念;闪电说则是极客友好,通过工程上的自定义自由度来解决体验和质量问题,似乎更适合推上的开发者朋友。 PS: 我以前很喜欢流式输出,因为即时性的输出会让我觉得反馈很好,我知道它在工作,我能及时知道它有没有输出错误从而暂停和修改。但使用了一段时间 Typeless 和闪电说之后,我反而逐渐适应了这种「对着树洞说话」的感觉,因为这样视觉干扰更少,我可以更大程度将注意力集中在表达本身。