Jimmy Cheung

统计数据

9

文章

0

粉丝

0

获赞

248

阅读

1天前

好像每一次有新的语音输入法发布，都会在推上引发激烈的讨论。有的小伙伴激动得就像发现了新大陆，有的小伙伴则皱眉挑战它与之前的某款相比有何特色。比如这次豆包也公测了自己的 Mac 输入法，体验了一下，确实被惊艳到了（但不是语音输入）。分享一下我对于不同 Mac 语音输入法特色的理解，帮你找到适合你的那款： Mac 原生语音输入：激活后，光标处会跟随一个麦克风符号，视觉很轻量。在口述的过程中，「流式输出」口述的内容，并根据后面输出的内容动态调整之前的内容、断句和标点。其核心是最大程度 1:1 还原口述内容，识别和输出速度极快，视觉反馈很好。但因为是本地算法，准确率不佳，时常伴随发音相似的错别词。微信语音输入：分为两款。一款集成在【微信输入法】中，适合日常使用微信输入法的朋友，因为使用时需要确保当前输入法是微信输入法；另一款则集成在【微信客户端】中，使用过程中只要微信客户端在后台运行即可，无需切换输入法。输入体验与 Mac 自带的语音输入法很像：流式输出，1:1 还原口述内容。输出速度相比 Mac 原生的要慢一些，但准确率要高很多，适合代替 Mac 原生语音输入功能。豆包输入法：对标微信输入法，一款包含语音输入的文本输入法，使用时需要切换到豆包输入法。输入体验也和微信输入法类似：在口述表达的过程中，流式输出刚刚说的内容，并结合上下文语境自动纠错前面的内容和标点。整体来说，输入的速度要比微信输入法快一些，体感要好一些，个人体感准确率也要比微信高一些。但可能是因为测试版，使用过程中经常中断失败，可能是没做自动重连。最让我惊艳的反而是【键盘输入】，它的准确率甚至媲美我积累了多年词库的搜狗输入法，明显是具备了根据上下文自动调整词频的能力，可能还包含了自动纠错的能力，因为我几乎没有感受到什么阻碍，退格删除的频次很低很低，这也是为什么我除了跨端场景一直很少用微信输入法：懒得再培养词库了。目前输入法本身的可配置项还比较简陋，比如不支持模糊音配置（但我发现似乎压根不需要用户去操心什么是模糊音，默认支持），虽然配置项少，但似乎也够用，看来是产品有花心思做减法。 Typeless：产品形态并不是输入法，可搭配任意键盘输入法使用，无需切换。其核心是【语音输入】+【语音助手】+【即时翻译】。对于语音输入：口述输入的过程并不是流式输出，也不会 1:1 还原口述的内容，而是会自动帮助用户过滤“嗯”、“啊”等口语词，删除口误内容并使用正确版本，将输入内容言简意赅地结构化表达。其另外一个特色是语音助手，可以选中一封「英文」邮件的内容，直接说「中文」指令，比如「帮我答复这封邮件，就说我收到了，感谢对方」，然后它会输出一封包含客套内容的「英文」邮件。即时翻译功能则是直接说中文，它根据中文内容润色加工后输出英文翻译。所以 Typeless 的核心场景是【交流】，而非【输入】，就很适合用来和 AI 对话，比如 Vibe Coding。订阅制，开箱即用，用户不需要操心「模型」、「API Key」等概念。要说缺点，那就是贵，真贵，$144 一年。使用强度不大的话（比如白天公司打字晚上回家语音），免费版也够用。闪电说：目前的版本产品形态已不再是单纯的语音输入，形态和 Typeless 类似，集成了【语音输入】+【语音助手】，并且拥有长期记忆、自定义技能（口语过滤、结构化表达等为内置技能）、阅读屏幕（通过截图给多模态模型来了解上下文并针对性输出结果）等能力。对极客友好的一点是：不同的场景支持配置不同的模型，比如「语音识别」可以用 flash 模型提高速度，而「语音助手」则可以配置参数更高的模型来确保对指令的理解和输出的质量。最牛逼的是：目前完全免费。整体感受：微信/豆包输入法，适合作为【输入】本身，比如写文章，它能 1:1 保留你的原始内容语气、文风、埋梗等等。目前感觉豆包的准确率和速度会更好一些，输出速度快，说完即写完；而 Typeless 则适合用于【交流】，说完后需要等一会，但也节省了复制到 GPT 让它帮润色纠错等环节的时间。闪电说则可以作为 Typeless 的「更强定制化」平替。至于输出内容的质量，除了依赖产品的提示词分层设计、系统提示词质量外，也非常依赖你配置的模型如何，针对这部分我还没能充分测试。Typeless 的产品理念是小白友好，开箱即用，尽量少地让用户操心技术概念；闪电说则是极客友好，通过工程上的自定义自由度来解决体验和质量问题，似乎更适合推上的开发者朋友。 PS：我以前很喜欢流式输出，因为即时性的输出会让我觉得反馈很好，我知道它在工作，我能及时知道它有没有输出错误从而暂停和修改。但使用了一段时间 Typeless 和闪电说之后，我反而逐渐适应了这种「对着树洞说话」的感觉，因为这样视觉干扰更少，我可以更大程度将注意力集中在表达本身。

4个月前

LaunchOS 今天也在 ProductHunt 上发布了，虽然并不指望能上榜，但如果朋友们方便的话，希望可以帮点一下 upvote，谢谢大家（鞠躬）~

#LaunchOS #ProductHunt #发布 #upvote #感谢

4个月前

快吐了，和搭档高强度连续加班了一个多月，上周五终于把 LaunchOS 正式版上线了。它是 macOS 26 的启动台替代品。内测用户说是目前替代品里体验最好的。

#LaunchOS #macOS 26 #启动台替代品 #高强度加班 #积极

5个月前

有没有朋友分享一下 AI 浏览器的妙用，我卡在 Arc 上了，始终迁移不出去...

#AI浏览器 #Arc #用户体验 #迁移困难 #求助

6个月前

我不太理解，为什么 Vibe Coding，AI 可以在几分钟内实现一个复杂的功能逻辑，但是对于 UI 的还原能力却差得离谱，一个 hover 效果，和 AI 掰扯了 1 个小时... Figma MCP 一句提示词就能还原出设计稿的整体框架，但开始聊细节，就完全不好使了，相比导入截图，也就在色值的使用上更准确一些

#Vibe Coding #AI UI还原 #Figma MCP #UI细节问题 #技术瓶颈

10个月前

豆包：🤩 ChatGPT：🤔 Grok：？？？？🤣 Prompt：人像摄影，日常快照风格，非精心构图或打光，一位气质御姐，穿着轻薄吊带睡衣，动作为在镜子前随手自拍，场景为酒店房间，站在落地镜前，用 iPhone 后置镜头自拍，开启闪光灯，略带快门速度不够造成的运动模糊，构图随意、角度尴尬、画面不够对称或美观，画质带有日常感和粗糙感，体现「平凡无奇」，9:16 构图

#人像摄影 #自拍 #日常风 #酒店自拍 #iPhone摄影 #御姐 #镜子自拍 #快照摄影

11个月前

Siri (AirPods)：微信发送了一条长通知，要朗读吗？我：朗读! Siri (AirPods)：朗读，Reading Aloud，是一种大声的阅读方式，它是小学生完成阅读起点的基本...

#Siri #Airpods #微信 #朗读

1年前

今天情绪非常低落，压力非常大，我不清楚我现在做什么，是从现在开始到将来都还有价值的。比如 GPT-4o 的图像能力，直接干翻了之前很多创业公司的产品，他们花了那么多时间、人力、投资人的钱去调优的算法、工作流、模型，直接被一次大模型的更新就取代了。昨天还在看 SD 教程，今天发现白看了...

#情绪低落 #压力大 #人工智能 #创业 #投资 #大模型更新 #技术变革 #失去价值感 #自动化 #职业竞争

1年前

不知不觉，曾凭借一腔开源热忱，打造的免费可商用图标库 Remix Icon 已经维护了 6 年了，随着用户量的持续攀升，这份责任感也越来越重。自己也没想到，业余时间，用爱发电，能坚持这么久。昨天刚刚发布了 v4.4.0，新增一大波 AI 场景的图标，官网、仓库、Figma 插件、Npm、React、Vue 同步更新！官网地址：

#Remix Icon #开源图标库 #免费可商用 #AI场景 #v4.4.0