Options tutorial series is live — start here

配置指南

把 Aloud 跑起来

Aloud 自己不带语音识别,靠你的火山引擎账号调豆包流式 ASR。三步:开通服务拿凭证、给系统权限、(可选)配术语词库。第一步不做这工具完全不工作。

第一步 · 必做

开通火山豆包,拿 AppID / Access Token

  1. 登录 火山引擎控制台,搜索「豆包语音」或进入「智能语音」。
  2. 创建一个应用(Application),开通 语音识别大模型 服务。注意是「大模型 / 流式语音识别 2.0」,不是老的小模型版——Aloud 用的是 2.0,开错了识别会报 403。
  3. 在应用详情页拿到两个值:AppIDAccess Token
  4. 打开 Aloud 菜单栏图标 → Voice Engine Settings…,在「豆包流式语音识别(必填)」分块把这两个值填进 App IDAccess Token,点 Save
  5. 填完按一次 Fn 说句话试试。出字就成了。

报 403 / 未开通怎么办

错误信息常写「服务未开通」,但真实原因多半是开通的是小模型版而不是大模型流式 2.0。回控制台确认开通的服务是「语音识别大模型」,等几分钟生效后再试。凭证本身错只会鉴权失败,不会报 403。

第二步 · 必做

系统权限

Aloud 未签名,且要监听 Fn 键、往别的应用注入文字、用麦克风录音,三项权限缺一就不工作。

  • 首次打开:双击会被拦。右键点 Aloud.app → 选「打开」→ 再「打开」一次;或去 系统设置 → 隐私与安全性,下面会有一行「仍要打开」。
  • 麦克风系统设置 → 隐私与安全性 → 麦克风,打开 Aloud。
  • 辅助功能系统设置 → 隐私与安全性 → 辅助功能,打开 Aloud。监听 Fn 键和把文字注入当前输入框都靠它,不给这个按 Fn 没反应。

改完权限重启一次 Aloud 最稳。

第三步 · 可选

术语词库

技术词、人名、产品名容易被听成同音字。术语词库在识别前就把这些词喂给豆包,比识别后让 LLM 猜更准,也没那几秒延迟。

  • Voice Engine Settings… → 「术语词库」的「热词」框,每行一个词,比如 KubernetesPydantic幂等、你常念的人名项目名。
  • 上限约 100 条,超出的自动截掉。挑最容易被听错的高频词,不要堆。
  • 纯本地存,识别时直传豆包,不上传到云端词表、不经第三方。
  • 它和 LLM 纠错是两层:词库管识别前(更准、无延迟),LLM 管识别后兜底(改明显口误)。两个都开效果最好,也可只用词库关掉 LLM。

还没下载?回 Aloud 下载页。出问题发 hello@openedon.com