配置指南

把 Aloud 跑起来

Aloud 自己不带语音识别，靠你的火山引擎账号调豆包流式 ASR。三步：开通服务拿凭证、给系统权限、（可选）配术语词库。第一步不做这工具完全不工作。

第一步 · 必做

开通火山豆包，拿 AppID / Access Token

登录火山引擎控制台，搜索「豆包语音」或进入「智能语音」。
创建一个应用（Application），开通 语音识别大模型 服务。注意是「大模型 / 流式语音识别 2.0」，不是老的小模型版——Aloud 用的是 2.0，开错了识别会报 403。
在应用详情页拿到两个值：AppID 和 Access Token。
打开 Aloud 菜单栏图标 → Voice Engine Settings…，在「豆包流式语音识别（必填）」分块把这两个值填进 App ID 和 Access Token，点 Save。
填完按一次 Fn 说句话试试。出字就成了。

报 403 / 未开通怎么办

错误信息常写「服务未开通」，但真实原因多半是开通的是小模型版而不是大模型流式 2.0。回控制台确认开通的服务是「语音识别大模型」，等几分钟生效后再试。凭证本身错只会鉴权失败，不会报 403。

第二步 · 必做

Aloud 未签名，且要监听 Fn 键、往别的应用注入文字、用麦克风录音，三项权限缺一就不工作。

首次打开：双击会被拦。右键点 Aloud.app → 选「打开」→ 再「打开」一次；或去 系统设置 → 隐私与安全性，下面会有一行「仍要打开」。
麦克风：系统设置 → 隐私与安全性 → 麦克风，打开 Aloud。
辅助功能：系统设置 → 隐私与安全性 → 辅助功能，打开 Aloud。监听 Fn 键和把文字注入当前输入框都靠它，不给这个按 Fn 没反应。

改完权限重启一次 Aloud 最稳。

第三步 · 可选

技术词、人名、产品名容易被听成同音字。术语词库在识别前就把这些词喂给豆包，比识别后让 LLM 猜更准，也没那几秒延迟。

Voice Engine Settings… → 「术语词库」的「热词」框，每行一个词，比如 Kubernetes、Pydantic、幂等、你常念的人名项目名。
上限约 100 条，超出的自动截掉。挑最容易被听错的高频词，不要堆。
纯本地存，识别时直传豆包，不上传到云端词表、不经第三方。
它和 LLM 纠错是两层：词库管识别前（更准、无延迟），LLM 管识别后兜底（改明显口误）。两个都开效果最好，也可只用词库关掉 LLM。