PushToTalk | 梦幻铺导航

办公提效

PushToTalk

一个高性能的桌面语音输入工具，集成了大语言模型（LLM）能力。按住快捷键说话，松开自动转录并插入文本 | AI 智能助手，语音控制一切。

链接直达手机查看

PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具，它基于国产大模型（豆包/千问）提供的实时自动语音识别（ASR）能力，实现了低延迟、高准确率的语音转文字功能，并进一步集成了大语言模型（LLM），支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win（或自定义快捷键）说话，松开后系统会自动将识别结果粘贴到当前光标所在的文本框，实现“按键即写”的流畅体验。

该项目提供两种主要工作模式：

1.听写模式 – 传统的语音转文字功能

2. AI 助手模式 – 语音控制文本处理

PushToTalk 采用纯本地运行的设计，数据不上传云端，兼顾隐私安全；同时提供开箱即用的二进制发布和源码编译指南，方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈，用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。

PushToTalk 将语音识别、语言模型与快捷键交互深度融合，为 Windows 用户提供了一站式的语音输入解决方案。

相关导航