PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具,它基于国产大模型(豆包/千问)提供的实时自动语音识别(ASR)能力,实现了低延迟、高准确率的语音转文字功能,并进一步集成了大语言模型(LLM),支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win(或自定义快捷键)说话,松开后系统会自动将识别结果粘贴到当前光标所在的文本框,实现“按键即写”的流畅体验。
该项目提供两种主要工作模式:
1.听写模式 – 传统的语音转文字功能
2. AI 助手模式 – 语音控制文本处理
PushToTalk 采用纯本地运行的设计,数据不上传云端,兼顾隐私安全;同时提供开箱即用的二进制发布和源码编译指南,方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈,用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。
PushToTalk 将语音识别、语言模型与快捷键交互深度融合,为 Windows 用户提供了一站式的语音输入解决方案。
面向团队的专业 UI/UX 设计工具