PushToTalk
办公提效
PushToTalk

一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。按住快捷键说话,松开自动转录并插入文本 | AI 智能助手,语音控制一切。

PushToTalk 是一款面向 Windows 平台的高性能桌面语音输入工具,它基于国产大模型(豆包/千问)提供的实时自动语音识别(ASR)能力,实现了低延迟、高准确率的语音转文字功能,并进一步集成了大语言模型(LLM),支持在转写后进行智能润色、摘要或指令执行。用户只需按住 Ctrl + Win(或自定义快捷键)说话,松开后系统会自动将识别结果粘贴到当前光标所在的文本框,实现“按键即写”的流畅体验。

该项目提供两种主要工作模式:

1.听写模式 – 传统的语音转文字功能

2. AI 助手模式 – 语音控制文本处理

PushToTalk 采用纯本地运行的设计,数据不上传云端,兼顾隐私安全;同时提供开箱即用的二进制发布和源码编译指南,方便开发者二次开发或自行部署。项目在开源社区获得了积极反馈,用户可通过 GitHub 提交 Issue 或 Pull Request 参与改进。

PushToTalk 将语音识别、语言模型与快捷键交互深度融合,为 Windows 用户提供了一站式的语音输入解决方案。

相关导航