NexusVoice-2.5 是一个基于 React 18、Vite 和 Tailwind CSS 构建的纯净版全栈 AI 语音虚拟助手项目。本项目彻底剥离了冗余的跨平台包装(如 Electron、Capacitor 等),以极简、极速的理念打造纯粹的现代 Web 应用程序。
它不仅仅是一个文本聊天工具,更是一个多模态交互平台。通过深度集成浏览器的 Web Speech API,实现了精准的语音识别(ASR)与流畅的文字转语音(TTS);配合精心优化的 HTML5 视频同步播报系统,NexusVoice 能够让 AI 在回复时呈现出仿佛真人般的动态视觉反馈,为您带来沉浸式的对话体验。
- 🎙️ 全双工语音交互:打破纯文本限制,原生支持实时语音录入与语音合成,无需额外安装庞大插件,极低延迟。
- 🎬 创新视频同步控制:当 AI 开始通过 TTS 发声时,同步触发虚拟形象的视频播放;语音结束即停止,视觉与听觉完美对齐。
- 🧠 纯净版大模型矩阵:
- 严格把控模型质量,内置仅支持 DeepSeek-V3.2、豆包 Doubao-1.8 和 智谱 GLM-4.7 三大顶尖中文大模型。
- 提供自定义 API 选项供开发者扩展,拒绝任何未授权的私有或劣质模型夹带(如小米模型等),保持业务逻辑的绝对纯净。
- 🎨 桌面级 UI 与极致个性化:
- 采用现代化卡片式响应布局,适配桌面与大屏体验。
- 内置 6 套精美主题(深色、霓虹、马卡龙等),支持随心切换。
- 🌍 无缝国际化 (i18n):全站采用 Zustand 进行状态管理,支持中英双语毫秒级热切换。
- ⚡ Serverless 极速部署:后端采用 Python FastAPI 构建轻量级网关,完美适配 Vercel Serverless Functions。只需配置环境变量即可实现零配置秒级上线。
- 语音输入:用户通过麦克风输入,前端利用 Web Speech API 将音频转换为文本。
- 网关转发:文本数据连同选定的模型参数发送至
api/index.py(FastAPI Serverless)。 - LLM 处理:后端携带正确的 API Key 异步请求 DeepSeek / Doubao / GLM 等大模型接口。
- TTS 与视频同步:前端接收到回复后,调用浏览器 TTS 引擎进行语音播报,并同步激活 HTML5 Video 播放,形成生动的虚拟人交互。
# 1. 克隆仓库
git clone https://github.com/Ymien/NexusVoice-2.5.git
cd NexusVoice-2.5
# 2. 安装前端依赖
npm install
# 3. 配置环境变量 (复制 .env.example 到 .env 并填入您的 API Key)
# VITE_DEEPSEEK_API_KEY=your_key_here
# VITE_DOUBAO_API_KEY=your_key_here
# VITE_GLM_API_KEY=your_key_here
# 4. 启动开发服务器
npm run dev本项目目录结构完全适配 Vercel:
- 将项目推送至 GitHub
main分支。 - 在 Vercel 导入该仓库,框架预设会自动识别为 Vite/React。
- 在 Vercel 的 Environment Variables 中填入必要的
VITE_*_API_KEY。 - 部署完成!根目录的
vercel.json将自动路由/api/*请求至 Python 后端。
💡 声明:每次版本更新时,我们将遵循严格的“代码洁癖”原则,彻底清理历史无用文件和分支。云端仓库仅保留最新的更新公告与维持网站运行的必要核心文件。更新详情请参阅 CHANGELOG。