Voice-Pro 开源：一个自托管的 ElevenLabs 替代品

John Doe
工具 , AI
11 May, 2026

市面上做语音处理的工具很多，但要么按分钟收费（ElevenLabs、Maestra），要么功能割裂——STT 一套工具、TTS 另一套、翻译再来一套。Voice-Pro 是一个自托管的 Gradio 应用，它把 YouTube 下载、音频分离、语音识别、翻译、语音克隆和文本转语音全装进同一个 Web UI，现在 v3.2 已经全部开源免费。

一条管道，全链路覆盖

把任何 YouTube 链接或本地视频文件丢进去。yt-dlp 下载、Demucs 分离人声和背景音、Whisper 系列（Faster-Whisper、WhisperX）出字幕、Deep-Translator 实时翻译成 100 多种语言，最后用 Edge-TTS、F5-TTS、CosyVoice 或 kokoro 生成目标语言的合成语音——支持零样本语音克隆，30 秒样本就能复刻任何人的声音。所有模型在本机运行，数据不出你的电脑。

与商用 SaaS 的账本对比

处理一个 60 分钟视频的字幕、翻译和配音：Maestra 约 24 美元、Kapwing 30 到 40 美元、HappyScribe 36 到 48 美元——Voice-Pro 零元。但真正的价值不是省钱，而是控制权。不怕 API 涨价，不担心音视频数据外泄，不受文件格式限制。支持 WhisperX 单词级时间戳高亮、kokoro 在 HuggingFace TTS 竞技场排名第二，硬件门槛只有一张支持 CUDA 12.4 的 NVIDIA 显卡。

语音 AI 的付费墙背后往往不是技术的门槛，而是分发方式的投机。Voice-Pro 直接把它拆了。

Voice-Pro 开源：一个自托管的 ElevenLabs 替代品

一条管道，全链路覆盖

与商用 SaaS 的账本对比

标签 :

分享 :

相关文章

Andrew Ng 说不会有 AI 失业潮，他的理由是什么

让 AI Agent 帮你画架构图：drawio-mcp 使用指南

飞书 CLI 大更新：100+ 新能力，Agent 即人类

AI 做 PPT 的新高度：每个形状都能在 PowerPoint 里编辑