Voice-Pro 开源:一个自托管的 ElevenLabs 替代品
市面上做语音处理的工具很多,但要么按分钟收费(ElevenLabs、Maestra),要么功能割裂——STT 一套工具、TTS 另一套、翻译再来一套。Voice-Pro 是一个自托管的 Gradio 应用,它把 YouTube 下载、音频分离、语音识别、翻译、语音克隆和文本转语音全装进同一个 Web UI,现在 v3.2 已经全部开源免费。
一条管道,全链路覆盖
把任何 YouTube 链接或本地视频文件丢进去。yt-dlp 下载、Demucs 分离人声和背景音、Whisper 系列(Faster-Whisper、WhisperX)出字幕、Deep-Translator 实时翻译成 100 多种语言,最后用 Edge-TTS、F5-TTS、CosyVoice 或 kokoro 生成目标语言的合成语音——支持零样本语音克隆,30 秒样本就能复刻任何人的声音。所有模型在本机运行,数据不出你的电脑。
与商用 SaaS 的账本对比
处理一个 60 分钟视频的字幕、翻译和配音:Maestra 约 24 美元、Kapwing 30 到 40 美元、HappyScribe 36 到 48 美元——Voice-Pro 零元。但真正的价值不是省钱,而是控制权。不怕 API 涨价,不担心音视频数据外泄,不受文件格式限制。支持 WhisperX 单词级时间戳高亮、kokoro 在 HuggingFace TTS 竞技场排名第二,硬件门槛只有一张支持 CUDA 12.4 的 NVIDIA 显卡。
语音 AI 的付费墙背后往往不是技术的门槛,而是分发方式的投机。Voice-Pro 直接把它拆了。