Voice-Pro 开源:一个自托管的 ElevenLabs 替代品

Voice-Pro 开源:一个自托管的 ElevenLabs 替代品

市面上做语音处理的工具很多,但要么按分钟收费(ElevenLabs、Maestra),要么功能割裂——STT 一套工具、TTS 另一套、翻译再来一套。Voice-Pro 是一个自托管的 Gradio 应用,它把 YouTube 下载、音频分离、语音识别、翻译、语音克隆和文本转语音全装进同一个 Web UI,现在 v3.2 已经全部开源免费。

一条管道,全链路覆盖

把任何 YouTube 链接或本地视频文件丢进去。yt-dlp 下载、Demucs 分离人声和背景音、Whisper 系列(Faster-Whisper、WhisperX)出字幕、Deep-Translator 实时翻译成 100 多种语言,最后用 Edge-TTS、F5-TTS、CosyVoice 或 kokoro 生成目标语言的合成语音——支持零样本语音克隆,30 秒样本就能复刻任何人的声音。所有模型在本机运行,数据不出你的电脑。

与商用 SaaS 的账本对比

处理一个 60 分钟视频的字幕、翻译和配音:Maestra 约 24 美元、Kapwing 30 到 40 美元、HappyScribe 36 到 48 美元——Voice-Pro 零元。但真正的价值不是省钱,而是控制权。不怕 API 涨价,不担心音视频数据外泄,不受文件格式限制。支持 WhisperX 单词级时间戳高亮、kokoro 在 HuggingFace TTS 竞技场排名第二,硬件门槛只有一张支持 CUDA 12.4 的 NVIDIA 显卡。

语音 AI 的付费墙背后往往不是技术的门槛,而是分发方式的投机。Voice-Pro 直接把它拆了。

相关文章

Andrew Ng 说不会有 AI 失业潮,他的理由是什么

Andrew Ng 说不会有 AI 失业潮,他的理由是什么

2026 年 5 月 13 日凌晨,Andrew Ng 在 X 上发布了一条措辞强硬的帖子。标题只有一句话——「不会有 AI 失业末日」。正文开头是更直接的表态:AI 会导致大规模失业的说法正在煽动不 ...

让 AI Agent 帮你画架构图:drawio-mcp 使用指南

让 AI Agent 帮你画架构图:drawio-mcp 使用指南

AI 编码 Agent 有一个众所周知的短板:画图。它能用文本描述一个流程图,能生成半渲染的 Mermaid 代码,或者输出一个看起来像 90 年代互联网的 ASCII art——但没有任何一种产出是 ...

飞书 CLI 大更新:100+ 新能力,Agent 即人类

飞书 CLI 大更新:100+ 新能力,Agent 即人类

2026 年 5 月 12 日下午六点,Gorden Sun 在 X 上扔了一颗炸弹:飞书 CLI 更新了一百多个新能力,而且更开放了。不止是连通了 Agent,而是打通了整个飞书生态——人能怎么用飞 ...

AI 做 PPT 的新高度:每个形状都能在 PowerPoint 里编辑

AI 做 PPT 的新高度:每个形状都能在 PowerPoint 里编辑

市面上多数 AI 做 PPT 的工具,产出的 .pptx 表面漂亮但每页都是图片——改一个字就要整页重做。PPT Master 走了一条完全不同的路:它生成的每个文本框、每个形状、每个图表,都是原生 ...