Videocut Skills:听懂你在说什么的 AI 视频剪辑
- Smars
- Agent Skills , 开源工具
- 06 Jun, 2026
你录了一段 19 分钟的口播视频。同一句话说了三遍。说到一半纠正自己。“嗯”了四十次。内容不错但节奏没法看。
你打开剪映,点”智能剪口播”。它删掉了空白段。它保留了同一句话的三个版本。它保留了每一个”嗯”和每一次说崩的 take。它不理解语言——它只看音频波形。
Videocut Skills 用语义解决这个问题。它是一个 Claude Code 插件,按人类的剪辑思维方式编辑口播视频:听懂你实际说了什么。
你得到什么
Videocut Skills 把 Claude Code 变成一个视频剪辑 agent。五个 skill 组成完整管线,从原始素材到带字幕的成品视频。
- 语义剪辑:Claude 逐句阅读转写文本,检测重复、自我纠正(“我是说,其实是……”)、话头起废、语气词。基于波形的编辑器做不到这些。
- 静音检测:可配置阈值(默认 >0.3 秒),自动标记删除。
- 重复句检测:相邻句子开头 ≥5 个字相同 → 删除前句保留后句。
- 句内重复:“好我们接下来好我们接下来做” → 删除重复部分。
- 自定义词典纠错:修复 ASR 对专业术语的识别错误(Claude Code 不会变成”cloud code”)。
- 自进化:记住你的偏好——“保留适量嗯作为过渡""静音阈值改成 1 秒”——下次自动应用。
完整管线
五个 skill,按顺序使用:
1. 安装(/videocut:安装)——一次性环境准备。检查 Python、FFmpeg、Node.js。下载 FunASR(约 2GB)和 Whisper large-v3(约 3GB)。
2. 剪口播(/videocut:剪口播 video.mp4)——核心功能。提取音频,上传到火山引擎 ASR 获取字级时间戳,然后 Claude 做语义审核:静音、语气词、重复、自我纠正。产出审核网页,浏览器打开。
3. 人工审核——端口 8899 的 web 界面。每条问题标注在时间轴上。单击跳转播放,双击选中/取消,Shift 拖拽多选。确认后点”执行剪辑”→ FFmpeg 用 filter_complex + trim 拼出最终视频。
4. 字幕(/videocut:字幕)——Whisper 转写 + 词典纠错。确认拼写无误后,FFmpeg 烧录字幕。
5. 高清化(/videocut:高清化,可选)——2-pass 编码 + 锐化。匹配原片参数,码率 1.2 倍。
真实数据
项目自己的演示:19 分钟原始素材,自动检出 608 处问题——114 处静音,494 处口误和重复。最终成片 72MB。一次人工审核,一次点击执行。
没有拖拽时间轴,没有扒波形找切入点。Claude 读了一遍转写文本,标注了每个问题,人只需要说是或否。
为什么比传统编辑器强
剪映的智能剪口播只在音频层面做判断。它看到静音就切。它不知道 A 句和 B 句是同一句话说了两遍。它不知道主播说了”点击那个——其实是,点一下按钮”,前半句应该删掉。
Videocut 用 Claude 的语言模型做剪辑。模型读转写文本。它理解”那我们,其实,我是说,开始吧”是对同一句开场白的三次尝试。它标记前两次删除,保留干净的版本。这不是裁剪,是剪辑。
对于技术内容创作者,字幕词典是个杀手功能。Whisper 和火山引擎都会把”Claude Code”转成”cloud code”或”克劳德扣的”。自定义词典在字幕上屏之前就修好了。
安装
克隆并配置:
git clone https://github.com/Ceeon/videocut-skills.git ~/.claude/skills/videocut
cd ~/.claude/skills/videocut
cp .env.example .env
# 编辑 .env —— 填入火山引擎 API Key
然后在 Claude Code 中:
/videocut:安装
agent 自动装好依赖。之后,甩给它一段视频,开始剪。
局限
Videocut 是为口播内容设计的——单人出镜讲解、教程、演讲。它不管多机位剪辑、调色、创意混剪。它是一个专一场景的精密工具。
ASR 环节需要火山引擎 API Key(有免费额度)。字幕 skill 下载 Whisper large-v3,约 3GB 磁盘占用。
好消息是每个剪辑决定在生效前都可以审核。Claude 提出删减建议,你确认。没有黑箱剪辑这回事。
Skills 是产线工具
eulab 展示了 skills 创作教育内容。Seedance2-Skill 展示了 skills 作为提示词工程专长。Videocut Skills 展示了另一种形态:skills 作为生产管线。
这不是玩具。这是有人为了解决自己的剪辑瓶颈而做的工具——带 web 审核界面、API 集成、模型下载、自更新规则。五个 skill 链成一条工作流,原始素材进,带字幕的精剪视频出。
“自进化”skill 是最有意思的一块。每次使用并给反馈——“保留一些嗯保持自然节奏”——它更新规则文件。下次这些偏好自动生效。agent 越用越会剪你的内容。
试试看
Videocut Skills 是 MIT 协议开源项目,1.8k star,279 fork,作者 Ceeon。克隆它,丢给它一段口播视频,让 Claude 来剪。