Videocut Skills：听懂你在说什么的 AI 视频剪辑

Smars
Agent Skills , 开源工具
06 Jun, 2026

你录了一段 19 分钟的口播视频。同一句话说了三遍。说到一半纠正自己。“嗯”了四十次。内容不错但节奏没法看。

你打开剪映，点”智能剪口播”。它删掉了空白段。它保留了同一句话的三个版本。它保留了每一个”嗯”和每一次说崩的 take。它不理解语言——它只看音频波形。

Videocut Skills 用语义解决这个问题。它是一个 Claude Code 插件，按人类的剪辑思维方式编辑口播视频：听懂你实际说了什么。

你得到什么

Videocut Skills 把 Claude Code 变成一个视频剪辑 agent。五个 skill 组成完整管线，从原始素材到带字幕的成品视频。

语义剪辑：Claude 逐句阅读转写文本，检测重复、自我纠正（“我是说，其实是……”）、话头起废、语气词。基于波形的编辑器做不到这些。
静音检测：可配置阈值（默认 >0.3 秒），自动标记删除。
重复句检测：相邻句子开头 ≥5 个字相同 → 删除前句保留后句。
句内重复：“好我们接下来好我们接下来做” → 删除重复部分。
自定义词典纠错：修复 ASR 对专业术语的识别错误（Claude Code 不会变成”cloud code”）。
自进化：记住你的偏好——“保留适量嗯作为过渡""静音阈值改成 1 秒”——下次自动应用。

完整管线

五个 skill，按顺序使用：

1. 安装（/videocut:安装）——一次性环境准备。检查 Python、FFmpeg、Node.js。下载 FunASR（约 2GB）和 Whisper large-v3（约 3GB）。

2. 剪口播（/videocut:剪口播 video.mp4）——核心功能。提取音频，上传到火山引擎 ASR 获取字级时间戳，然后 Claude 做语义审核：静音、语气词、重复、自我纠正。产出审核网页，浏览器打开。

3. 人工审核——端口 8899 的 web 界面。每条问题标注在时间轴上。单击跳转播放，双击选中/取消，Shift 拖拽多选。确认后点”执行剪辑”→ FFmpeg 用 filter_complex + trim 拼出最终视频。

4. 字幕（/videocut:字幕）——Whisper 转写 + 词典纠错。确认拼写无误后，FFmpeg 烧录字幕。

5. 高清化（/videocut:高清化，可选）——2-pass 编码 + 锐化。匹配原片参数，码率 1.2 倍。

真实数据

项目自己的演示：19 分钟原始素材，自动检出 608 处问题——114 处静音，494 处口误和重复。最终成片 72MB。一次人工审核，一次点击执行。

没有拖拽时间轴，没有扒波形找切入点。Claude 读了一遍转写文本，标注了每个问题，人只需要说是或否。

为什么比传统编辑器强

剪映的智能剪口播只在音频层面做判断。它看到静音就切。它不知道 A 句和 B 句是同一句话说了两遍。它不知道主播说了”点击那个——其实是，点一下按钮”，前半句应该删掉。

Videocut 用 Claude 的语言模型做剪辑。模型读转写文本。它理解”那我们，其实，我是说，开始吧”是对同一句开场白的三次尝试。它标记前两次删除，保留干净的版本。这不是裁剪，是剪辑。

对于技术内容创作者，字幕词典是个杀手功能。Whisper 和火山引擎都会把”Claude Code”转成”cloud code”或”克劳德扣的”。自定义词典在字幕上屏之前就修好了。

安装

克隆并配置：

git clone https://github.com/Ceeon/videocut-skills.git ~/.claude/skills/videocut
cd ~/.claude/skills/videocut
cp .env.example .env
# 编辑 .env —— 填入火山引擎 API Key

然后在 Claude Code 中：

/videocut:安装

agent 自动装好依赖。之后，甩给它一段视频，开始剪。

局限

Videocut 是为口播内容设计的——单人出镜讲解、教程、演讲。它不管多机位剪辑、调色、创意混剪。它是一个专一场景的精密工具。

ASR 环节需要火山引擎 API Key（有免费额度）。字幕 skill 下载 Whisper large-v3，约 3GB 磁盘占用。

好消息是每个剪辑决定在生效前都可以审核。Claude 提出删减建议，你确认。没有黑箱剪辑这回事。

Skills 是产线工具

eulab 展示了 skills 创作教育内容。Seedance2-Skill 展示了 skills 作为提示词工程专长。Videocut Skills 展示了另一种形态：skills 作为生产管线。

这不是玩具。这是有人为了解决自己的剪辑瓶颈而做的工具——带 web 审核界面、API 集成、模型下载、自更新规则。五个 skill 链成一条工作流，原始素材进，带字幕的精剪视频出。

“自进化”skill 是最有意思的一块。每次使用并给反馈——“保留一些嗯保持自然节奏”——它更新规则文件。下次这些偏好自动生效。agent 越用越会剪你的内容。

试试看

Videocut Skills 是 MIT 协议开源项目，1.8k star，279 fork，作者 Ceeon。克隆它，丢给它一段口播视频，让 Claude 来剪。

Videocut Skills on GitHub

Videocut Skills：听懂你在说什么的 AI 视频剪辑

你得到什么

完整管线

真实数据

为什么比传统编辑器强

安装

局限

Skills 是产线工具

试试看

标签 :

分享 :

相关文章

如何把真实世界的能力封装为 Agent Skill

HyperFrames：写 HTML 就能出视频，专为 AI Agent 设计

跟 Claude 说一声，图就画好了：/drawio 在 Claude Code 里直接出图

Karpathy 给 Claude Code 开的药方：四个原则治住 AI 乱写代码

edulab: 把数学题变成交互式 3D 课堂

Karpathy 的 LLM Wiki：让 AI 把知识编译成会生长的第二大脑