Videocut Skills:听懂你在说什么的 AI 视频剪辑

你录了一段 19 分钟的口播视频。同一句话说了三遍。说到一半纠正自己。“嗯”了四十次。内容不错但节奏没法看。

你打开剪映,点”智能剪口播”。它删掉了空白段。它保留了同一句话的三个版本。它保留了每一个”嗯”和每一次说崩的 take。它不理解语言——它只看音频波形。

Videocut Skills 用语义解决这个问题。它是一个 Claude Code 插件,按人类的剪辑思维方式编辑口播视频:听懂你实际说了什么。

你得到什么

Videocut Skills 把 Claude Code 变成一个视频剪辑 agent。五个 skill 组成完整管线,从原始素材到带字幕的成品视频。

  • 语义剪辑:Claude 逐句阅读转写文本,检测重复、自我纠正(“我是说,其实是……”)、话头起废、语气词。基于波形的编辑器做不到这些。
  • 静音检测:可配置阈值(默认 >0.3 秒),自动标记删除。
  • 重复句检测:相邻句子开头 ≥5 个字相同 → 删除前句保留后句。
  • 句内重复:“好我们接下来好我们接下来做” → 删除重复部分。
  • 自定义词典纠错:修复 ASR 对专业术语的识别错误(Claude Code 不会变成”cloud code”)。
  • 自进化:记住你的偏好——“保留适量嗯作为过渡""静音阈值改成 1 秒”——下次自动应用。

完整管线

五个 skill,按顺序使用:

1. 安装/videocut:安装)——一次性环境准备。检查 Python、FFmpeg、Node.js。下载 FunASR(约 2GB)和 Whisper large-v3(约 3GB)。

2. 剪口播/videocut:剪口播 video.mp4)——核心功能。提取音频,上传到火山引擎 ASR 获取字级时间戳,然后 Claude 做语义审核:静音、语气词、重复、自我纠正。产出审核网页,浏览器打开。

3. 人工审核——端口 8899 的 web 界面。每条问题标注在时间轴上。单击跳转播放,双击选中/取消,Shift 拖拽多选。确认后点”执行剪辑”→ FFmpeg 用 filter_complex + trim 拼出最终视频。

4. 字幕/videocut:字幕)——Whisper 转写 + 词典纠错。确认拼写无误后,FFmpeg 烧录字幕。

5. 高清化/videocut:高清化,可选)——2-pass 编码 + 锐化。匹配原片参数,码率 1.2 倍。

真实数据

项目自己的演示:19 分钟原始素材,自动检出 608 处问题——114 处静音,494 处口误和重复。最终成片 72MB。一次人工审核,一次点击执行。

没有拖拽时间轴,没有扒波形找切入点。Claude 读了一遍转写文本,标注了每个问题,人只需要说是或否。

为什么比传统编辑器强

剪映的智能剪口播只在音频层面做判断。它看到静音就切。它不知道 A 句和 B 句是同一句话说了两遍。它不知道主播说了”点击那个——其实是,点一下按钮”,前半句应该删掉。

Videocut 用 Claude 的语言模型做剪辑。模型读转写文本。它理解”那我们,其实,我是说,开始吧”是对同一句开场白的三次尝试。它标记前两次删除,保留干净的版本。这不是裁剪,是剪辑。

对于技术内容创作者,字幕词典是个杀手功能。Whisper 和火山引擎都会把”Claude Code”转成”cloud code”或”克劳德扣的”。自定义词典在字幕上屏之前就修好了。

安装

克隆并配置:

git clone https://github.com/Ceeon/videocut-skills.git ~/.claude/skills/videocut
cd ~/.claude/skills/videocut
cp .env.example .env
# 编辑 .env —— 填入火山引擎 API Key

然后在 Claude Code 中:

/videocut:安装

agent 自动装好依赖。之后,甩给它一段视频,开始剪。

局限

Videocut 是为口播内容设计的——单人出镜讲解、教程、演讲。它不管多机位剪辑、调色、创意混剪。它是一个专一场景的精密工具。

ASR 环节需要火山引擎 API Key(有免费额度)。字幕 skill 下载 Whisper large-v3,约 3GB 磁盘占用。

好消息是每个剪辑决定在生效前都可以审核。Claude 提出删减建议,你确认。没有黑箱剪辑这回事。

Skills 是产线工具

eulab 展示了 skills 创作教育内容。Seedance2-Skill 展示了 skills 作为提示词工程专长。Videocut Skills 展示了另一种形态:skills 作为生产管线。

这不是玩具。这是有人为了解决自己的剪辑瓶颈而做的工具——带 web 审核界面、API 集成、模型下载、自更新规则。五个 skill 链成一条工作流,原始素材进,带字幕的精剪视频出。

“自进化”skill 是最有意思的一块。每次使用并给反馈——“保留一些嗯保持自然节奏”——它更新规则文件。下次这些偏好自动生效。agent 越用越会剪你的内容。

试试看

Videocut Skills 是 MIT 协议开源项目,1.8k star,279 fork,作者 Ceeon。克隆它,丢给它一段口播视频,让 Claude 来剪。

Videocut Skills on GitHub

相关文章

如何把真实世界的能力封装为 Agent Skill

通用 AI Agent 能力很强,但缺少每支团队都有的东西:程序性知识。你的代码审核清单、部署手册、API 规范——这些都不在模型的训练数据里。 这就是 Agent Skill 要解 ...

HyperFrames:写 HTML 就能出视频,专为 AI Agent 设计

做视频很慢。 传统视频工具是时间轴驱动的:拖素材、调关键帧、渲染、导出、修改、再渲染。你没法自动化这个流程,更没法让 AI 帮你做——因为 Premiere 不接受 prompt。 如果你想让代码 ...

跟 Claude 说一声,图就画好了:/drawio 在 Claude Code 里直接出图

跟 Claude 说一声,图就画好了:/drawio 在 Claude Code 里直接出图

你在跟 Claude Code 描述系统架构。它回复了一堆 ASCII art,差不多能看,但总觉得差点意思。你心想:"要是能直接让它画张图就好了。" 可以。 draw.io 的 Claude C ...

Karpathy 给 Claude Code 开的药方:四个原则治住 AI 乱写代码

Andrej Karpathy 一句话戳到了痛点:LLM 会带着错误的假设一路狂奔。它们把代码搞复杂、造抽象层、乱动不该动的东西。最气人的是,它们做得彬彬有礼、信心满满、而且批量生产。 一个 CLA ...

edulab: 把数学题变成交互式 3D 课堂

一个学生盯着立体几何题发呆。"求直线 PQ 与平面 ABC 的夹角。" 课本上只有一张静态图。线叠在一起,角看不清楚。你没法旋转它,没法放大看交点,甚至无法直觉判断那个 120° 的答案在空间里到底对 ...

Karpathy 的 LLM Wiki:让 AI 把知识编译成会生长的第二大脑

Karpathy 的 LLM Wiki:让 AI 把知识编译成会生长的第二大脑

你把 20 份 PDF 扔进 NotebookLM,问了几个问题,答案看起来不错。第二天再问一个更细的问题,AI 又从零开始检索、拼接、猜测。没有积累。没有共识。没有记忆。 Karpathy 的 L ...