Seedance2-Skill:写出能跑通的视频提示词
- Smars
- Agent Skills , 开源工具
- 06 Jun, 2026
你打开一个 AI 视频工具,输入”一个女人走过霓虹灯街道的电影感画面”。点生成。
结果是:女人确实在走。但光线扁平,镜头一动不动,霓虹灯像 2018 年的廉价滤镜。
AI 视频生成有一个语法问题。模型能做很厉害的事——动态运镜、精确构图、音画同步——但它们在等一种大多数人不会说的提示词语言。
Seedance2-Skill 解决的就是这个问题。它把你的 AI agent 教成即梦 Seedance 2.0 的提示词专家——@ 引用语法、运镜术语、场景模版、真实产线可用的模板。
你得到什么
这个 skill 是一套提示词写作指南,打包给你的 AI agent。它不直接生成视频,而是教 agent 写出能跑出你想要的结果的提示词。
- @ 引用语法:Seedance 2.0 的核心交互机制。告诉模型每张图、每段视频、每段音频的用途——首帧、角色参考、运镜模板、背景音乐
- 运镜语言:推拉摇移跟、环绕、希区柯克变焦、主观视角——完整的电影摄影词汇,对应模型能理解的提示词术语
- 场景模版:12+ 种可直接套用的模板,覆盖广告、短剧、MV、科普、产品展示、舞蹈视频等
- 输入约束:图片/视频/音频的格式和数量上限,让 agent 不会建议不可能的组合
Seedance 2.0 是什么
即梦 Seedance 2.0 是字节跳动的多模态 AI 视频生成模型。支持图片、视频、音频、文本四种输入,产出 4-15 秒、最高 720p 的视频。能做角色一致性保持、运镜模仿、创意特效、音画同步。
和纯文本输入的视频生成工具不同,Seedance 2.0 期望你上传参考素材,并精确描述每份素材怎么用。这就是提示词语言的问题所在。
@ 引用系统
这是 skill 教会 agent 的核心能力。每个上传文件获得一个编号引用:@图1、@视频2、@音频1。然后你为每个引用指定确切用途:
@图1 作为首帧——视频从这里开始@图2 作为人物形象参考——模型锁定这个面容和服装@视频1 完全参考运镜和动作编排——复刻这段视频的运动方式@音频1 参考背景 BGM——用这段音乐配乐
没有这套语法,模型会把你的上传文件当作模糊的灵感参考。有了它,你获得的是逐元素的精确控制。
一条典型的组合提示词:
@图1的人物作为主角,参考@视频1的运镜和动作编排,背景BGM参考@音频1,场景参考@图2,一镜到底
skill 也帮 agent 规避常见错误:引用模糊(“参考 @视频1”——参考什么?运镜?动作?特效?),运镜指令冲突,在 5 秒内塞入 12 次场景切换。
提示词结构
Seedance 2.0 的提示词遵循一套结构模板:
[主体/人物设定] + [场景/环境] + [动作/运动描述] +
[运镜语言] + [分时段描述] + [转场/特效] +
[音频/音效设计] + [风格/氛围]
超过 8 秒的视频建议用分时段提示词:
0–3秒:[开场画面、运镜、动作]
3–6秒:[中段发展]
6–10秒:[高潮或关键动作]
10–15秒:[收尾、定格画面、品牌文字]
这套结构把”一个产品的视频”和”一支精良的产品广告片”区分开来。skill 教你的 agent 用运镜语言思考,而非仅仅是场景描述。
场景模式
skill 覆盖的是产线可用的提示词模式,不是抽象理论:
- 角色一致性:锚定参考图,跨镜头保持同一人物形象
- 运镜复刻:上传一段参考视频,提取其运动方式,应用到你的主体上
- 创意特效模仿:从参考视频中克隆转场、视觉特效和广告风格
- 视频延长:向前或向后延长已有视频,延续其风格
- 视频编辑:定向修改已有视频中的特定元素——换角色、换发型、添加物体
- 音乐卡点:画面切换与上传音频的节奏精确同步
- 电商产品展示:360 度旋转、组件分离重组、3D 渲染特效
- 科普可视化:医学解剖、分子过程、教学 CGI
- 短剧带台词:有对白、有角色走位、有音效设计的脚本场景
每种模式都是一个模板,agent 填入你的具体需求。
安装
一行命令:
npx skills add dexhunter/seedance2-skill
或手动复制技能文件:
mkdir -p ~/.claude/skills
cp zh/SKILL.md ~/.claude/skills/seedance-prompt-zh.md
然后描述你想做什么——一支 15 秒的产品广告、一段短剧、一支 MV——agent 会帮你写出 Seedance 2.0 的提示词。
局限
这个 skill 不调用 Seedance 2.0 的 API。它写提示词。你仍然需要把提示词粘贴到即梦(jimeng.jianying.com)里手动生成。
skill 也不覆盖 Seedance 2.0 的全部能力——它聚焦在最常用、最可靠的模式上。高级边缘场景可能需要多次迭代提示词。
Seedance 2.0 本身的限制 skill 已在提示词层面遵守:参考素材中不能出现真人可辨识面部、最多 12 个文件、视频最长 15 秒。
Skills 不只是代码
上一篇写 edulab 展示了 skills 如何把 agent 延伸到教育领域。Seedance2-Skill 展示了另一种模式:skills 作为领域知识注入。
这个 skill 不跑 Python,不渲染 HTML。它教你的 agent 一套符号系统——@ 引用语法、运镜词汇、场景模板——然后 agent 就能用这套系统产出专业级的视频提示词。同一个能写代码的 agent,现在也能写摄影简报。
区别在于:agent 从知道”有视频生成这回事”,变成了能写出 @图1 作为首帧,对角色做希区柯克变焦,0-3秒建立镜头,3-8秒动作戏,BGM 参考 @音频1,2.35:1 宽银幕,电影级质感 并且真的能跑通。
试试看
Seedance2-Skill 是 MIT 协议开源项目,作者 dexhunter。装上它,描述你想要什么视频,让 agent 出提示词。