🎬 【AI视频创作30天】Day3:文生视频/图生视频/延长,完整工作流讲解
📊 阅读前提醒:本文约10000字,讲解AI视频的完整工作流程,从创意到产出的每一步都讲清楚。
📌 开场:为什么工作流比工具更重要
很多人问我:用什么工具生成AI视频?
我的回答是:工具只是工具,工作流才是核心能力。
同样用可灵AI,为什么有人能做出电影级短片,有人只能生成”动态表情包”?
差距不在工具,在于工作流。
今天这节课,就是帮你建立完整的AI视频工作流。学会了这个流程,不管用什么工具,你都能产出高质量的作品。
🎯 学完今天,你需要掌握这5个核心要点
1️⃣ 理解AI视频工作流的完整环节 —— 从创意到产出的每一步
2️⃣ 掌握文生视频的工作流程 —— 如何用文字生成视频
3️⃣ 掌握图生视频的工作流程 —— 如何让静态图片动起来
4️⃣ 学会视频延长的技巧 —— 突破时长限制的方法
5️⃣ 理解镜头控制的概念 —— 让AI按你的意愿运镜

📚 正文开始
3.1 🔄 AI视频工作流的完整环节
一个完整的AI视频创作工作流,通常包含以下环节:
第一环节:创意策划
核心任务:明确视频的目标、内容、风格
这个环节决定了视频的方向。很多人跳过这个环节直接生成,结果可想而知。
你需要确定:
我要做什么类型的视频?(科普、带货、故事、娱乐)
目标用户是谁?(宝妈、学生、白领、企业)
视频的核心信息是什么?(产品卖点、知识要点、情感共鸣)
风格偏好是什么?(写实、卡通、电影感、小清新)
第二环节:提示词撰写
核心任务:把创意翻译成AI能理解的语言
提示词是AI视频的”剧本”,决定了AI生成什么内容。
好的提示词包含:
主体:画面中的主要对象(人物、物体、场景)
动作:主体的行为或变化
场景:环境、背景、光线
风格:艺术风格、色调、情绪
镜头:景别、运镜方式
第三环节:生成与筛选
核心任务:生成多个版本,挑选最满意的
AI生成是概率事件,不要期待一次成功。生成10-20个版本,挑选最好的1-2个是常态。
筛选标准:
内容相关性 —— 是否符合你的创意
画面质量 —— 清晰度、美观度
动作流畅度 —— 有没有明显的抖动或穿帮
一致性 —— 前后帧是否连贯
第四环节:剪辑与后期
核心任务:把素材组合成完整作品
单个AI视频片段通常只有5-30秒,需要剪辑成完整视频。
剪辑工作流:
素材整理 —— 按场景/情绪分类
拼接组合 —— 按逻辑顺序排列
转场处理 —— 添加过渡效果
调色统一 —— 统一画面风格
音频添加 —— 配音、BGM、音效
字幕添加 —— 生成并校对字幕
第五环节:导出与发布
核心任务:输出最终版本,发布到平台
注意事项:
分辨率和帧率 —— 平台要求(通常1080P/30fps)
文件格式 —— MP4最通用
平台适配 —— 不同平台可能需要不同比例(抖音9:16,YouTube 16:9)
3.2 ✍️ 文生视频工作流程
文生视频(Text-to-Video)是最直接的AI视频方式。
输入:文字描述
输出:视频片段
第一步:明确你要创作的内容
在动笔之前,先问自己:
我想生成什么样的场景?
这个场景的核心元素是什么?
我希望有什么样的动作或变化?
第二步:撰写结构化提示词
好的提示词是成功的一半。按这个结构写:
示例:
坐在现代风格的咖啡馆里
手指轻轻敲击桌面,眼神望向窗外
电影感色调,温暖的金色光线
中景,平视,缓慢推进镜头
第三步:生成并迭代
生成策略:
先用一个简短的提示词测试,看AI的理解是否正确
确认方向后,再添加更多细节
同时生成3-5个版本,增加选择空间
迭代技巧:
第一次生成不满意 → 调整提示词关键词
动作不够自然 → 添加动作描述词(轻盈、缓慢、突然)
画面太暗/太亮 → 添加光线描述(明亮、柔和、逆光)
第四步:筛选与评估
生成的视频需要评估:
画面质量:清晰度、构图、色彩
内容准确:是否反映了你描述的场景
动作自然:有没有穿帮、抖动、不自然的变形
一致性:如果生成了多个片段,它们能否连贯
3.3 🖼️ 图生视频工作流程
图生视频(Image-to-Video)让静态图片”活起来”。
输入:一张图片
输出:动态视频片段
适合场景:
让照片中的人物动起来
让产品图展示动态效果
让插画/AI图变成动画
第一步:准备高质量的输入图片
图片质量直接影响输出质量。
图片要求:
清晰度:至少1080P以上
主体明确:画面中有明确的主体对象
背景简洁:不要太杂乱,否则AI可能理解错误
角度合适:正面或侧面照效果最好
第二步:描述想要的运动
在图生视频时,提示词描述的是你想让图片”怎么动”。
描述框架:
主体做什么动作?(转头、抬手、微笑)
镜头怎么运动?(推近、拉远、左右横移)
持续多长时间?(3秒、5秒、10秒)
示例:
输入:一张女性肖像照
提示词:女性轻轻转头面向镜头,微笑,眼神跟随镜头移动,镜头缓慢推进,持续5秒
第三步:使用高级功能提升质量
主流工具都有一些高级功能:
首尾帧控制:指定起点和终点图片,AI在两点之间生成过渡
参考图固定:上传参考图,保持角色或物体特征一致
运动笔刷:用画笔涂抹想要运动的区域,精确控制运动范围
第四步:延长与拼接
单次图生视频通常5-15秒,需要延长才能得到完整内容。
方法一:续写功能
在已有视频基础上,让AI继续生成后续内容
方法二:首尾帧延长
准备新的终点图片,用首尾帧功能生成过渡
方法三:拼接多个片段
分别生成不同片段,在剪辑软件中拼接
3.4 ⏱️ 视频延长的技巧
AI视频的时长限制(通常5-30秒)是最大的痛点。
这里分享三个突破限制的方法:
方法一:分段生成后拼接
原理:把完整内容拆成多个短片段,分别生成后拼接
步骤:
- 把创意按时间线分成若干段落(每段5-10秒)
- 为每段写独立的提示词,注意保持主体特征一致(衣着、发型、背景色调)
- 用相同设置(分辨率、帧率)分别生成各段
- 在剪辑软件中拼接,用光流法补帧对齐
- 添加转场和统一调色
技巧:
相邻两段的提示词保持80%相似度,确保风格一致
在拼接点预留0.5秒重叠区域,方便对齐
方法二:使用视频续写功能
原理:利用AI对运动轨迹的预测能力,在已有视频末尾继续生成
可灵AI续写操作:
打开已生成的视频,点击”续写”按钮(双箭头循环符号)
选择续写时长(通常5秒)
勾选”运动一致性校准”和”保持主体特征连续性”
等待渲染,检查首尾帧是否对齐
如需继续延长,重复以上步骤
注意:单次续写上限通常30秒,累计可延至3分钟左右
方法三:首尾帧控制
原理:准备两张有渐进差异的图片,AI在它们之间生成平滑过渡
适用场景:运镜稳定、落点精准的长时段卡点
操作步骤:
- 准备两张静态图:首帧(人物居中半身)和尾帧(同一角度面部特写)
- 背景元素偏移0.5像素,或光影变化5%
- 进入图生视频 → 首尾帧模块
- 上传两张图片,明确描述:”平滑推近镜头,持续10秒,无抖动”
- 等待生成,检查效果
3.5 🎬 镜头控制基础
镜头语言是视频创作的核心技能。即使是AI生成,也需要你懂得如何控制镜头。
景别的基本概念
| 景别 | 定义 | 视觉效果 | 适用场景 |
|---|---|---|---|
| 远景 | 展示全貌 | 宏伟、渺小感 | 展示环境 |
| 全景 | 展示整体 | 完整、平衡 | 展示人物全身 |
| 中景 | 膝盖以上 | 自然、亲近 | 日常对话 |
| 近景 | 胸部以上 | 亲密、聚焦 | 强调表情 |
| 特写 | 局部放大 | 强调、震撼 | 细节展示 |
运镜方式
推镜头:从远到近推进,突出主体
提示词示例:镜头从远景缓慢推进到人物面部
拉镜头:从近到远拉出,展示全貌
提示词示例:镜头从人物特写拉出到全景
横移:镜头水平移动,展示空间
提示词示例:镜头从左到右横移扫过街道
环绕:镜头绕主体旋转
提示词示例:镜头环绕人物旋转360度
升降:镜头垂直运动
提示词示例:镜头从低处升起,鸟瞰整个场景
在提示词中描述镜头
把镜头控制加入到提示词中:
基础版:
镜头控制版:
3.6 ⚙️ 完整工作流实战案例
用一个实际案例,演示完整的工作流:
目标:制作一条15秒的”孤独都市人”主题短视频
Step 1:创意策划
主题:表现都市年轻人的孤独感
内容:一个人在下雨的夜晚,坐在公寓窗边,望向窗外的城市灯火
风格:电影感,冷色调,情绪化
Step 2:分镜规划
第一段(0-5秒):城市夜景全景,霓虹灯光
第二段(5-10秒):公寓窗户的特写,雨滴滑落
第三段(10-15秒):人物侧脸,眼神望向窗外
Step 3:分镜提示词
第一段提示词:
第二段提示词:
第三段提示词:
Step 4:生成与筛选
每个提示词生成3个版本,挑选最满意的一个
Step 5:剪辑后期
- 在剪映中按顺序导入三个片段
- 调整时长,每个片段5秒
- 添加转场:第一个和第二个之间用”交叉溶解”,第二个和第三个之间用”淡入淡出”
- 统一调色:降低饱和度,增加冷色调
- 添加氛围BGM:选择轻柔的钢琴曲或电子氛围音乐
- 添加字幕:加入一句点题的话,如”在这座城市里,每个人都是孤独的星球”
3.7 🛠️ 主流工具的工作流对比
不同工具在工作流支持上有差异:
| 工具 | 文生视频 | 图生视频 | 续写延长 | 首尾帧 | 镜头控制 |
|---|---|---|---|---|---|
| 可灵AI | ✅ | ✅ | ✅ | ✅ | ⭐⭐⭐ |
| Runway | ✅ | ✅ | ✅ | ✅ | ⭐⭐⭐⭐⭐ |
| Pika | ✅ | ✅ | ❌ | ❌ | ⭐⭐⭐ |
| Seedance | ✅ | ✅ | ❌ | ✅ | ⭐⭐⭐ |
| 剪映 | ✅ | ✅ | ✅ | ❌ | ⭐⭐ |
工作流建议:
简单快速:剪映(一体化,但控制力有限)
专业控制:Runway(镜头控制最强,但学习成本高)
国产首选:可灵AI(功能全面,国内使用方便)
风格探索:Pika(风格预设多,适合创意测试)
3.8 ⚠️ 工作流中的常见问题
问题一:生成结果和提示词不符
原因:提示词描述不够具体,或包含矛盾的元素
解决:
把提示词拆分成更小的部分,逐步测试
删除可能引起歧义的描述
使用更精确的描述词
问题二:动作不自然/穿帮
原因:AI对复杂动作的理解有限
解决:
简化动作描述
避免要求AI生成精确的手指动作
选择光线稳定的场景
问题三:风格不统一
原因:不同片段使用了差异较大的提示词
解决:
在每个提示词中都加入相同的风格描述词
在后期剪辑时统一调色
使用工具的”风格参考”功能(如果有)
问题四:续写后首尾不连贯
原因:AI生成的运动轨迹在接缝处可能不一致
解决:
在续写时勾选”运动一致性”选项
手动在剪辑软件中微调接缝处
使用”参考线吸附”功能微调

🗺️ 30天学习路径总览
Day 1-5:认知建立
Day1:AI视频是什么 ✅
Day2:工具全景图 ✅
Day3:工作流讲解(本文)🔜
Day4:商业场景解析
Day5:创作思维重塑
Day 6-10:技能提升
提示词公式、摄像机语言、风格描述技巧
Day 11-15:工具精通
可灵AI实操、Runway实操、Pika实操
Day 16-20:进阶拔高
运镜控制、风格统一、剪映剪辑
Day 21-25:项目实战
儿童早教、知识科普、电商展示
Day 26-30:变现进阶
爆款拆解、变现模式、个人IP打造
📝 本节小结
🎯 回顾今天的核心要点:
1️⃣ AI视频工作流5环节:创意策划 → 提示词撰写 → 生成筛选 → 剪辑后期 → 导出发布
2️⃣ 文生视频流程:明确内容 → 撰写结构化提示词 → 生成迭代 → 筛选评估
3️⃣ 图生视频流程:准备图片 → 描述运动 → 使用高级功能 → 延长拼接
4️⃣ 延长技巧:分段生成拼接、续写功能、首尾帧控制
5️⃣ 镜头控制:景别概念、运镜方式、在提示词中描述镜头
6️⃣ 工作流实战:从策划到发布的完整案例
💬 课后互动
🤔 今天学了完整工作流,请思考:
你之前做AI视频有没有跳过某个环节?哪个环节对你来说最陌生?
把的经历发在评论区,我们一起讨论如何优化你的工作流 💬
📌 下节预告
Day4我们将进入商业场景篇
AI视频能用在哪些场景?这5个领域正在爆发 —— 从短视频到电商,从教育到品牌营销
敬请期待!
🎯 系列导航
| 天数 | 主题 | 状态 |
|---|---|---|
| Day1 | AI视频是什么? | ✅ 已发布 |
| Day2 | 一文搞懂所有AI视频工具 | ✅ 已发布 |
| Day3 | 完整工作流讲解 | 🔜 即将发布 |
| Day4 | 5大变现场景解析 | ⏳ 待发布 |
| Day5 | 创作思维重塑 | ⏳ 待发布 |
🌟 【AI视频创作30天】系列:从入门到变现,30天成为AI视频创作达人。