我最近完成了一支儿童睡前故事动画短片《琪琪的木床城堡》。这不是一个单纯把几段视频拼起来的练习,而是一次完整的视频制作尝试:从照片原型、AI 角色形象、故事脚本、人物对白、分镜场景,到用可灵生成分镜动画,最后再进入 CapCut 精剪,每一步都需要重新整理和校对。
这次视频的目标很简单:做一个温柔、适合小朋友观看的睡前故事。故事里有妹妹琪琪、姐姐璐璐、木床、粉色哆啦A梦,还有一个关于“慢慢长出小勇气”的小主题。真正做下来之后我发现,视频制作和网站搭建很像,表面上是在做一个成品,实际是在搭一套流程。
1. 为什么要做这个视频
一开始我想做的是一个儿童故事视频,但不是那种信息量很大、节奏很快的短视频。我更想做一个适合睡前看的小故事,节奏慢一点,画面温柔一点,声音也不要太刺激。
《琪琪的木床城堡》的核心不是冒险,也不是反转,而是一个很小的成长瞬间。琪琪睡在下铺里面,抱着粉色哆啦A梦;姐姐璐璐睡在外侧,陪着她、保护她。这个设定本身很日常,但对小朋友来说很容易理解:有人陪伴,所以慢慢不害怕。
所以这支视频最重要的不是特效多炫,也不是转场多复杂,而是让故事关系清楚、人物不要混淆、声音不要吵、画面和字幕都能让小朋友舒服地看完。
这也是我做这次视频时最核心的判断标准:所有工具都服务于故事。如果某个效果会让画面更花哨,但会打断睡前故事的节奏,那就不一定要用。
2. 第一版先确定什么
做视频之前,我先把几个基础信息确定下来。因为儿童故事最怕的问题不是技术复杂,而是角色和情节不清楚。一旦人物关系错了,后面生成动画和剪辑再精细也会变得不自然。
这次最关键的角色关系是:
- 琪琪:年纪小的妹妹,睡在下铺里面,抱着粉色哆啦A梦。
- 璐璐:年纪大的姐姐,睡在下铺外侧,负责陪伴和保护琪琪。
我没有一开始就直接做动画,而是先用照片做原型。照片的作用不是简单复制现实人物,而是给 AI 一个稳定的参考方向:人物年龄、气质、发型、表情和整体风格都要有依据。这样后面生成角色图和分镜动画时,才不容易每一段都长得不一样。
接着我用 ChatGPT 的 Image2 生成动画人物形象。这个阶段我重点不是追求一张“最好看”的图,而是先把琪琪和璐璐的人物设定固定下来:谁是妹妹,谁是姐姐,谁睡里面,谁睡外侧,谁负责陪伴和保护。角色关系一旦稳定,后面写对白和分镜才不会跑偏。
角色形象确定之后,我再开始写脚本。脚本里最重要的是人物对白,因为儿童故事的情绪是靠对话慢慢建立起来的。比如第 1 段里,琪琪和璐璐的对白就需要非常清楚,不能让观众误以为说话的人反了。
第 1 段正确的对白方向是:
- 琪琪说:“姐姐,你睡在外面哦。”
- 璐璐说:“好呀,我睡在外面保护你。”
- 琪琪说:“那我睡最里面。”
- 璐璐说:“对,琪琪在里面,抱着哆啦A梦,就安心啦。”
这些看起来是小细节,但它们决定了整支视频的情感基础。只有前面的人物关系稳定了,后面的“木床变城堡”“仙女出现”“清晨成长”才会有合理的情绪推进。
3. 我是怎么写脚本和分镜的
角色确定后,我没有马上进入视频生成,而是先把故事拆成脚本和分镜。脚本负责讲清楚故事内容,分镜负责决定每一段画面要出现什么。
这一步对我很重要。因为 AI 视频生成不是只输入一句“生成一个儿童故事”就能得到稳定成片。它更像是把一个故事拆成很多小任务:这一段在哪里,谁出现,人物在做什么,画面是什么氛围,镜头要不要移动,对白和旁白是什么。
我把《琪琪的木床城堡》拆成了 9 个分镜。每个分镜都尽量只承担一个清楚的动作或情绪,比如姐妹睡前对话、木床变成城堡、仙女出现、琪琪获得勇气、夜晚过渡到清晨。这样做的好处是,每一段都比较容易生成,也方便后面发现问题时单独替换。
脚本和分镜之间的关系大概是:
- 先确定故事主线:琪琪从害怕到慢慢安心。
- 再写人物对白:用短句表达姐妹之间的陪伴。
- 再拆分镜场景:每个画面只表达一个重点。
- 最后给每个分镜准备生成提示词和画面要求。
第 1 段动画原来出现过说话内容和人物对应错误,所以我重新生成了第 1 段动画。这个问题让我意识到,视频制作不能只看画面有没有动起来,还要检查每一句话是不是属于正确的人物。
4. 我是怎么生成分镜动画的
分镜确定之后,我用可灵来生成每一段分镜动画。这个阶段的重点是把前面准备好的角色形象、场景描述和动作要求转成一段段可以剪辑的视频素材。
可灵适合用来把静态角色和场景变成动态画面,但它也需要比较清楚的输入。比如同样是“女孩在床上”,如果不说明谁在里面、谁在外侧、谁抱着粉色哆啦A梦,就很容易生成出和脚本不一致的画面。
所以我在生成分镜动画时,会重点控制几个信息:
- 人物不能混淆:琪琪是妹妹,璐璐是姐姐。
- 空间关系要稳定:琪琪在下铺里面,璐璐在下铺外侧。
- 关键道具要稳定:琪琪抱着粉色哆啦A梦。
- 画面氛围要统一:整体保持睡前故事的温柔、安静和安全感。
- 每段动画只解决一个画面任务,不让一个镜头承担太多内容。
生成完之后,我没有把所有素材直接当成最终成片,而是先检查每一段是否符合脚本。只要发现人物、对白、道具或场景不对,就要回到对应分镜重新生成。第 1 段就是这样被重新处理的。
5. 我是怎么组织素材的
这次视频素材不是全部放在一个混乱的文件夹里,而是按制作流程分开整理。核心素材集中在本地的动画最终版目录里,包括分镜动画、旁白、背景音乐、字幕文件和自动剪辑底片。
这次已经准备好的素材主要有:
- 用照片原型生成的琪琪和璐璐角色参考图。
1.mp4到9.mp4的分镜动画。旁白.mp3,用于承载主要故事内容。背景音乐.mp3,用于保持睡前故事的氛围。琪琪的木床城堡_字幕.srt,用于后续字幕样式调整。- CapCut 最终导出视频,作为网站展示的最终版本。
我先把 9 段分镜按顺序拼接,再根据旁白长度拉长画面,让画面节奏尽量贴合故事节奏。底片总时长约 3 分 18 秒,输出规格是 1280x720 的 MP4,里面已经包含视频轨和音频轨。
这里我没有一开始就在 CapCut 里做所有事情,而是先生成一个相对完整的剪辑底片。这样做的好处是,进入 CapCut 之后就不用从零拼素材,而是可以专注在更细的部分:字幕样式、音量、转场、音效和最终导出。
6. 这次用到的工具
这次视频制作不是只靠一个工具完成,而是几类工具一起配合。
第一类是 ChatGPT 和 Image2。ChatGPT 主要帮我整理故事结构、角色设定、人物对白、分镜思路和制作流程。Image2 则用于把照片原型转成更适合动画短片的人物形象,让琪琪和璐璐在后续分镜里有统一的视觉参考。
第二类是可灵。它负责把分镜场景生成成一段段动画视频。对我来说,可灵不是直接生成完整成片的工具,而是负责生成“可剪辑的分镜素材”。每个分镜都要对应脚本里的一个明确场景。
第三类是 CapCut。CapCut 是这次进入精剪阶段的核心工具。我把分镜动画、人物对白、旁白、背景音乐和字幕导入 CapCut,在里面继续处理字幕样式、字幕位置、人物对白音量、背景音乐音量、必要转场、必要音效和最终导出。
第四类是本地素材管理。视频项目很容易出现素材散乱的问题,所以我把角色图、分镜动画、旁白、背景音乐、字幕和最终导出文件按目录保存。这样后面检查时就能快速知道:现在缺的是角色素材、动画素材、字幕、音频,还是后期剪辑。
第五类是 Obsidian。Obsidian 不是用来剪视频的,但它对项目管理很有用。我把当前状态、素材路径、音量建议、转场策略、音效建议和质量检查都记录在 Obsidian 里。这样下次继续做的时候,不需要重新从聊天记录或文件夹里找线索。
ChatGPT 帮我拆故事和流程,Image2 帮我生成角色形象,可灵负责生成分镜动画,CapCut 负责最后精剪,Obsidian 负责记录项目状态和复盘。
7. 剪辑时重点检查什么
进入 CapCut 之后,我最关注的不是“多加几个效果”,而是让整支视频稳定、清楚、舒服。
第一个重点是字幕。儿童睡前故事的字幕不能太小,也不能停留太短。句子要尽量短,位置要稳定,不能挡住关键人物和画面。字幕的作用不是装饰,而是帮助小朋友和家长更容易跟上故事。
第二个重点是音量。旁白要清楚,人物对白不能被背景音乐盖住,背景音乐又不能完全消失。我的音量控制大概是:旁白在 -3 dB 到 0 dB,琪琪对白在 0 dB 左右,背景音乐压到 -25 dB 左右。音效则根据具体场景控制在更低的位置。
第三个重点是转场。睡前故事不需要大量花哨转场。全片基本可以用硬切,只在关键变化点加一点柔和过渡。比如分镜 8 到分镜 9 是夜晚到清晨,可以用 0.5-0.8秒 的黑场或淡入淡出。片尾再加 1秒 淡出,就已经足够。
第四个重点是音效。音效应该让观众感觉到氛围,但不要明显注意到它。比如木床变城堡时可以加轻柔魔法叮铃,仙女出现时可以加星光或仙女音,清晨成长时可以加一点轻微鸟叫。它们都应该很轻,不能抢走旁白和故事本身。
8. 这次我学到了什么
这次制作视频,我最大的感受是:一个视频项目真正难的地方,不是单独某一步,而是每一步之间的衔接。
如果故事关系没有确定,后面的动画就可能生成错。如果素材没有整理好,剪辑时就会找不到文件。如果旁白和画面长度不匹配,视频节奏就会不舒服。如果音量没有检查,背景音乐就可能盖过人物对白。如果字幕没有单独处理,小朋友看起来就会吃力。
所以视频制作不是“生成一段视频”这么简单,而是一个完整流程:
- 先用照片确定人物原型。
- 再用 Image2 生成稳定的动画角色形象。
- 写脚本、人物对白和分镜场景。
- 用可灵生成每一段分镜动画。
- 再进入 CapCut 做字幕、音量、转场和音效。
- 最后按质量清单检查人物、道具、声音和节奏。
这次我也更理解了 Obsidian 的作用。它不是替代剪辑软件,而是帮我把项目从“临时操作”变成“可继续推进的流程”。只要我把素材、状态和检查标准写清楚,下一次继续做的时候就不会忘记自己做到哪一步。
9. 下一步我要做什么
《琪琪的木床城堡》现在已经进入 CapCut 精剪阶段,后面最重要的是完成最后的细节打磨和导出。
下一步我会先检查字幕样式和位置,确认小朋友能看清楚,而且字幕不会挡住人物。然后再检查旁白、琪琪对白、璐璐对白、仙女对白和背景音乐之间的音量关系。背景音乐要有氛围,但不能盖过声音。
之后我会只在必要位置加转场和音效,不会为了效果而堆效果。这个视频的方向是睡前故事,所以最终感觉应该是柔和、安静、清楚,而不是刺激和热闹。
最后导出前,我会按一个简单清单再看一遍:
- 琪琪和璐璐有没有混淆。
- 粉色哆啦A梦有没有保持一致。
- 故事核心是不是仍然围绕“琪琪慢慢长出小勇气”。
- 字幕是否适合小朋友阅读。
- 背景音乐是否没有盖过旁白和对白。
- 转场和音效是否保持睡前故事的温柔节奏。
对我来说,这次视频制作的价值不只是完成一个短片,而是建立了一套以后可以复用的视频项目流程。以后再做类似故事时,我就可以沿用这套方法:先整理故事和素材,再做剪辑底片,最后进入 CapCut 精修,同时把每一步记录在 Obsidian 里。
这和我做 JohnBuilds 网站时的感受很像。先不要追求一步到位,而是先搭出一个可以运行的流程。流程跑起来之后,作品就可以持续变好。
返回记录页