《木床城堡》生日动画制作复盘

我最近完成了一支儿童睡前故事动画短片《琪琪的木床城堡》。这不是一个单纯把几段视频拼起来的练习，而是一次完整的视频制作尝试：从照片原型、AI 角色形象、故事脚本、人物对白、分镜场景，到用可灵生成分镜动画，最后再进入 CapCut 精剪，每一步都需要重新整理和校对。

这次视频的目标很简单：做一个温柔、适合小朋友观看的睡前故事。故事里有妹妹琪琪、姐姐璐璐、木床、粉色哆啦A梦，还有一个关于“慢慢长出小勇气”的小主题。真正做下来之后我发现，视频制作和网站搭建很像，表面上是在做一个成品，实际是在搭一套流程。

1. 为什么要做这个视频

一开始我想做的是一个儿童故事视频，但不是那种信息量很大、节奏很快的短视频。我更想做一个适合睡前看的小故事，节奏慢一点，画面温柔一点，声音也不要太刺激。

《琪琪的木床城堡》的核心不是冒险，也不是反转，而是一个很小的成长瞬间。琪琪睡在下铺里面，抱着粉色哆啦A梦；姐姐璐璐睡在外侧，陪着她、保护她。这个设定本身很日常，但对小朋友来说很容易理解：有人陪伴，所以慢慢不害怕。

所以这支视频最重要的不是特效多炫，也不是转场多复杂，而是让故事关系清楚、人物不要混淆、声音不要吵、画面和字幕都能让小朋友舒服地看完。

这也是我做这次视频时最核心的判断标准：所有工具都服务于故事。如果某个效果会让画面更花哨，但会打断睡前故事的节奏，那就不一定要用。

2. 第一版先确定什么

做视频之前，我先把几个基础信息确定下来。因为儿童故事最怕的问题不是技术复杂，而是角色和情节不清楚。一旦人物关系错了，后面生成动画和剪辑再精细也会变得不自然。

这次最关键的角色关系是：

琪琪：年纪小的妹妹，睡在下铺里面，抱着粉色哆啦A梦。
璐璐：年纪大的姐姐，睡在下铺外侧，负责陪伴和保护琪琪。

我没有一开始就直接做动画，而是先用照片做原型。照片的作用不是简单复制现实人物，而是给 AI 一个稳定的参考方向：人物年龄、气质、发型、表情和整体风格都要有依据。这样后面生成角色图和分镜动画时，才不容易每一段都长得不一样。

接着我用 ChatGPT 的 Image2 生成动画人物形象。这个阶段我重点不是追求一张“最好看”的图，而是先把琪琪和璐璐的人物设定固定下来：谁是妹妹，谁是姐姐，谁睡里面，谁睡外侧，谁负责陪伴和保护。角色关系一旦稳定，后面写对白和分镜才不会跑偏。

角色形象确定之后，我再开始写脚本。脚本里最重要的是人物对白，因为儿童故事的情绪是靠对话慢慢建立起来的。比如第 1 段里，琪琪和璐璐的对白就需要非常清楚，不能让观众误以为说话的人反了。

第 1 段正确的对白方向是：

琪琪说：“姐姐，你睡在外面哦。”
璐璐说：“好呀，我睡在外面保护你。”
琪琪说：“那我睡最里面。”
璐璐说：“对，琪琪在里面，抱着哆啦A梦，就安心啦。”

这些看起来是小细节，但它们决定了整支视频的情感基础。只有前面的人物关系稳定了，后面的“木床变城堡”“仙女出现”“清晨成长”才会有合理的情绪推进。

3. 我是怎么写脚本和分镜的

角色确定后，我没有马上进入视频生成，而是先把故事拆成脚本和分镜。脚本负责讲清楚故事内容，分镜负责决定每一段画面要出现什么。

这一步对我很重要。因为 AI 视频生成不是只输入一句“生成一个儿童故事”就能得到稳定成片。它更像是把一个故事拆成很多小任务：这一段在哪里，谁出现，人物在做什么，画面是什么氛围，镜头要不要移动，对白和旁白是什么。

我把《琪琪的木床城堡》拆成了 9 个分镜。每个分镜都尽量只承担一个清楚的动作或情绪，比如姐妹睡前对话、木床变成城堡、仙女出现、琪琪获得勇气、夜晚过渡到清晨。这样做的好处是，每一段都比较容易生成，也方便后面发现问题时单独替换。

脚本和分镜之间的关系大概是：

先确定故事主线：琪琪从害怕到慢慢安心。
再写人物对白：用短句表达姐妹之间的陪伴。
再拆分镜场景：每个画面只表达一个重点。
最后给每个分镜准备生成提示词和画面要求。

第 1 段动画原来出现过说话内容和人物对应错误，所以我重新生成了第 1 段动画。这个问题让我意识到，视频制作不能只看画面有没有动起来，还要检查每一句话是不是属于正确的人物。

4. 我是怎么生成分镜动画的

分镜确定之后，我用可灵来生成每一段分镜动画。这个阶段的重点是把前面准备好的角色形象、场景描述和动作要求转成一段段可以剪辑的视频素材。

可灵适合用来把静态角色和场景变成动态画面，但它也需要比较清楚的输入。比如同样是“女孩在床上”，如果不说明谁在里面、谁在外侧、谁抱着粉色哆啦A梦，就很容易生成出和脚本不一致的画面。

所以我在生成分镜动画时，会重点控制几个信息：

人物不能混淆：琪琪是妹妹，璐璐是姐姐。
空间关系要稳定：琪琪在下铺里面，璐璐在下铺外侧。
关键道具要稳定：琪琪抱着粉色哆啦A梦。
画面氛围要统一：整体保持睡前故事的温柔、安静和安全感。
每段动画只解决一个画面任务，不让一个镜头承担太多内容。

生成完之后，我没有把所有素材直接当成最终成片，而是先检查每一段是否符合脚本。只要发现人物、对白、道具或场景不对，就要回到对应分镜重新生成。第 1 段就是这样被重新处理的。

5. 我是怎么组织素材的

这次视频素材不是全部放在一个混乱的文件夹里，而是按制作流程分开整理。核心素材集中在本地的动画最终版目录里，包括分镜动画、旁白、背景音乐、字幕文件和自动剪辑底片。

这次已经准备好的素材主要有：

用照片原型生成的琪琪和璐璐角色参考图。
1.mp4 到 9.mp4 的分镜动画。
旁白.mp3，用于承载主要故事内容。
背景音乐.mp3，用于保持睡前故事的氛围。
琪琪的木床城堡_字幕.srt，用于后续字幕样式调整。
CapCut 最终导出视频，作为网站展示的最终版本。

我先把 9 段分镜按顺序拼接，再根据旁白长度拉长画面，让画面节奏尽量贴合故事节奏。底片总时长约 3 分 18 秒，输出规格是 1280x720 的 MP4，里面已经包含视频轨和音频轨。

这里我没有一开始就在 CapCut 里做所有事情，而是先生成一个相对完整的剪辑底片。这样做的好处是，进入 CapCut 之后就不用从零拼素材，而是可以专注在更细的部分：字幕样式、音量、转场、音效和最终导出。

6. 这次用到的工具

这次视频制作不是只靠一个工具完成，而是几类工具一起配合。

第一类是 ChatGPT 和 Image2。ChatGPT 主要帮我整理故事结构、角色设定、人物对白、分镜思路和制作流程。Image2 则用于把照片原型转成更适合动画短片的人物形象，让琪琪和璐璐在后续分镜里有统一的视觉参考。

第二类是可灵。它负责把分镜场景生成成一段段动画视频。对我来说，可灵不是直接生成完整成片的工具，而是负责生成“可剪辑的分镜素材”。每个分镜都要对应脚本里的一个明确场景。

第三类是 CapCut。CapCut 是这次进入精剪阶段的核心工具。我把分镜动画、人物对白、旁白、背景音乐和字幕导入 CapCut，在里面继续处理字幕样式、字幕位置、人物对白音量、背景音乐音量、必要转场、必要音效和最终导出。

第四类是本地素材管理。视频项目很容易出现素材散乱的问题，所以我把角色图、分镜动画、旁白、背景音乐、字幕和最终导出文件按目录保存。这样后面检查时就能快速知道：现在缺的是角色素材、动画素材、字幕、音频，还是后期剪辑。

第五类是 Obsidian。Obsidian 不是用来剪视频的，但它对项目管理很有用。我把当前状态、素材路径、音量建议、转场策略、音效建议和质量检查都记录在 Obsidian 里。这样下次继续做的时候，不需要重新从聊天记录或文件夹里找线索。

ChatGPT 帮我拆故事和流程，Image2 帮我生成角色形象，可灵负责生成分镜动画，CapCut 负责最后精剪，Obsidian 负责记录项目状态和复盘。

7. 剪辑时重点检查什么

进入 CapCut 之后，我最关注的不是“多加几个效果”，而是让整支视频稳定、清楚、舒服。

第一个重点是字幕。儿童睡前故事的字幕不能太小，也不能停留太短。句子要尽量短，位置要稳定，不能挡住关键人物和画面。字幕的作用不是装饰，而是帮助小朋友和家长更容易跟上故事。

第二个重点是音量。旁白要清楚，人物对白不能被背景音乐盖住，背景音乐又不能完全消失。我的音量控制大概是：旁白在 -3 dB 到 0 dB，琪琪对白在 0 dB 左右，背景音乐压到 -25 dB 左右。音效则根据具体场景控制在更低的位置。

第三个重点是转场。睡前故事不需要大量花哨转场。全片基本可以用硬切，只在关键变化点加一点柔和过渡。比如分镜 8 到分镜 9 是夜晚到清晨，可以用 0.5-0.8秒 的黑场或淡入淡出。片尾再加 1秒 淡出，就已经足够。

第四个重点是音效。音效应该让观众感觉到氛围，但不要明显注意到它。比如木床变城堡时可以加轻柔魔法叮铃，仙女出现时可以加星光或仙女音，清晨成长时可以加一点轻微鸟叫。它们都应该很轻，不能抢走旁白和故事本身。

8. 这次我学到了什么

这次制作视频，我最大的感受是：一个视频项目真正难的地方，不是单独某一步，而是每一步之间的衔接。

如果故事关系没有确定，后面的动画就可能生成错。如果素材没有整理好，剪辑时就会找不到文件。如果旁白和画面长度不匹配，视频节奏就会不舒服。如果音量没有检查，背景音乐就可能盖过人物对白。如果字幕没有单独处理，小朋友看起来就会吃力。

所以视频制作不是“生成一段视频”这么简单，而是一个完整流程：

先用照片确定人物原型。
再用 Image2 生成稳定的动画角色形象。
写脚本、人物对白和分镜场景。
用可灵生成每一段分镜动画。
再进入 CapCut 做字幕、音量、转场和音效。
最后按质量清单检查人物、道具、声音和节奏。

这次我也更理解了 Obsidian 的作用。它不是替代剪辑软件，而是帮我把项目从“临时操作”变成“可继续推进的流程”。只要我把素材、状态和检查标准写清楚，下一次继续做的时候就不会忘记自己做到哪一步。

9. 下一步我要做什么

《琪琪的木床城堡》现在已经进入 CapCut 精剪阶段，后面最重要的是完成最后的细节打磨和导出。

下一步我会先检查字幕样式和位置，确认小朋友能看清楚，而且字幕不会挡住人物。然后再检查旁白、琪琪对白、璐璐对白、仙女对白和背景音乐之间的音量关系。背景音乐要有氛围，但不能盖过声音。

之后我会只在必要位置加转场和音效，不会为了效果而堆效果。这个视频的方向是睡前故事，所以最终感觉应该是柔和、安静、清楚，而不是刺激和热闹。

最后导出前，我会按一个简单清单再看一遍：

琪琪和璐璐有没有混淆。
粉色哆啦A梦有没有保持一致。
故事核心是不是仍然围绕“琪琪慢慢长出小勇气”。
字幕是否适合小朋友阅读。
背景音乐是否没有盖过旁白和对白。
转场和音效是否保持睡前故事的温柔节奏。

对我来说，这次视频制作的价值不只是完成一个短片，而是建立了一套以后可以复用的视频项目流程。以后再做类似故事时，我就可以沿用这套方法：先整理故事和素材，再做剪辑底片，最后进入 CapCut 精修，同时把每一步记录在 Obsidian 里。

这和我做 JohnBuilds 网站时的感受很像。先不要追求一步到位，而是先搭出一个可以运行的流程。流程跑起来之后，作品就可以持续变好。

返回记录页

《木床城堡》生日动画制作复盘：从照片原型到 CapCut 成片