20 KiB
AI 原生 RPG 模板开场动画 PRD
更新时间:2026-04-25
0. 文档目的
这份 PRD 用于把 RPG 模板中的“开场动画”从一张静态封面或一段普通介绍,升级成可由 AI 资产链稳定生成、可保存、可预览、可发布、可在开局自动播放的 15 秒视频。
本次开场动画采用当前 AI 视频生成更稳定的工程化工作流:
RPG 世界草稿 / 模板锚点
-> 生成 4 张首尾关键帧图
-> 用关键帧 1-2 生成第 1 段 5 秒视频
-> 用关键帧 2-3 生成第 2 段 5 秒视频
-> 用关键帧 3-4 生成第 3 段 5 秒视频
-> 统一规格转码并拼接为 15 秒开场动画
-> 挂回 RPG 模板与作品资产
-> 玩家首次进入 RPG 运行态时播放,结束后进入开局场景
这份文档只做产品、数据、生成链路和落地边界设计,不直接改工程代码。
1. 在线工作流调研结论
1.1 为什么不用一次性生成 15 秒长视频
当前主流 AI 视频模型已经能直接生成较长视频,但对游戏开场来说,一次性生成 15 秒仍有 4 个风险:
- 角色、服装、标志物和世界风格容易在中段漂移。
- 镜头容易自发切换,导致关键叙事信息没有按顺序出现。
- 第 15 秒无法稳定落到玩家即将进入的开局场景。
- 失败后重跑成本高,不能只修某一幕。
因此本项目第一版采用“关键帧定锚 + 分段生成 + 后期拼接”的方式。每段只表达一个镜头目标,失败时只重跑对应片段。
1.2 可参考的行业能力
调研到的主流能力如下:
| 来源 | 对本项目有用的结论 |
|---|---|
| Google Vertex AI Veo | 官方支持上传起始帧与结束帧生成视频,控制视频首尾画面。文档更新时间为 2026-04-24。参考:https://docs.cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos-from-first-and-last-frames |
| Runway Gen-4 | 官方建议 5 或 10 秒片段,把每次生成视作单一场景,并强调输入图决定起始视觉、提示词重点写运动。参考:https://help.runwayml.com/hc/en-us/articles/39789879462419-Gen-4-Video-Prompting-Guide |
| Kling AI | 首尾帧功能用于上传两张图生成过渡视频,并提示两张图主题和构图越接近,5 秒内过渡越稳定;差异太大会触发镜头切换。参考:https://kling.ai/quickstart/ai-video-start-end-frames |
| Luma Ray | 强调关键帧、角色参考和跨镜头连续性,可用于理解“长镜头拆段 + 关键帧控制”的制作方向。参考:https://lumalabs.ai/ray |
1.3 对本项目的工作流选择
本项目优先采用如下策略:
- 用文本模型先从 RPG 模板锚点生成
openingAnimationBlueprint。 - 用图片模型一次性生成
4张统一风格关键帧。 - 用首尾帧视频模型生成
3个5秒片段。 - 用后端
ffmpeg做统一转码、无缝拼接和封面帧提取。 - 用 OSS +
asset_object+asset_entity_binding保存最终资产。 - 前端只展示生成状态、预览视频和开局播放,不承担生成逻辑和视频拼接。
第一版模型供应商不写死在产品逻辑中。国内可用主链优先复用当前 Rust 资产生成链中已有的 Ark / DashScope 配置;如后续接入 Veo、Runway、Kling、Luma,只作为 provider 扩展,不改变 RPG 模板数据结构。
2. 一句话定义
RPG 模板开场动画是一段由 4 张叙事关键帧和 3 个 5 秒 AI 视频片段组成的 15 秒多场景冒险开场演出,用于在玩家首次进入作品时快速建立世界观、核心冲突、目标牵引,并自然衔接到开局场景。
3. 本次目标
- RPG 模板必须新增开场动画蓝图,作为世界草稿和发布作品的一部分。
- 开场动画必须固定为
4张关键帧、3个视频片段、总时长15秒。 - 四张关键帧必须分别表达:
- 第一幕:世界观
- 第二幕:核心冲突与核心角色出场
- 第三幕:核心目标
- 第四幕:衔接开局场景
- 三段视频必须分别由相邻关键帧作为首尾帧生成:
- 视频 1:关键帧 1 -> 关键帧 2
- 视频 2:关键帧 2 -> 关键帧 3
- 视频 3:关键帧 3 -> 关键帧 4
- 最终成片必须能在 RPG 作品详情、创作结果页和运行时开局链路中复用。
- 播放结束后必须进入 RPG 开局场景;如果玩家跳过,也进入同一个开局场景。
- 开场动画生成失败不能阻断 RPG 发布和进入游戏,必须允许重新生成和无动画降级。
- 所有生成、拼接、资产落库和状态流转都必须在 Rust 后端完成,禁止回到
server-node。
4. 明确不做
- 不做一次性长视频生成主链。
- 不在前端浏览器里拼接视频。
- 不把功能说明、规则解释默认写进游戏 UI。
- 不新增独立的“开场动画系统页面”;入口嵌入现有 RPG 创作结果页和模板配置区。
- 不要求第一版生成配音、字幕、音乐和音效。
- 不要求运行时根据玩家选择动态改写开场动画。
- 不在 SpacetimeDB reducer 内调用外部视频模型、OSS 或文件系统。
- 不兼容
server-node旧生成链;旧实现只允许参考和迁移。
5. 叙事设计
5.1 四幕语义
| 幕 | 关键表达 | 画面职责 | 与 RPG 模板字段关系 |
|---|---|---|---|
| 第一幕:世界观 | 这个世界是什么样,正在承受什么长期压力 | 展示地貌、文明、时代气质、异常现象或历史伤痕 | 读取 worldTheme、worldHook、世界线程、主题母题、核心地标 |
| 第二幕:核心冲突与核心角色 | 谁被卷入冲突,冲突以什么形式爆发 | 让可扮演角色或核心 NPC 出场,并露出敌对力量、灾变、追捕、仪式或阵营压迫 | 读取主角、核心 NPC、阵营线、明线冲突 |
| 第三幕:核心目标 | 玩家为什么要开始冒险 | 展示目标物、禁地、远方地标、失落遗物、必须抵达的地点或必须拯救的人 | 读取主线目标、初始任务、关键物件、章节目标 |
| 第四幕:开局衔接 | 玩家即将在哪里醒来、抵达或被迫行动 | 画面落到第一个可操作场景,构图必须可作为游戏开局背景的前导镜头 | 读取开局场景、多幕第一幕背景、初始 NPC |
5.2 镜头节奏
| 视频片段 | 时长 | 首尾帧 | 镜头目标 |
|---|---|---|---|
opening_clip_01 |
5s |
世界观帧 -> 冲突帧 | 从宏观世界推进到冲突爆发,镜头可采用推进、俯冲、穿越云层、掠过地标 |
opening_clip_02 |
5s |
冲突帧 -> 目标帧 | 让核心角色带着冲突压力朝目标靠近,镜头可采用跟随、转身、拔剑、奔跑、法阵亮起 |
opening_clip_03 |
5s |
目标帧 -> 开局场景帧 | 从目标牵引落回玩家即将进入的地点,镜头可采用推门、坠落、醒来、抵达、火光转场 |
5.3 提示词原则
生成视频片段时,提示词只描述本段运动,不重复大段设定说明。
每段提示词必须包含:
- 镜头运动:例如缓慢推进、低空掠过、跟随角色、从远景落到近景。
- 主体运动:例如角色转身、队伍穿过遗迹、光芒汇聚、风暴逼近。
- 场景运动:例如云层翻涌、旗帜震动、烛火摇曳、尘土散开。
- 连续性约束:首帧和尾帧中的角色、服装、标志物、色彩基调保持一致。
- 游戏开场质感:多场景冒险 RPG、电影感、清晰主体、可读构图。
每段提示词禁止:
- 同时要求多个互相冲突的镜头切换。
- 用抽象词替代具体运动。
- 使用“不出现 / 不要 / 禁止”作为主要约束;应改写成正向描述。
- 要求模型在
5秒内完成跨时代、跨空间、跨角色的大跳变。
6. 数据结构设计
6.1 RPG 模板新增字段
在 RPG 模板 / 世界 profile 中新增:
type RpgOpeningAnimationBlueprint = {
id: string;
enabled: boolean;
status: 'not_started' | 'planning' | 'keyframes_generating' | 'clips_generating' | 'stitching' | 'ready' | 'failed';
version: number;
provider: string;
aspectRatio: '16:9';
totalDurationSec: 15;
clipDurationSec: 5;
keyframes: RpgOpeningAnimationKeyframe[];
clips: RpgOpeningAnimationClip[];
finalAsset?: RpgOpeningAnimationFinalAsset;
fallbackPosterAssetId?: string;
error?: RpgOpeningAnimationError;
createdAt: string;
updatedAt: string;
};
说明:
enabled控制运行时是否播放。status由后端写入,前端只订阅和展示。provider表示真实使用的生成供应商,例如ark、dashscope、veo、runway、kling、luma。- 第一版只支持
16:9,移动端播放时做安全裁切,不生成竖版副本。
6.2 关键帧对象
type RpgOpeningAnimationKeyframe = {
id: string;
order: 1 | 2 | 3 | 4;
actRole: 'worldview' | 'conflict_and_role' | 'core_goal' | 'opening_scene_bridge';
title: string;
narrativeIntent: string;
prompt: string;
negativePrompt?: string;
sourceAnchorIds: string[];
assetObjectId?: string;
previewUrl?: string;
generationStatus: 'pending' | 'generating' | 'ready' | 'failed';
};
字段口径:
title只用于后台调试和创作结果页内部管理,不直接作为游戏 UI 文案。narrativeIntent必须写清该帧承担的剧情功能。sourceAnchorIds记录本帧来自哪些模板锚点,便于后续重新生成时保持语义。
6.3 视频片段对象
type RpgOpeningAnimationClip = {
id: string;
order: 1 | 2 | 3;
fromKeyframeId: string;
toKeyframeId: string;
durationSec: 5;
prompt: string;
providerTaskId?: string;
assetObjectId?: string;
previewUrl?: string;
generationStatus: 'pending' | 'generating' | 'ready' | 'failed';
technicalProfile: {
width: number;
height: number;
fps: 24 | 25 | 30;
codec: 'h264';
container: 'mp4';
};
};
6.4 最终资产对象
type RpgOpeningAnimationFinalAsset = {
assetObjectId: string;
playbackUrl: string;
posterAssetObjectId: string;
posterUrl: string;
durationSec: 15;
width: number;
height: number;
fps: 24 | 25 | 30;
codec: 'h264';
container: 'mp4';
clips: string[];
generatedAt: string;
};
7. 后端生成流程
7.1 总流程
POST /api/custom-world/:profileId/opening-animation/generate
-> 校验作品归属与 RPG 类型
-> 读取世界 profile / 模板锚点 / 开局场景 / 角色视觉描述
-> 生成 openingAnimationBlueprint 文本计划
-> 生成 4 张关键帧图
-> 生成 3 个首尾帧视频片段
-> 下载远端视频
-> 统一转码为同规格 mp4
-> 拼接为 final opening mp4
-> 提取 poster
-> 上传 OSS
-> 确认 asset_object
-> 绑定到 RPG profile 的 opening-animation 槽位
-> 写回状态 ready
7.2 生成计划阶段
生成计划由 api-server 调用 platform-llm 完成,不进入 SpacetimeDB reducer。
输入上下文最少包含:
- 世界一句话钩子。
- 主题母题。
- 明线冲突。
- 暗线冲突的非剧透摘要。
- 主角 / 核心 NPC 的视觉描述。
- 第一个场景章节和开局场景。
- 初始任务目标。
- 已有场景图 / 角色图资产 URL。
输出必须是结构化 JSON,至少包含:
- 四幕
narrativeIntent。 - 四张关键帧图片 prompt。
- 三段视频 motion prompt。
- 风格统一约束。
- 关键角色和标志物连续性约束。
7.3 关键帧生成阶段
关键帧生成必须优先复用已有图片生成链:
- 统一走 Rust
api-server。 - 真实请求外部图片服务。
- 结果落 OSS。
- 确认
asset_object。 - 绑定槽位:
rpg-opening-keyframe-1rpg-opening-keyframe-2rpg-opening-keyframe-3rpg-opening-keyframe-4
关键帧生成要求:
- 分辨率首版固定
1280x720或供应商最接近的16:9输出。 - 四张图必须共享同一
styleSeed / visualBible。 - 核心角色在第二幕和第三幕必须保持同一服装、轮廓、武器或标志物。
- 第四幕必须与开局场景背景语义一致,必要时使用开局场景图作为参考图。
7.4 视频片段生成阶段
每段视频生成请求必须显式传入:
- 首帧图片。
- 尾帧图片。
5秒时长。16:9比例。- 本段 motion prompt。
- 连续性约束。
视频片段槽位:
rpg-opening-clip-1rpg-opening-clip-2rpg-opening-clip-3
如果供应商不支持首尾帧:
- 该供应商不能作为首选主链。
- 只允许作为内部实验 provider。
- 不允许把只支持单首帧的结果标记为正式通过。
7.5 拼接与转码
后端必须在拼接前统一三段视频规格:
- 容器:
mp4 - 编码:
h264 - 像素格式:
yuv420p - 分辨率:
1280x720 - 帧率:优先
24fps,若供应商固定25fps或30fps,三段必须统一。 - 音频:第一版默认无音轨;如供应商返回音频,拼接前静音或统一移除。
拼接后必须提取:
poster:第0.5秒或第一张关键帧。endPoster:第14.5秒,用于确认衔接开局场景。duration:必须在14.5s ~ 15.5s。
8. SpacetimeDB 与 Rust 边界
8.1 SpacetimeDB 负责
- 保存 RPG profile 中的开场动画蓝图状态。
- 保存资产对象与业务槽位绑定关系。
- 通过 reducer / procedure 更新可订阅状态。
- 让前端通过订阅或查询拿到当前
openingAnimationBlueprint。
8.2 SpacetimeDB 不负责
- 不调用外部模型。
- 不下载视频。
- 不执行
ffmpeg。 - 不访问 OSS。
- 不在 reducer 里生成随机非确定性内容。
8.3 Rust api-server 负责
- 编排 LLM 计划、图片生成、视频生成、转码拼接。
- 管理异步任务轮询。
- 处理 OSS 上传与下载。
- 调用 SpacetimeDB procedure 写入最终状态和资产绑定。
- 对前端提供 HTTP / SSE 生成进度。
这条边界必须遵守 SpacetimeDB 规则:reducer 是确定性事务,不能把外部 I/O 放进去。
9. 前端嵌入设计
9.1 创作结果页
入口位置:
- 复用 RPG 创作结果页现有资产区。
- 增加一个“开场动画”资产槽。
- 点击槽位打开独立面板,不在当前卡片下方展开。
面板能力:
- 预览最终
15秒视频。 - 展示四张关键帧缩略图。
- 展示三段视频状态。
- 支持重新生成全部。
- 支持只重生某张关键帧,并自动标记相关视频片段需要重生。
- 支持只重生某段视频。
- 支持禁用开场动画。
UI 约束:
- 不展示大段功能说明。
- 状态用短标签和进度表达。
- 移动端优先:关键帧横向滑动,视频预览保持
16:9。 - 按钮使用图标 + 短文本,避免规则说明型文案。
9.2 RPG 模板发布
发布时校验:
- 如果
enabled = true,则finalAsset必须存在且可读取。 - 如果生成失败,发布不阻断,但自动写入
enabled = false并保留错误状态。 - 发布后的作品详情页可展示开场动画 poster,但不强制自动播放。
9.3 运行时开局播放
播放时机:
玩家点击开始游戏 / 继续进入新开局
-> 完成角色选择
-> 初始化 RPG session
-> 若 openingAnimation.enabled 且 finalAsset 可用
-> 播放开场动画
-> 播放结束或跳过
-> 进入开局场景
规则:
- 同一个存档只自动播放一次。
- 玩家跳过后必须记录
openingAnimationPlayed = true。 - 继续游戏不自动播放,除非玩家从作品详情页手动预览。
- 视频加载失败时直接进入开局场景。
- 移动端播放必须提供明显的跳过按钮,但不写说明段落。
10. 状态机
not_started
-> planning
-> keyframes_generating
-> clips_generating
-> stitching
-> ready
任意生成阶段
-> failed
-> planning / keyframes_generating / clips_generating
关键规则:
- 重生关键帧 1,会使视频 1 失效。
- 重生关键帧 2,会使视频 1 和视频 2 失效。
- 重生关键帧 3,会使视频 2 和视频 3 失效。
- 重生关键帧 4,会使视频 3 失效。
- 重生某段视频后必须重新拼接最终成片。
- 最终成片 ready 后,旧版本资产不能立即删除,至少保留最近
2个版本用于回滚。
11. API 设计
11.1 生成开场动画
POST /api/custom-world/:profileId/opening-animation/generate
请求:
{
"mode": "full",
"provider": "auto",
"forceRegenerate": false
}
返回:
{
"jobId": "opening_anim_job_xxx",
"status": "planning"
}
11.2 重生关键帧
POST /api/custom-world/:profileId/opening-animation/keyframes/:keyframeId/regenerate
11.3 重生视频片段
POST /api/custom-world/:profileId/opening-animation/clips/:clipId/regenerate
11.4 查询状态
GET /api/custom-world/:profileId/opening-animation
返回当前 RpgOpeningAnimationBlueprint。
11.5 订阅进度
GET /api/custom-world/:profileId/opening-animation/jobs/:jobId/stream
SSE 事件:
planningkeyframe_readyclip_readystitchingreadyerror
12. 工程落地阶段
阶段 1:文档与契约冻结
- 确认
RpgOpeningAnimationBlueprint字段。 - 确认资产槽位命名。
- 确认 provider 抽象。
- 确认运行时只播放一次的状态字段。
验收:
- 文档字段可直接编码。
- 前后端对同一 JSON contract 无歧义。
阶段 2:后端计划与关键帧生成
api-server生成四幕计划。- 接入图片生成。
- 关键帧落 OSS 和
asset_object。 - profile 写回关键帧状态。
验收:
- 能在结果页看到四张真实生成图。
- 第四张图语义上能衔接开局场景。
阶段 3:首尾帧视频生成
- 三段视频真实请求外部模型。
- 每段固定
5秒。 - 每段落 OSS。
- 支持失败重试与单段重生。
验收:
- 三段视频都不是占位视频。
- 每段首尾画面与对应关键帧一致。
阶段 4:拼接发布与运行时播放
- 后端统一转码。
- 拼接成
15秒成片。 - 提取 poster。
- RPG 运行态首次开局播放。
- 播放结束或跳过进入开局场景。
验收:
- 最终视频时长在
14.5s ~ 15.5s。 - 播放后进入的场景与第四幕一致。
- 同一存档不会重复自动播放。
13. 质量验收标准
13.1 叙事验收
- 第一幕不用字幕也能看出世界类型和主要气质。
- 第二幕能看出冲突正在发生,并且核心角色可被识别。
- 第三幕能看出玩家即将追求的目标。
- 第四幕能自然落到开局场景,不像另一个无关地点。
- 四幕之间存在视觉连续性,不是四张无关插图。
13.2 视频验收
- 三段均为真实外部生成结果。
- 每段约
5秒。 - 拼接后无明显黑帧、重复帧、尺寸跳变。
- 主体没有严重形变、闪烁、消失。
- 核心角色在第二、第三幕保持可识别一致。
- 移动端播放不裁掉核心主体。
13.3 工程验收
- 所有生成任务由 Rust
api-server编排。 - 资产落 OSS,并有
asset_object记录。 - 业务实体通过槽位绑定读取资产。
- SpacetimeDB reducer 不包含外部 I/O。
- 前端刷新后仍能恢复生成状态。
- 生成失败有可重试状态,不写入假成功。
14. 风险与降级
| 风险 | 降级策略 |
|---|---|
| 关键帧风格不一致 | 用同一 visual bible、参考图和角色视觉描述重生四张图 |
| 首尾帧差异过大导致视频硬切 | 调整相邻关键帧构图,使主体、视角、色彩更接近 |
| 第二幕角色漂移 | 使用角色主形象作为参考图,并在第二、第三幕共享角色约束 |
| 视频生成超时 | 单段失败只重试该段,不重跑全流程 |
| 拼接后有黑帧 | 后端转码时强制统一 fps、分辨率、像素格式 |
| 移动端加载慢 | poster 先显示,视频懒加载;失败直接进开局场景 |
| 供应商审核失败 | 后端生成更保守的原创 prompt 重试一次,仍失败则标记 failed |
15. 后续扩展
- 增加背景音乐和环境音,但不改变四帧三段主链。
- 为移动端生成
9:16竖版裁切版本。 - 支持陶泥主手动上传某张关键帧,再生成相邻视频。
- 支持发布后版本化替换开场动画。
- 支持用第四幕直接生成开局场景动态背景。
- 支持把开场动画拆出的关键帧回流为作品详情页轮播素材。