Files
Genarrative/docs/prd/AI_NATIVE_RPG_OPENING_ANIMATION_PRD_2026-04-25.md
kdletters cbc27bad4a
Some checks failed
CI / verify (push) Has been cancelled
init with react+axum+spacetimedb
2026-04-26 18:06:23 +08:00

20 KiB
Raw Blame History

AI 原生 RPG 模板开场动画 PRD

更新时间:2026-04-25

0. 文档目的

这份 PRD 用于把 RPG 模板中的“开场动画”从一张静态封面或一段普通介绍,升级成可由 AI 资产链稳定生成、可保存、可预览、可发布、可在开局自动播放的 15 秒视频。

本次开场动画采用当前 AI 视频生成更稳定的工程化工作流:

RPG 世界草稿 / 模板锚点
-> 生成 4 张首尾关键帧图
-> 用关键帧 1-2 生成第 1 段 5 秒视频
-> 用关键帧 2-3 生成第 2 段 5 秒视频
-> 用关键帧 3-4 生成第 3 段 5 秒视频
-> 统一规格转码并拼接为 15 秒开场动画
-> 挂回 RPG 模板与作品资产
-> 玩家首次进入 RPG 运行态时播放,结束后进入开局场景

这份文档只做产品、数据、生成链路和落地边界设计,不直接改工程代码。


1. 在线工作流调研结论

1.1 为什么不用一次性生成 15 秒长视频

当前主流 AI 视频模型已经能直接生成较长视频,但对游戏开场来说,一次性生成 15 秒仍有 4 个风险:

  1. 角色、服装、标志物和世界风格容易在中段漂移。
  2. 镜头容易自发切换,导致关键叙事信息没有按顺序出现。
  3. 第 15 秒无法稳定落到玩家即将进入的开局场景。
  4. 失败后重跑成本高,不能只修某一幕。

因此本项目第一版采用“关键帧定锚 + 分段生成 + 后期拼接”的方式。每段只表达一个镜头目标,失败时只重跑对应片段。

1.2 可参考的行业能力

调研到的主流能力如下:

来源 对本项目有用的结论
Google Vertex AI Veo 官方支持上传起始帧与结束帧生成视频,控制视频首尾画面。文档更新时间为 2026-04-24。参考:https://docs.cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos-from-first-and-last-frames
Runway Gen-4 官方建议 510 秒片段,把每次生成视作单一场景,并强调输入图决定起始视觉、提示词重点写运动。参考:https://help.runwayml.com/hc/en-us/articles/39789879462419-Gen-4-Video-Prompting-Guide
Kling AI 首尾帧功能用于上传两张图生成过渡视频,并提示两张图主题和构图越接近,5 秒内过渡越稳定;差异太大会触发镜头切换。参考:https://kling.ai/quickstart/ai-video-start-end-frames
Luma Ray 强调关键帧、角色参考和跨镜头连续性,可用于理解“长镜头拆段 + 关键帧控制”的制作方向。参考:https://lumalabs.ai/ray

1.3 对本项目的工作流选择

本项目优先采用如下策略:

  1. 用文本模型先从 RPG 模板锚点生成 openingAnimationBlueprint
  2. 用图片模型一次性生成 4 张统一风格关键帧。
  3. 用首尾帧视频模型生成 35 秒片段。
  4. 用后端 ffmpeg 做统一转码、无缝拼接和封面帧提取。
  5. 用 OSS + asset_object + asset_entity_binding 保存最终资产。
  6. 前端只展示生成状态、预览视频和开局播放,不承担生成逻辑和视频拼接。

第一版模型供应商不写死在产品逻辑中。国内可用主链优先复用当前 Rust 资产生成链中已有的 Ark / DashScope 配置;如后续接入 Veo、Runway、Kling、Luma只作为 provider 扩展,不改变 RPG 模板数据结构。


2. 一句话定义

RPG 模板开场动画是一段由 4 张叙事关键帧和 35 秒 AI 视频片段组成的 15 秒多场景冒险开场演出,用于在玩家首次进入作品时快速建立世界观、核心冲突、目标牵引,并自然衔接到开局场景。


3. 本次目标

  1. RPG 模板必须新增开场动画蓝图,作为世界草稿和发布作品的一部分。
  2. 开场动画必须固定为 4 张关键帧、3 个视频片段、总时长 15 秒。
  3. 四张关键帧必须分别表达:
    • 第一幕:世界观
    • 第二幕:核心冲突与核心角色出场
    • 第三幕:核心目标
    • 第四幕:衔接开局场景
  4. 三段视频必须分别由相邻关键帧作为首尾帧生成:
    • 视频 1关键帧 1 -> 关键帧 2
    • 视频 2关键帧 2 -> 关键帧 3
    • 视频 3关键帧 3 -> 关键帧 4
  5. 最终成片必须能在 RPG 作品详情、创作结果页和运行时开局链路中复用。
  6. 播放结束后必须进入 RPG 开局场景;如果玩家跳过,也进入同一个开局场景。
  7. 开场动画生成失败不能阻断 RPG 发布和进入游戏,必须允许重新生成和无动画降级。
  8. 所有生成、拼接、资产落库和状态流转都必须在 Rust 后端完成,禁止回到 server-node

4. 明确不做

  1. 不做一次性长视频生成主链。
  2. 不在前端浏览器里拼接视频。
  3. 不把功能说明、规则解释默认写进游戏 UI。
  4. 不新增独立的“开场动画系统页面”;入口嵌入现有 RPG 创作结果页和模板配置区。
  5. 不要求第一版生成配音、字幕、音乐和音效。
  6. 不要求运行时根据玩家选择动态改写开场动画。
  7. 不在 SpacetimeDB reducer 内调用外部视频模型、OSS 或文件系统。
  8. 不兼容 server-node 旧生成链;旧实现只允许参考和迁移。

5. 叙事设计

5.1 四幕语义

关键表达 画面职责 与 RPG 模板字段关系
第一幕:世界观 这个世界是什么样,正在承受什么长期压力 展示地貌、文明、时代气质、异常现象或历史伤痕 读取 worldThemeworldHook、世界线程、主题母题、核心地标
第二幕:核心冲突与核心角色 谁被卷入冲突,冲突以什么形式爆发 让可扮演角色或核心 NPC 出场,并露出敌对力量、灾变、追捕、仪式或阵营压迫 读取主角、核心 NPC、阵营线、明线冲突
第三幕:核心目标 玩家为什么要开始冒险 展示目标物、禁地、远方地标、失落遗物、必须抵达的地点或必须拯救的人 读取主线目标、初始任务、关键物件、章节目标
第四幕:开局衔接 玩家即将在哪里醒来、抵达或被迫行动 画面落到第一个可操作场景,构图必须可作为游戏开局背景的前导镜头 读取开局场景、多幕第一幕背景、初始 NPC

5.2 镜头节奏

视频片段 时长 首尾帧 镜头目标
opening_clip_01 5s 世界观帧 -> 冲突帧 从宏观世界推进到冲突爆发,镜头可采用推进、俯冲、穿越云层、掠过地标
opening_clip_02 5s 冲突帧 -> 目标帧 让核心角色带着冲突压力朝目标靠近,镜头可采用跟随、转身、拔剑、奔跑、法阵亮起
opening_clip_03 5s 目标帧 -> 开局场景帧 从目标牵引落回玩家即将进入的地点,镜头可采用推门、坠落、醒来、抵达、火光转场

5.3 提示词原则

生成视频片段时,提示词只描述本段运动,不重复大段设定说明。

每段提示词必须包含:

  1. 镜头运动:例如缓慢推进、低空掠过、跟随角色、从远景落到近景。
  2. 主体运动:例如角色转身、队伍穿过遗迹、光芒汇聚、风暴逼近。
  3. 场景运动:例如云层翻涌、旗帜震动、烛火摇曳、尘土散开。
  4. 连续性约束:首帧和尾帧中的角色、服装、标志物、色彩基调保持一致。
  5. 游戏开场质感:多场景冒险 RPG、电影感、清晰主体、可读构图。

每段提示词禁止:

  1. 同时要求多个互相冲突的镜头切换。
  2. 用抽象词替代具体运动。
  3. 使用“不出现 / 不要 / 禁止”作为主要约束;应改写成正向描述。
  4. 要求模型在 5 秒内完成跨时代、跨空间、跨角色的大跳变。

6. 数据结构设计

6.1 RPG 模板新增字段

在 RPG 模板 / 世界 profile 中新增:

type RpgOpeningAnimationBlueprint = {
  id: string;
  enabled: boolean;
  status: 'not_started' | 'planning' | 'keyframes_generating' | 'clips_generating' | 'stitching' | 'ready' | 'failed';
  version: number;
  provider: string;
  aspectRatio: '16:9';
  totalDurationSec: 15;
  clipDurationSec: 5;
  keyframes: RpgOpeningAnimationKeyframe[];
  clips: RpgOpeningAnimationClip[];
  finalAsset?: RpgOpeningAnimationFinalAsset;
  fallbackPosterAssetId?: string;
  error?: RpgOpeningAnimationError;
  createdAt: string;
  updatedAt: string;
};

说明:

  1. enabled 控制运行时是否播放。
  2. status 由后端写入,前端只订阅和展示。
  3. provider 表示真实使用的生成供应商,例如 arkdashscopeveorunwayklingluma
  4. 第一版只支持 16:9,移动端播放时做安全裁切,不生成竖版副本。

6.2 关键帧对象

type RpgOpeningAnimationKeyframe = {
  id: string;
  order: 1 | 2 | 3 | 4;
  actRole: 'worldview' | 'conflict_and_role' | 'core_goal' | 'opening_scene_bridge';
  title: string;
  narrativeIntent: string;
  prompt: string;
  negativePrompt?: string;
  sourceAnchorIds: string[];
  assetObjectId?: string;
  previewUrl?: string;
  generationStatus: 'pending' | 'generating' | 'ready' | 'failed';
};

字段口径:

  1. title 只用于后台调试和创作结果页内部管理,不直接作为游戏 UI 文案。
  2. narrativeIntent 必须写清该帧承担的剧情功能。
  3. sourceAnchorIds 记录本帧来自哪些模板锚点,便于后续重新生成时保持语义。

6.3 视频片段对象

type RpgOpeningAnimationClip = {
  id: string;
  order: 1 | 2 | 3;
  fromKeyframeId: string;
  toKeyframeId: string;
  durationSec: 5;
  prompt: string;
  providerTaskId?: string;
  assetObjectId?: string;
  previewUrl?: string;
  generationStatus: 'pending' | 'generating' | 'ready' | 'failed';
  technicalProfile: {
    width: number;
    height: number;
    fps: 24 | 25 | 30;
    codec: 'h264';
    container: 'mp4';
  };
};

6.4 最终资产对象

type RpgOpeningAnimationFinalAsset = {
  assetObjectId: string;
  playbackUrl: string;
  posterAssetObjectId: string;
  posterUrl: string;
  durationSec: 15;
  width: number;
  height: number;
  fps: 24 | 25 | 30;
  codec: 'h264';
  container: 'mp4';
  clips: string[];
  generatedAt: string;
};

7. 后端生成流程

7.1 总流程

POST /api/custom-world/:profileId/opening-animation/generate
-> 校验作品归属与 RPG 类型
-> 读取世界 profile / 模板锚点 / 开局场景 / 角色视觉描述
-> 生成 openingAnimationBlueprint 文本计划
-> 生成 4 张关键帧图
-> 生成 3 个首尾帧视频片段
-> 下载远端视频
-> 统一转码为同规格 mp4
-> 拼接为 final opening mp4
-> 提取 poster
-> 上传 OSS
-> 确认 asset_object
-> 绑定到 RPG profile 的 opening-animation 槽位
-> 写回状态 ready

7.2 生成计划阶段

生成计划由 api-server 调用 platform-llm 完成,不进入 SpacetimeDB reducer。

输入上下文最少包含:

  1. 世界一句话钩子。
  2. 主题母题。
  3. 明线冲突。
  4. 暗线冲突的非剧透摘要。
  5. 主角 / 核心 NPC 的视觉描述。
  6. 第一个场景章节和开局场景。
  7. 初始任务目标。
  8. 已有场景图 / 角色图资产 URL。

输出必须是结构化 JSON至少包含

  1. 四幕 narrativeIntent
  2. 四张关键帧图片 prompt。
  3. 三段视频 motion prompt。
  4. 风格统一约束。
  5. 关键角色和标志物连续性约束。

7.3 关键帧生成阶段

关键帧生成必须优先复用已有图片生成链:

  1. 统一走 Rust api-server
  2. 真实请求外部图片服务。
  3. 结果落 OSS。
  4. 确认 asset_object
  5. 绑定槽位:
    • rpg-opening-keyframe-1
    • rpg-opening-keyframe-2
    • rpg-opening-keyframe-3
    • rpg-opening-keyframe-4

关键帧生成要求:

  1. 分辨率首版固定 1280x720 或供应商最接近的 16:9 输出。
  2. 四张图必须共享同一 styleSeed / visualBible
  3. 核心角色在第二幕和第三幕必须保持同一服装、轮廓、武器或标志物。
  4. 第四幕必须与开局场景背景语义一致,必要时使用开局场景图作为参考图。

7.4 视频片段生成阶段

每段视频生成请求必须显式传入:

  1. 首帧图片。
  2. 尾帧图片。
  3. 5 秒时长。
  4. 16:9 比例。
  5. 本段 motion prompt。
  6. 连续性约束。

视频片段槽位:

  1. rpg-opening-clip-1
  2. rpg-opening-clip-2
  3. rpg-opening-clip-3

如果供应商不支持首尾帧:

  1. 该供应商不能作为首选主链。
  2. 只允许作为内部实验 provider。
  3. 不允许把只支持单首帧的结果标记为正式通过。

7.5 拼接与转码

后端必须在拼接前统一三段视频规格:

  1. 容器:mp4
  2. 编码:h264
  3. 像素格式:yuv420p
  4. 分辨率:1280x720
  5. 帧率:优先 24fps,若供应商固定 25fps30fps,三段必须统一。
  6. 音频:第一版默认无音轨;如供应商返回音频,拼接前静音或统一移除。

拼接后必须提取:

  1. poster:第 0.5 秒或第一张关键帧。
  2. endPoster:第 14.5 秒,用于确认衔接开局场景。
  3. duration:必须在 14.5s ~ 15.5s

8. SpacetimeDB 与 Rust 边界

8.1 SpacetimeDB 负责

  1. 保存 RPG profile 中的开场动画蓝图状态。
  2. 保存资产对象与业务槽位绑定关系。
  3. 通过 reducer / procedure 更新可订阅状态。
  4. 让前端通过订阅或查询拿到当前 openingAnimationBlueprint

8.2 SpacetimeDB 不负责

  1. 不调用外部模型。
  2. 不下载视频。
  3. 不执行 ffmpeg
  4. 不访问 OSS。
  5. 不在 reducer 里生成随机非确定性内容。

8.3 Rust api-server 负责

  1. 编排 LLM 计划、图片生成、视频生成、转码拼接。
  2. 管理异步任务轮询。
  3. 处理 OSS 上传与下载。
  4. 调用 SpacetimeDB procedure 写入最终状态和资产绑定。
  5. 对前端提供 HTTP / SSE 生成进度。

这条边界必须遵守 SpacetimeDB 规则reducer 是确定性事务,不能把外部 I/O 放进去。


9. 前端嵌入设计

9.1 创作结果页

入口位置:

  1. 复用 RPG 创作结果页现有资产区。
  2. 增加一个“开场动画”资产槽。
  3. 点击槽位打开独立面板,不在当前卡片下方展开。

面板能力:

  1. 预览最终 15 秒视频。
  2. 展示四张关键帧缩略图。
  3. 展示三段视频状态。
  4. 支持重新生成全部。
  5. 支持只重生某张关键帧,并自动标记相关视频片段需要重生。
  6. 支持只重生某段视频。
  7. 支持禁用开场动画。

UI 约束:

  1. 不展示大段功能说明。
  2. 状态用短标签和进度表达。
  3. 移动端优先:关键帧横向滑动,视频预览保持 16:9
  4. 按钮使用图标 + 短文本,避免规则说明型文案。

9.2 RPG 模板发布

发布时校验:

  1. 如果 enabled = true,则 finalAsset 必须存在且可读取。
  2. 如果生成失败,发布不阻断,但自动写入 enabled = false 并保留错误状态。
  3. 发布后的作品详情页可展示开场动画 poster但不强制自动播放。

9.3 运行时开局播放

播放时机:

玩家点击开始游戏 / 继续进入新开局
-> 完成角色选择
-> 初始化 RPG session
-> 若 openingAnimation.enabled 且 finalAsset 可用
-> 播放开场动画
-> 播放结束或跳过
-> 进入开局场景

规则:

  1. 同一个存档只自动播放一次。
  2. 玩家跳过后必须记录 openingAnimationPlayed = true
  3. 继续游戏不自动播放,除非玩家从作品详情页手动预览。
  4. 视频加载失败时直接进入开局场景。
  5. 移动端播放必须提供明显的跳过按钮,但不写说明段落。

10. 状态机

not_started
-> planning
-> keyframes_generating
-> clips_generating
-> stitching
-> ready

任意生成阶段
-> failed
-> planning / keyframes_generating / clips_generating

关键规则:

  1. 重生关键帧 1会使视频 1 失效。
  2. 重生关键帧 2会使视频 1 和视频 2 失效。
  3. 重生关键帧 3会使视频 2 和视频 3 失效。
  4. 重生关键帧 4会使视频 3 失效。
  5. 重生某段视频后必须重新拼接最终成片。
  6. 最终成片 ready 后,旧版本资产不能立即删除,至少保留最近 2 个版本用于回滚。

11. API 设计

11.1 生成开场动画

POST /api/custom-world/:profileId/opening-animation/generate

请求:

{
  "mode": "full",
  "provider": "auto",
  "forceRegenerate": false
}

返回:

{
  "jobId": "opening_anim_job_xxx",
  "status": "planning"
}

11.2 重生关键帧

POST /api/custom-world/:profileId/opening-animation/keyframes/:keyframeId/regenerate

11.3 重生视频片段

POST /api/custom-world/:profileId/opening-animation/clips/:clipId/regenerate

11.4 查询状态

GET /api/custom-world/:profileId/opening-animation

返回当前 RpgOpeningAnimationBlueprint

11.5 订阅进度

GET /api/custom-world/:profileId/opening-animation/jobs/:jobId/stream

SSE 事件:

  1. planning
  2. keyframe_ready
  3. clip_ready
  4. stitching
  5. ready
  6. error

12. 工程落地阶段

阶段 1文档与契约冻结

  1. 确认 RpgOpeningAnimationBlueprint 字段。
  2. 确认资产槽位命名。
  3. 确认 provider 抽象。
  4. 确认运行时只播放一次的状态字段。

验收:

  1. 文档字段可直接编码。
  2. 前后端对同一 JSON contract 无歧义。

阶段 2后端计划与关键帧生成

  1. api-server 生成四幕计划。
  2. 接入图片生成。
  3. 关键帧落 OSS 和 asset_object
  4. profile 写回关键帧状态。

验收:

  1. 能在结果页看到四张真实生成图。
  2. 第四张图语义上能衔接开局场景。

阶段 3首尾帧视频生成

  1. 三段视频真实请求外部模型。
  2. 每段固定 5 秒。
  3. 每段落 OSS。
  4. 支持失败重试与单段重生。

验收:

  1. 三段视频都不是占位视频。
  2. 每段首尾画面与对应关键帧一致。

阶段 4拼接发布与运行时播放

  1. 后端统一转码。
  2. 拼接成 15 秒成片。
  3. 提取 poster。
  4. RPG 运行态首次开局播放。
  5. 播放结束或跳过进入开局场景。

验收:

  1. 最终视频时长在 14.5s ~ 15.5s
  2. 播放后进入的场景与第四幕一致。
  3. 同一存档不会重复自动播放。

13. 质量验收标准

13.1 叙事验收

  1. 第一幕不用字幕也能看出世界类型和主要气质。
  2. 第二幕能看出冲突正在发生,并且核心角色可被识别。
  3. 第三幕能看出玩家即将追求的目标。
  4. 第四幕能自然落到开局场景,不像另一个无关地点。
  5. 四幕之间存在视觉连续性,不是四张无关插图。

13.2 视频验收

  1. 三段均为真实外部生成结果。
  2. 每段约 5 秒。
  3. 拼接后无明显黑帧、重复帧、尺寸跳变。
  4. 主体没有严重形变、闪烁、消失。
  5. 核心角色在第二、第三幕保持可识别一致。
  6. 移动端播放不裁掉核心主体。

13.3 工程验收

  1. 所有生成任务由 Rust api-server 编排。
  2. 资产落 OSS并有 asset_object 记录。
  3. 业务实体通过槽位绑定读取资产。
  4. SpacetimeDB reducer 不包含外部 I/O。
  5. 前端刷新后仍能恢复生成状态。
  6. 生成失败有可重试状态,不写入假成功。

14. 风险与降级

风险 降级策略
关键帧风格不一致 用同一 visual bible、参考图和角色视觉描述重生四张图
首尾帧差异过大导致视频硬切 调整相邻关键帧构图,使主体、视角、色彩更接近
第二幕角色漂移 使用角色主形象作为参考图,并在第二、第三幕共享角色约束
视频生成超时 单段失败只重试该段,不重跑全流程
拼接后有黑帧 后端转码时强制统一 fps、分辨率、像素格式
移动端加载慢 poster 先显示,视频懒加载;失败直接进开局场景
供应商审核失败 后端生成更保守的原创 prompt 重试一次,仍失败则标记 failed

15. 后续扩展

  1. 增加背景音乐和环境音,但不改变四帧三段主链。
  2. 为移动端生成 9:16 竖版裁切版本。
  3. 支持创作者手动上传某张关键帧,再生成相邻视频。
  4. 支持发布后版本化替换开场动画。
  5. 支持用第四幕直接生成开局场景动态背景。
  6. 支持把开场动画拆出的关键帧回流为作品详情页轮播素材。