Files
Genarrative/docs/technical/PLATFORM_LLM_TEXT_GATEWAY_DESIGN_2026-04-21.md
kdletters cbc27bad4a
Some checks failed
CI / verify (push) Has been cancelled
init with react+axum+spacetimedb
2026-04-26 18:06:23 +08:00

6.3 KiB
Raw Permalink Blame History

platform-llm 文本网关首版设计2026-04-21

1. 背景

server-rs/crates/platform-llm/2026-04-20 只完成了目录占位,但当前仓库里已经存在一条稳定的 Node 侧文本模型主链:

  1. server-node/src/services/llmClient.ts
  2. server-node/src/modules/ai/*
  3. server-node/src/services/storyService.ts
  4. server-node/src/services/questService.ts
  5. server-node/src/services/runtimeItemService.ts

这些调用点已经依赖一套隐含约束:

  1. 使用 OpenAI 兼容的 /chat/completions
  2. 统一 Bearer 鉴权
  3. 同时支持非流式 JSON 响应与 SSE 流式增量
  4. 要求有超时、连接失败、上游错误和空响应兜底

如果 Rust 侧继续只保留 README 占位,后续 api-servermodule-aimodule-storymodule-npc 在落地时又会各自复制一份私有上游 client重新造成平台层分叉。

因此本次先把 platform-llm 收口成一个真实可编译、可测试、可复用的 Rust crate冻结文本主链基础设施。

2. 本次落地范围

2.1 本次明确实现

  1. LlmProvider:冻结 provider 来源标签,首版包含 arkdash_scopeopenai_compatible
  2. LlmConfig:统一 base url、api key、model、timeout、retry 配置
  3. LlmMessageRoleLlmMessageLlmTextRequest:统一请求 DTO
  4. LlmClient::request_text(...):统一非流式文本调用
  5. LlmClient::stream_text(...):统一流式 SSE 文本调用
  6. LlmTextResponseLlmStreamDeltaLlmTokenUsage:统一响应 DTO
  7. LlmError:统一配置错误、请求错误、超时、连接失败、上游错误、反序列化错误、空响应错误
  8. 基础重试策略:对 4084295xx、超时、连接失败重试

2.2 本次明确不做

  1. 不在 platform-llm 内承接业务 prompt 组织
  2. 不在 platform-llm 内承接模块级状态写回
  3. 不在 platform-llm 内做 HTTP Route/SSE façade
  4. 不提前把图片、视频、异步任务轮询混进同一个 crate
  5. 不声称已经打通 DashScope 图像 API当前首版只做文本网关

3. 当前边界口径

3.1 文本协议边界

首版只冻结 OpenAI 兼容 chat completion

  1. 请求路径固定为 base_url + /chat/completions
  2. Bearer Token 由 Authorization: Bearer <api_key> 注入
  3. 非流式返回解析 choices[0].message.content
  4. 流式返回解析 choices[0].delta.content
  5. content 若返回数组文本片段,也统一拼成单字符串

3.2 Provider 边界

  1. Ark:当前仓库已有真实默认 base url可直接作为 Rust 首版默认值
  2. DashScope:当前只保留 provider 标签,不在 crate 内硬编码其文本兼容入口
  3. OpenAiCompatible:用于其他兼容网关

这里故意不把 DashScope 文本 base url 写死,是因为当前仓库的真实 Node 主链并没有用 DashScope 跑文本 /chat/completions而是主要用于图像任务Rust 首版不应在没有仓库事实对齐的前提下硬塞一个未经验证的默认路径。

4. 对外 API 设计

4.1 LlmConfig

字段:

  1. provider
  2. base_url
  3. api_key
  4. model
  5. request_timeout_ms
  6. max_retries
  7. retry_backoff_ms

约束:

  1. base_urlapi_keymodel 不允许为空
  2. request_timeout_ms 必须大于 0
  3. max_retries 表示“首轮之外还允许重试多少次”

4.2 LlmTextRequest

字段:

  1. model: Option<String>
  2. messages: Vec<LlmMessage>
  3. max_tokens: Option<u32>

约束:

  1. messages 不能为空
  2. 每条 message.content 不能为空字符串
  3. model 如果传入,则 trim 后不能为空

4.3 LlmTextResponse

字段:

  1. provider
  2. model
  3. content
  4. finish_reason
  5. response_id
  6. usage

设计目的:

  1. 上层只拿统一文本结果,不再接触 choicesdeltamessage 等上游细节
  2. 后续 api-server 可以直接把这些字段映射到自己的 HTTP / SSE contract

5. 错误与重试策略

5.1 错误分层

LlmError 首版固定为:

  1. InvalidConfig
  2. InvalidRequest
  3. Timeout
  4. Connectivity
  5. Upstream
  6. StreamUnavailable
  7. EmptyResponse
  8. Transport
  9. Deserialize

5.2 重试规则

允许重试:

  1. 请求超时
  2. 连接失败
  3. 408
  4. 429
  5. 5xx

不重试:

  1. 配置错误
  2. 请求体无效
  3. 上游返回 4xx 非限流类错误
  4. 已成功开始返回流之后的解析错误

5.3 Backoff 规则

首版采用线性 backoff

  1. 第 1 次重试等待 retry_backoff_ms
  2. 第 2 次重试等待 retry_backoff_ms * 2
  3. 依此类推

原因:

  1. 先保持实现简单
  2. 足以覆盖当前仓库文本上游的偶发抖动
  3. 真正需要指数退避时,再在平台层单点升级即可

6. 与 Node 现状对齐

Rust 首版有意对齐 server-node/src/services/llmClient.ts 的事实边界:

  1. 同样走 /chat/completions
  2. 同样区分非流式与流式
  3. 同样在空文本时直接报错
  4. 同样把上游 JSON 错误体里的 error.message / message 提取出来
  5. 同样把重试、超时、连接失败收口在一个平台层里

但 Rust 版这次额外收紧两点:

  1. 不混入 Express Request/Response 转发逻辑
  2. 不把业务 prompt 参数与上游 client 绑定在一起

这样后续 api-servermodule-ai 都只能依赖一套稳定基础设施,而不是复制旧 Node 的“传 HTTP 对象进去直接转发”的实现方式。

7. 当前测试覆盖

首版要求至少覆盖:

  1. 配置校验
  2. URL 归一化
  3. SSE 事件解析
  4. 非流式成功响应解析
  5. 500 -> retry -> 200 的重试闭环
  6. 流式累计文本拼接

8. 后续衔接

8.1 api-server

后续 api-server 应该:

  1. 在自身配置层解析环境变量
  2. 组装 LlmConfig
  3. 注入 LlmClient
  4. 在 handler / application façade 中调用 request_textstream_text

8.2 module-ai

后续 module-ai 应该:

  1. 只负责 prompt 组织、阶段状态和结果引用
  2. 不直接依赖 reqwest
  3. 不再自己解析 SSE 增量
  4. 统一通过 platform-llm 调模型

9. 本次验收标准

本次实现完成后,应满足:

  1. server-rs workspace 能识别 platform-llm crate
  2. cargo test -p platform-llm 通过
  3. cargo check -p platform-llm 通过
  4. platform-llm README 不再是“仅目录占位”
  5. docs/technical/README.md 有正式文档索引