GenarrativeAI/Genarrative

Fork 0

Files

kdletters cbc27bad4a

CI / verify (push) Has been cancelled

Details

init with react+axum+spacetimedb

2026-04-26 18:06:23 +08:00

6.3 KiB

Raw Blame History

`platform-llm` 文本网关首版设计（2026-04-21）

1. 背景

server-rs/crates/platform-llm/ 在 2026-04-20 只完成了目录占位，但当前仓库里已经存在一条稳定的 Node 侧文本模型主链：

server-node/src/services/llmClient.ts
server-node/src/modules/ai/*
server-node/src/services/storyService.ts
server-node/src/services/questService.ts
server-node/src/services/runtimeItemService.ts

这些调用点已经依赖一套隐含约束：

使用 OpenAI 兼容的 /chat/completions
统一 Bearer 鉴权
同时支持非流式 JSON 响应与 SSE 流式增量
要求有超时、连接失败、上游错误和空响应兜底

如果 Rust 侧继续只保留 README 占位，后续 api-server、module-ai、module-story、module-npc 在落地时又会各自复制一份私有上游 client，重新造成平台层分叉。

因此本次先把 platform-llm 收口成一个真实可编译、可测试、可复用的 Rust crate，冻结文本主链基础设施。

2. 本次落地范围

2.1 本次明确实现

LlmProvider：冻结 provider 来源标签，首版包含 ark、dash_scope、openai_compatible
LlmConfig：统一 base url、api key、model、timeout、retry 配置
LlmMessageRole、LlmMessage、LlmTextRequest：统一请求 DTO
LlmClient::request_text(...)：统一非流式文本调用
LlmClient::stream_text(...)：统一流式 SSE 文本调用
LlmTextResponse、LlmStreamDelta、LlmTokenUsage：统一响应 DTO
LlmError：统一配置错误、请求错误、超时、连接失败、上游错误、反序列化错误、空响应错误
基础重试策略：对 408、429、5xx、超时、连接失败重试

2.2 本次明确不做

不在 platform-llm 内承接业务 prompt 组织
不在 platform-llm 内承接模块级状态写回
不在 platform-llm 内做 HTTP Route/SSE façade
不提前把图片、视频、异步任务轮询混进同一个 crate
不声称已经打通 DashScope 图像 API；当前首版只做文本网关

3. 当前边界口径

3.1 文本协议边界

首版只冻结 OpenAI 兼容 chat completion：

请求路径固定为 base_url + /chat/completions
Bearer Token 由 Authorization: Bearer <api_key> 注入
非流式返回解析 choices[0].message.content
流式返回解析 choices[0].delta.content
content 若返回数组文本片段，也统一拼成单字符串

3.2 Provider 边界

Ark：当前仓库已有真实默认 base url，可直接作为 Rust 首版默认值
DashScope：当前只保留 provider 标签，不在 crate 内硬编码其文本兼容入口
OpenAiCompatible：用于其他兼容网关

这里故意不把 DashScope 文本 base url 写死，是因为当前仓库的真实 Node 主链并没有用 DashScope 跑文本 /chat/completions，而是主要用于图像任务；Rust 首版不应在没有仓库事实对齐的前提下硬塞一个未经验证的默认路径。

4. 对外 API 设计

4.1 `LlmConfig`

字段：

provider
base_url
api_key
model
request_timeout_ms
max_retries
retry_backoff_ms

约束：

base_url、api_key、model 不允许为空
request_timeout_ms 必须大于 0
max_retries 表示“首轮之外还允许重试多少次”

4.2 `LlmTextRequest`

字段：

model: Option<String>
messages: Vec<LlmMessage>
max_tokens: Option<u32>

约束：

messages 不能为空
每条 message.content 不能为空字符串
model 如果传入，则 trim 后不能为空

4.3 `LlmTextResponse`

字段：

provider
model
content
finish_reason
response_id
usage

设计目的：

上层只拿统一文本结果，不再接触 choices、delta、message 等上游细节
后续 api-server 可以直接把这些字段映射到自己的 HTTP / SSE contract

5. 错误与重试策略

5.1 错误分层

LlmError 首版固定为：

InvalidConfig
InvalidRequest
Timeout
Connectivity
Upstream
StreamUnavailable
EmptyResponse
Transport
Deserialize

5.2 重试规则

允许重试：

请求超时
连接失败
408
429
5xx

不重试：

配置错误
请求体无效
上游返回 4xx 非限流类错误
已成功开始返回流之后的解析错误

5.3 Backoff 规则

首版采用线性 backoff：

第 1 次重试等待 retry_backoff_ms
第 2 次重试等待 retry_backoff_ms * 2
依此类推

原因：

先保持实现简单
足以覆盖当前仓库文本上游的偶发抖动
真正需要指数退避时，再在平台层单点升级即可

6. 与 Node 现状对齐

Rust 首版有意对齐 server-node/src/services/llmClient.ts 的事实边界：

同样走 /chat/completions
同样区分非流式与流式
同样在空文本时直接报错
同样把上游 JSON 错误体里的 error.message / message 提取出来
同样把重试、超时、连接失败收口在一个平台层里

但 Rust 版这次额外收紧两点：

不混入 Express Request/Response 转发逻辑
不把业务 prompt 参数与上游 client 绑定在一起

这样后续 api-server 和 module-ai 都只能依赖一套稳定基础设施，而不是复制旧 Node 的“传 HTTP 对象进去直接转发”的实现方式。

7. 当前测试覆盖

首版要求至少覆盖：

配置校验
URL 归一化
SSE 事件解析
非流式成功响应解析
500 -> retry -> 200 的重试闭环
流式累计文本拼接

8. 后续衔接

8.1 `api-server`

后续 api-server 应该：

在自身配置层解析环境变量
组装 LlmConfig
注入 LlmClient
在 handler / application façade 中调用 request_text 或 stream_text

8.2 `module-ai`

后续 module-ai 应该：

只负责 prompt 组织、阶段状态和结果引用
不直接依赖 reqwest
不再自己解析 SSE 增量
统一通过 platform-llm 调模型

9. 本次验收标准

本次实现完成后，应满足：

server-rs workspace 能识别 platform-llm crate
cargo test -p platform-llm 通过
cargo check -p platform-llm 通过
platform-llm README 不再是“仅目录占位”
docs/technical/README.md 有正式文档索引

6.3 KiB Raw Blame History Unescape Escape

platform-llm 文本网关首版设计（2026-04-21）