实验七：模型系统集成与验证

实验目的：

- 学习将训练完成的机器学习模型集成到完整的软件系统中。掌握把各独立模块（数据处理模块、预测模型模块等）衔接起来形成端到端预测流水线的方法，为模型实际部署打基础。

- 理解模型集成到系统后的功能验证要点，包括接口匹配、数据格式转换、运行效率和稳定性测试等。通过模拟实际应用场景，对集成后的系统进行测试，确保其在多样输入下均能正确输出。

- 体会从模型研发生态向产品化系统过渡的过程，培养工程化思维。例如考虑如何封装模型使其易于被上层应用调用，如何处理异常输入，如何记录日志以便调试等。

- 将之前各实验成果串联起来，实现从原始数据输入到预测结果输出的一体化流程，提升学生对整个项目流程的宏观把控和理解。

实验资源要求：

- 数据： 若干用于集成测试的输入样本，可以是从测试集中选取的代表性场景数据，或模拟实时数据流的小型数据文件。也需要对应的真实输出以验证结果正确性。

- 软件环境： Python 3.x。可编写独立脚本或模块实现集成。主要包含前处理代码（特征标准化、降噪等）、模型加载与推理代码、以及结果后处理（如逆标准化）等。需要用到此前保存的Scaler参数、模型权重文件等资源。

- 计算环境： 普通PC或服务器皆可。要求实验环境可以长时间运行代码以模拟持续预测过程，需监控资源占用情况评估效率。

实验时长： 約3小时

实验内容： 经过多轮模型训练和优化，现已获得性能优异的乘员舱降温预测模型。本实验旨在将该模型集成到一个模拟在线预测系统中，并进行验证测试。这一步标志着从“模型研发”走向“模型部署”的过渡，对学生来说既是对前期工作的总结应用，也是学习工程实现的重要实践。

集成的首要任务是封装数据处理与预测流程。学生将把之前散落在各实验的步骤（数据标准化、特征处理、模型推理、结果后处理）组合成一个连续的pipeline。在编程实现上，可以创建一个函数或类，如CabinCoolingPredictor，其方法predict(input_data)能够完成从输入原始数据到输出预测结果的全过程。具体包含：

- 加载配置和资源： 初始化时读取此前保存的标准化Scaler参数、降噪所需配置，以及训练好的模型权重文件（包括两个子模型的权重，如集成模型需要）。利用PyTorch加载模型结构和参数到内存，准备就绪以便随时调用预测。

- 数据预处理模块： 在predict方法开始，对传入的原始输入数据进行格式转换和预处理。比如输入可能是当前时刻环境参数和过去T秒的时间序列，则首先按需求组织成模型输入张量形状。然后应用标准化变换（使用训练时的Scaler参数）将数值缩放，与模型训练分布一致。若需要降噪且当前输入为实时传感器数据，可以考虑实时平滑（例如对最近的几个读数取平均）。保证处理后的输入数据格式和尺度与训练阶段完全一致。

- 模型推理模块： 将预处理后的数据送入加载好的模型，执行前向预测得到输出。若是集成模型，需要分别调用模型A和模型B，然后按之前确定的融合权重计算最终输出。在PyTorch中需设置evaluation模式（model.eval()）以确保不发生训练相关的随机性（如Dropout）。注意控制推理时间，确保及时返回结果。

- 结果后处理模块： 将模型原始输出还原为实际物理量。如之前对温度做过标准化，这里要进行逆标准化得到真实温度值。若应用了偏差校正，也在此加上偏差调整。对于输出为整个未来温度曲线的情况，可能需要将结果包装成易于使用的格式，例如JSON数组。如果输出只是当前时刻预测，可以直接给出数值。额外的处理包括：截断不合理预测（例如预测温度出现物理上不可能的负值，则设定下限0°C），以增强鲁棒性。

图1 功能验证：真实 vs 预测（10 分钟片段）

完成以上封装，相当于构建了一个可重用的预测服务模块。接下来需要对其进行验证。验证主要从功能正确性和性能效率两方面。功能上，设计多个测试用例：例如输入一组典型环境参数序列，调用predict得到预测曲线，将其与已知真实曲线或独立计算结果比较，验证误差在允许范围内。可重现之前测试集的某个样本检查是否一致。还可以设计异常测试：如输入缺少某特征或数值超范围，观察模块是否有适当处理（如报错或截断警告）。效率上，可模拟实际应用场景的调用频率，测量每次预测耗时和系统资源占用（CPU、内存）。因为最终应用可能要求实时预测（例如每秒一次），模型推理必须在1秒内完成且占用合理资源。若发现性能瓶颈，可考虑优化措施，如采用更高效的数据结构、批量处理多步预测，甚至利用模型蒸馏简化模型等（思路即可，无需在实验中实际实现）。

图2 残差分布（含平滑密度）

另外，本实验也触及系统可靠性方面：确保集成后的模块在长时间、多场景运行下稳定不崩溃。要求学生在测试过程中观察有无内存泄漏，异常是否被捕获处理等。对于实际部署，还需考虑日志记录（记录每次预测输入输出用于追踪）、错误报警机制等，这里可让学生简单实现打印日志或异常处理逻辑以示范。

通过本实验，学生将最终看到自己的模型变成一个可调用的系统组件，并成功对外提供预测服务。这种成就感和对完整系统构建的认识，将使他们更好地理解课堂知识与真实应用的衔接，为最后部署到用户界面做准备。

实验步骤：

1. 编写集成模块代码

目标： 将数据处理—模型推理—后处理—校准—融合封装为稳定、可配置、可观测的模块 CabinCoolingPredictor。

设计要点

配置分离： 使用 integration.yaml（或 .toml）集中声明：特征清单、时间窗 T_in、标准化参数路径、降噪窗口、偏差校正参数、融合策略（α 或 β 向量）、模型权重与架构版本号（model_semver）、数据版本号（data_semver）。
资源加载策略：
- 标准化（Scaler/Normalizer）：从磁盘加载（例如 pickle/joblib），附带哈希校验（SHA256），加载后做一次性自检（mean/std 是否与训练报告一致）。
- 模型 A/B：构建与训练时一致的拓扑，加载权重，model.eval() 且冻结梯度（requires_grad=False）。
- 融合参数：支持三种模式：常数 α、验证集最优 α*、线性元模型系数 β（含可选截距 β₀ 与非负/和为 1 的约束标志）。
日志与追踪： 统一使用结构化日志（JSON 行），最少字段：ts, level, event, model_semver, data_semver, device, seed, artifact_hash。可选对接 OpenTelemetry TraceID/SpanID。
错误语义： 自定义异常层级（ConfigError, ArtifactMismatch, FeatureMissing, ShapeMismatch, PostprocessError），所有公开接口不抛裸异常。

实现要点（伪代码）

class CabinCoolingPredictor:
    def __init__(self, cfg_path: str, device: str = "auto"):
    self.cfg = load_and_validate_cfg(cfg_path) # schema 验证 + 版本/哈希校验
    self.device = select_device(device) # "auto"|"cpu"|其他后端
    self.scaler = load_scaler(self.cfg.scaler_path) # 含均值/方差/分位数等
    self.models = {
    "A": build_model(self.cfg.modelA).to(self.device).eval(),
    "B": build_model(self.cfg.modelB).to(self.device).eval(),
    }
    load_weights(self.models["A"], self.cfg.weightsA, verify_hash=True)
    load_weights(self.models["B"], self.cfg.weightsB, verify_hash=True)
    self.fusion = load_fusion_params(self.cfg.fusion) # alpha 或 beta
    log_info(event="init_done", model_semver=self.cfg.model_semver, device=self.device)

质量门控（Gate）

配置、权重、Scaler 三者的版本与哈希一致；
sanity_check()：对一个内置小样本（fixture）跑通并比对参考输出（允许容差 ε）；
初始化耗时 ≤ 1s（冷启动场景除外），内存常驻量与基线一致±10%。

产出物

integration.yaml、integration.py、hash_manifest.json、init_sanity_log.jsonl。

2. 实现预测方法

目标： predict(input_data) 完成输入校验 → 预处理 → 推理（A/B）→ 融合 → 逆标准化/校准 → 合法化裁剪 → 打包返回的端到端流程，并保证可观测与可回放。

设计要点

输入契约（Contract）：
- 接收 dict / pydantic 模型 / np.ndarray；必须包含：时间戳序列（单调递增、无重复）、特征集合（与配置一致），窗口长度= T_in。
- 容错：缺字段 → 明确报错；数值越界 → 截断并记录 warn；异常时间戳（乱序/重复）→ 归并或拒绝。
预处理：
- 缺失值：仅允许末端极短缺失（如 ≤2 个采样点），采用前向填充+线性插值，记录所修复位置；其他缺失直接报错。
- 实时平滑（可选）：滑动平均 / Savitzky-Golay，参数从配置中读取。
- 标准化：严格使用训练期拟合的统计量；同时保留原尺度副本以备审计。
推理与融合：
- 输入形状统一为 (1, T_in, F)；
- 得到 output_A, output_B（形状 (1, H) 或 (1, 1)），融合：
  - 加权平均：y = α·yA + (1-α)·yB；
  - 线性元模型：y = β0 + β1·yA + β2·yB（若带约束，校验 β≥0, β1+β2≈1±ε）。
后处理：
- 逆标准化：若训练时目标变量参与了标准化，需拼接回特征向量再 inverse；或按保存的均值/方差手动还原。
- 偏差校正：常数平移 / 线性校准（a + b·y）/ 条件校准（高外温场景单独参数）。
- 物理合法性：裁剪 y ≥ 0°C，上限（如 65°C）；单调性/平滑性约束（可选）：对未来短窗做 TV 正则化平滑。
可观测： 记录耗时分解（预处理/推理/后处理），输入输出摘要（脱敏），并返回 diagnostics。

实现要点（伪代码）

def predict(self, input_data) -> dict:
    t0 = now()
    x_raw = validate_and_align(input_data, expect_features=self.cfg.features, T=self.cfg.T_in)
    x_clean = impute_and_smooth(x_raw, self.cfg.cleaning)
    x_std = self.scaler.transform(x_clean) # 保证与训练一致
    X = to_tensor(x_std[None, ...], device=self.device) # (1, T, F)
    with no_grad():
    yA = self.models["A"](X) # (1, H) or (1, 1)
    yB = self.models["B"](X)
    y = fuse_outputs(yA, yB, self.fusion)
    y_np = to_numpy(y)
    y_phys = inverse_transform_and_calibrate(y_np, self.scaler, self.cfg.calibration)
    y_phys = clip_and_regularize(y_phys, bounds=(0, 65), smoothing=self.cfg.post_smooth)
    diag = {
    "latency_ms": (now() - t0).ms,
    "stages_ms": {...}, "alerts": collected_warnings()
    }
    return {"y": y_phys.tolist(), "diagnostics": diag}

质量门控（Gate）

输入形状、特征顺序、时间戳严格匹配；
端到端延迟 p95 ≤ 200 ms（示例 SLO，视场景调整）；
任一报警（缺失修复、越界裁剪）均写入诊断与日志。

产出物

predict_contract.md、predict_slo.json、example_request.json、example_response.json。

3. 单次功能测试

目标： 用已知参考样本对端到端行为做逐段对比，锁定回归风险与兼容性问题。

设计要点

固定样本测试（Golden Sample）： 选择一条测试集中已在离线评估出现过的样本 i*，保存其预处理前输入与预期输出（来自离线流水线）。
逐段对齐比对：
- 预处理输出 vs 离线预处理（逐特征 L2 误差 ≤ ε）；
- 模型输出 vs 离线单步推理结果（在禁用 dropout / 固定随机种子的条件下误差 ≤ ε）；
- 融合输出 vs 离线融合；
- 逆标准化与校准之后的最终预测 vs 离线报告曲线。
容差控制： 定义多级容差（浮点累计误差、依赖库版本差异），以绝对/相对误差上限形式记录。

实现要点（伪代码）

pred = predictor.predict(golden_input)
assert l2(pred["intermediate"]["x_std"], offline_x_std) < 1e-6
assert mae(pred["intermediate"]["yA"], offline_yA) < 1e-6
assert mae(pred["y"], offline_y) < 1e-6

质量门控（Gate）

全链路比对通过；
日志包含 golden_test_pass=true 与关键摘要；
若失败，自动输出差异报告（保存到 diff_reports/）。

产出物

golden_case.pkl、golden_diff_report.json、single_run_log.jsonl、true_vs_pred_plot.png。

4. 多场景测试

目标： 在多工况/极端/异常输入下验证稳健性、物理合理性与错误语义。

设计要点

工况覆盖： 从测试集分层抽样（外温/光照/车速分位），外加手工合成的极端场景（极高外温/零光照/低送风等）。
期望模板（Oracle）：
- 物理单调：在极端高外温、低送风条件下，降温速度不应反常快；
- 数值范围：全程在 [0°C, 65°C]；
- 趋势合理：冷启动 0–300 s 内下降明显，其后趋稳。
异常注入（Negative Tests）：
- 缺失关键特征（应抛 FeatureMissing）；
- 越界值（裁剪并告警）；
- 乱序/重复时间戳（拒绝或修复后告警）；
- 负长度窗口/空载（应抛 ShapeMismatch/PayloadEmpty）。

实现要点

批量运行并生成合格/不合格清单；不合格项自动生成“输入摘要+诊断+建议”报告。
提供快速可视化脚本：批量叠图“真实 vs 预测（若有真实值）/趋势包络线”。

质量门控（Gate）

合格率 ≥ 99%（异常注入样本除外）；
所有异常输入明确报错，不得静默失败；
极端场景下无物理反常输出。

产出物

scenario_matrix.csv、batch_results.jsonl、anomaly_cases/…、trend_plots/*.png。

5. 性能测试

目标： 在近似真实调用频率与持续压力下验证端到端延迟/吞吐与资源使用，定位瓶颈并提出优化方案。

设计要点

延迟/吞吐基准：
- 预热期（如 200 次调用）后统计 10,000 次调用的 p50/p90/p95/p99 延迟；
- QPS–延迟曲线（1→N 并发）；
- 资源曲线（CPU/内存/IO）与内存泄漏监控（随时间的净增长应≈0）。
阶段耗时拆解： 记录预处理/推理/后处理的均值±标准差；观察抖动。
异常延迟抓取： 捕捉>p99 的长尾请求，记录输入摘要与栈信息（脱敏）。
优化路线（不强制实施）：
- 常驻模型与标准化器（避免 predict 内重复加载）；
- 复用张量与缓冲区（避免频繁分配/回收）；
- 批量化多步预测；
- 模型蒸馏/量化（后续实验）。

实现要点（伪代码）

latencies = []
for _ in range(N):
t0 = now(); predictor.predict(sample); latencies.append((now()-t0).ms)
report_percentiles(latencies, [50,90,95,99])

质量门控（Gate）

单次预测平均耗时 < 1s，且 p95 满足 UI SLO（例如 < 300 ms，按场景确定）；
30 分钟压力测试内存增长 < 2%；
无阶段性抖动（推理阶段 std/mean < 0.3）。

产出物

perf_summary.json、latency_hist.png、latency_cdf.png、qps_vs_latency.png、stage_breakdown.csv、resource_trace.csv。

6. 整合日志与文档

目标： 提供可运维、可排障的日志与面向使用方的接口文档，形成工程闭环。

设计要点

日志：
- 结构化 JSON 行日志，分级（INFO/WARN/ERROR），敏感脱敏（如只记录外温分位、不记录原始轨迹）；
- 日志轮转与压缩，保留策略（如 7 天）；
- 错误码体系：E1001 FeatureMissing, E2001 ArtifactMismatch, E3001 PostprocessError…
指标导出（可选）： 暴露 /metrics 或本地文件，至少包含：请求计数、成功率、p95 延迟、阶段耗时均值、异常计数。
接口文档：
- 输入 JSON 示例（字段、类型、单位、采样率、窗口长度、时区/时间戳格式）；
- 输出 JSON 示例（单步/多步、诊断字段说明）；
- 误差与范围说明、常见错误及处理建议、适用边界（外温/光照区间）。
变更记录与兼容： CHANGELOG.md 记录接口或行为变更与向后兼容策略。

质量门控（Gate）

日志在常规负载下吞吐不成为瓶颈（异步或无锁队列）；
文档经第三方同学按文档独立调用通过（即“文档驱动测试”通过）。

产出物

logs/*.jsonl（示例）、API_usage.md、schema.json（可选 OpenAPI 片段）、CHANGELOG.md、RUNBOOK.md。

7. 实验验证结论

目标： 汇总功能、稳健性与性能结果，给出是否具备离线部署条件的结论与下一步上线规划。

结论示例

功能正确性：与离线基线一致性通过（Golden 对齐、场景覆盖率≥99%）；
误差指标：在再评估样本上，MAE/RMSE 与离线一致±ε；关键点（VDS）覆盖率≥既定阈值；
性能：单次预测平均耗时/百分位满足 SLO，长时间运行无泄漏；
健壮性：异常输入全部明确处理；物理合理性检查通过。
上线前清单（摘录）：
- 打包：锁定依赖版本（requirements.txt/poetry.lock）、不可变容器镜像（可选）；
- 配置：integration.yaml 只读挂载、热更新策略与回滚；
- 访问：后续通过 REST/RPC 网关暴露（下一实验），加速限流与鉴权白名单；
- 监控告警：延迟/错误率/异常计数告警阈值与通知通道；
- 数据治理：在线输入抽样回灌离线评估、定期重估校准参数。

质量门控（Gate）

以上四类结论全部满足或说明偏差原因及缓解措施；
形成可审计包：包含代码、配置、权重、哈希、基准报告、日志样例、复现脚本。

产出物

integration_report.md（含图表与表格索引）、deployment_readiness_checklist.md、artifacts_manifest.json。

附：目录与复现脚本建议

integration/

├─ integration.py

├─ integration.yaml

├─ models/

│ ├─ modelA.ckpt

│ └─ modelB.ckpt

├─ scalers/

│ └─ target_scaler.pkl

├─ fusion/

│ └─ fusion_params.json # { "type": "alpha", "value": 0.52 } 或 { "type":"beta", ... }

├─ tests/

│ ├─ golden_case.pkl

│ └─ test_contract.py

├─ scripts/

│ ├─ run_single_golden.sh

│ ├─ run_scenarios.py

│ └─ benchmark_latency.py

├─ logs/

├─ docs/

│ ├─ API_usage.md

│ ├─ predict_contract.md

│ └─ RUNBOOK.md

└─ reports/

├─ integration_report.md

└─ perf_summary.json

上一页实验六：预测误差分析与优化改进下一页实验八：模型部署与接口开发

最后更新于3个月前

hashtag1. 编写集成模块代码

hashtag2. 实现预测方法

hashtag3. 单次功能测试

hashtag4. 多场景测试

hashtag5. 性能测试

hashtag6. 整合日志与文档

hashtag7. 实验验证结论

hashtag附：目录与复现脚本建议

1. 编写集成模块代码

2. 实现预测方法

3. 单次功能测试

4. 多场景测试

5. 性能测试

6. 整合日志与文档

7. 实验验证结论

附：目录与复现脚本建议