裸金属云服务器质量控制

概述

裸金属云服务器质量控制流程确保在三个阶段中的可靠性:

  1. 部署前压力测试 – 验证硬件在出货前的稳定性。

  2. 生产入库验收测试 – 在加入生产池前验证所有组件。

  3. 系统运行监控与告警 – 维护长期健康与运营一致性。

1. 服务器压力测试

当我们采购新服务器或服务器在边缘节点首次部署时,会进行全面压力测试以确保硬件的稳定性与可靠性。

测试重点为内存完整性和系统级性能压力。我们主要使用以下工具:

1.1 MemTest86 — 内存稳定性与错误检测

  • 目的: MemTest86 是独立的内存测试工具,可直接从启动运行,无需操作系统。它可检测内存模块的位错误、延迟异常及兼容性问题。

  • 集成测试: 内存与服务器整机硬件一起测试,而非在独立测试设备上单独测试内存模块。此方法能更真实地反映实际稳定性,捕捉内存、主板、CPU 与电源组件之间的相互作用。

  • 测试阶段:

    • 每轮必须完成至少一次完整测试阶段,确保验证所有地址范围和访问模式。

    • 测试结果会根据每个内存模块的序列号(SN)记录和归档,以便追踪和长期质量管理。

  • 双阶段测试:

    • 出厂前测试 – 在服务器组装完成并出货前进行,确保不出厂有缺陷的内存模块。

    • 机架安装后测试 – 机架安装后再次执行,以验证运输后的完整性,在分布式边缘环境中尤为重要。

  • 官方网站: https://www.memtest86.com

1.2 stress-ng — CPU、内存、磁盘与 I/O 压力测试

  • 目的: stress-ng (https://manpages.ubuntu.com/manpages/focal/man1/stress-ng.1.html) 是 Linux 上的综合压力测试工具,支持数百种压力子系统测试 CPU、内存、磁盘及 I/O。

  • 测试时长: 每台服务器压力测试不少于 4 小时;高性能或 GPU 节点可延长至 24 小时

  • 出厂前测试监控指标:

    • CPU 温度曲线

    • 风扇转速及控制响应

    • 电源稳定性(电压与功率)

  • 目标: 及早发现热量、风扇或电源不稳定迹象,确保只有完全稳定的单元进入生产。

2. 部署后质量控制

服务器在数据中心安装后,每台服务器都会经历完整的硬件验收流程,方可进入生产库存(生产池)

这确保系统硬件符合设计规范,且处于验证的健康状态。

2.1 CPU 验证

  • 验证安装的 CPU 型号与预期配置及性能规格一致。

2.2 内存验证

  • 确认总安装内存符合规格,无缺失或多余 DIMM。

  • 验证每条 DIMM 的容量和识别准确性。

  • 检查 CPU 通道内存对称性,确保 NUMA 性能均衡。

  • 确保操作系统报告的容量与实际安装一致。

  • 对高性能配置,验证内存通道已完全填充。

  • 确认所有 DIMM 品牌、频率及 Rank 规格一致。

2.3 磁盘验证

  • 确认磁盘类型(SSD/HDD)、容量及接口符合型号规格。

  • 验证磁盘数量正确。

  • 检查 SMART 属性,并更换任何低于健康阈值的磁盘。

2.4 服务器机箱验证

  • 确认出厂型号与配置记录一致。

  • 验证冗余(双)电源。

  • 检查 BIOS 与 BMC 固件版本是否符合批准基线。

2.5 GPU 验证

  • 确认 GPU 数量与定义型号一致。

  • 验证所有设备的 GPU 固件一致性。

2.6 网络适配器验证

  • 验证实际链路速率与配置型号带宽一致(如 25 G NIC 接入 10 G 交换机,需标注为 10 G)。

  • 确保 NIC 固件版本符合标准。

3. 运行时监控

服务器进入生产后,通过运行时监控和生命周期验证保持持续质量保障,包括:

  1. 硬件验证在实例开通与回收阶段

  2. Linux 层与 IPMI 硬件遥测采集

  3. 多层监控与告警

3.1 开通 & 回收阶段 — 实例生命周期检查

在每次通过控制台 实例创建(开通)实例终止(回收)时,自动硬件检查确保节点在用户工作负载前后均可靠。

工作流程:

  1. 控制方案进入安装模式,启动自动化操作系统部署。

  2. 硬件信息上传: 系统收集数据(通过 lshw 或等效工具)并上传到中央平台。

    1. 包括 CPU、内存、磁盘、网卡、主板及 RAID 控制器信息。

    2. 用于合规验证及在 SRE 平台中的告警关联。

    3. 由于 IPMI 与 Linux 暴露硬件信息维度不同,因此 Linux 层数据也在此过程中采集,以补充 IPMI 遥测

    4. 出于安全原因,不安装任何代理;采集为周期性,非实时。

    5. 确保每次开通与回收周期中硬件可见性与一致性完整。

  3. 磁盘健康验证: 防止性能下降硬件进入或留在生产。

    1. 程序调用工具(smartctlmegacli、NVMe 工具)读取磁盘健康指标。如健康异常,则标记为降级。服务器标记为 安装失败,加入 故障设备列表,安装停止并上报监控及系统。

3.2 回收阶段 — 复用检查

服务器在实例释放后被回收时,重复开通阶段的磁盘健康检查。

3.3 监控数据采集与告警系统

服务器进入全面生产后,可观测性通过三层遥测保持:

  • 基于 IPMI 的硬件监控

  • 业务 IP 网络监控

  • 交换机端口级监控

所有采集的遥测数据也会展示在每个实例的健康仪表盘中,使用户可查看关键硬件与网络指标。

1. 基于 IPMI 的监控

  • IPMI IP ICMP(延迟 / 丢包): 监控 BMC 网络连通性。

  • 传感器数据:

    • 处理器 – 温度、电源、健康状态

    • 电源 – 电压、电流、冗余

    • 内存 – ECC 错误计数、DIMM 健康

    • 磁盘插槽 – 插入/移除状态、故障

    • 风扇 – 转速及控制响应

    • 温度 – 实时热量分布

  • SEL(系统事件日志): 捕获关键中断、电源或风扇故障等事件,并自动触发告警。

2. 基于业务 IP 的监控

  • WAN IP ICMP(延迟 / 丢包): 监控外部网络可达性及延迟。 超出阈值时触发告警。

3. 交换机端口级监控

  • 入/出方向丢包: 检测丢包或缓冲区溢出。

  • 入/出方向错误: 识别物理链路故障(CRC、对齐错误)。

最后更新于