裸金属云服务器质量控制
概述

裸金属云服务器质量控制流程确保在三个阶段中的可靠性:
- 部署前压力测试 – 验证硬件在出货前的稳定性。 
- 生产入库验收测试 – 在加入生产池前验证所有组件。 
- 系统运行监控与告警 – 维护长期健康与运营一致性。 
1. 服务器压力测试
当我们采购新服务器或服务器在边缘节点首次部署时,会进行全面压力测试以确保硬件的稳定性与可靠性。
测试重点为内存完整性和系统级性能压力。我们主要使用以下工具:
1.1 MemTest86 — 内存稳定性与错误检测

- 目的: MemTest86 是独立的内存测试工具,可直接从启动运行,无需操作系统。它可检测内存模块的位错误、延迟异常及兼容性问题。 
- 集成测试: 内存与服务器整机硬件一起测试,而非在独立测试设备上单独测试内存模块。此方法能更真实地反映实际稳定性,捕捉内存、主板、CPU 与电源组件之间的相互作用。 
- 测试阶段: - 每轮必须完成至少一次完整测试阶段,确保验证所有地址范围和访问模式。 
- 测试结果会根据每个内存模块的序列号(SN)记录和归档,以便追踪和长期质量管理。 
 
- 双阶段测试: - 出厂前测试 – 在服务器组装完成并出货前进行,确保不出厂有缺陷的内存模块。 
- 机架安装后测试 – 机架安装后再次执行,以验证运输后的完整性,在分布式边缘环境中尤为重要。 
 
- 官方网站: https://www.memtest86.com。 
1.2 stress-ng — CPU、内存、磁盘与 I/O 压力测试

- 目的: stress-ng (https://manpages.ubuntu.com/manpages/focal/man1/stress-ng.1.html) 是 Linux 上的综合压力测试工具,支持数百种压力子系统测试 CPU、内存、磁盘及 I/O。 
- 测试时长: 每台服务器压力测试不少于 4 小时;高性能或 GPU 节点可延长至 24 小时。 
- 出厂前测试监控指标: - CPU 温度曲线 
- 风扇转速及控制响应 
- 电源稳定性(电压与功率) 
 
- 目标: 及早发现热量、风扇或电源不稳定迹象,确保只有完全稳定的单元进入生产。 
2. 部署后质量控制
服务器在数据中心安装后,每台服务器都会经历完整的硬件验收流程,方可进入生产库存(生产池)。
这确保系统硬件符合设计规范,且处于验证的健康状态。

2.1 CPU 验证
- 验证安装的 CPU 型号与预期配置及性能规格一致。 
2.2 内存验证
- 确认总安装内存符合规格,无缺失或多余 DIMM。 
- 验证每条 DIMM 的容量和识别准确性。 
- 检查 CPU 通道内存对称性,确保 NUMA 性能均衡。 
- 确保操作系统报告的容量与实际安装一致。 
- 对高性能配置,验证内存通道已完全填充。 
- 确认所有 DIMM 品牌、频率及 Rank 规格一致。 
2.3 磁盘验证
- 确认磁盘类型(SSD/HDD)、容量及接口符合型号规格。 
- 验证磁盘数量正确。 
- 检查 SMART 属性,并更换任何低于健康阈值的磁盘。 
2.4 服务器机箱验证
- 确认出厂型号与配置记录一致。 
- 验证冗余(双)电源。 
- 检查 BIOS 与 BMC 固件版本是否符合批准基线。 
2.5 GPU 验证
- 确认 GPU 数量与定义型号一致。 
- 验证所有设备的 GPU 固件一致性。 
2.6 网络适配器验证
- 验证实际链路速率与配置型号带宽一致(如 25 G NIC 接入 10 G 交换机,需标注为 10 G)。 
- 确保 NIC 固件版本符合标准。 
3. 运行时监控
服务器进入生产后,通过运行时监控和生命周期验证保持持续质量保障,包括:
- 硬件验证在实例开通与回收阶段 
- Linux 层与 IPMI 硬件遥测采集 
- 多层监控与告警 
3.1 开通 & 回收阶段 — 实例生命周期检查

在每次通过控制台 实例创建(开通)或 实例终止(回收)时,自动硬件检查确保节点在用户工作负载前后均可靠。
工作流程:
- 控制方案进入安装模式,启动自动化操作系统部署。 
- 硬件信息上传: 系统收集数据(通过 lshw 或等效工具)并上传到中央平台。 - 包括 CPU、内存、磁盘、网卡、主板及 RAID 控制器信息。 
- 用于合规验证及在 SRE 平台中的告警关联。 
- 由于 IPMI 与 Linux 暴露硬件信息维度不同,因此 Linux 层数据也在此过程中采集,以补充 IPMI 遥测。 
- 出于安全原因,不安装任何代理;采集为周期性,非实时。 
- 确保每次开通与回收周期中硬件可见性与一致性完整。 
 
- 磁盘健康验证: 防止性能下降硬件进入或留在生产。 - 程序调用工具(smartctl、megacli、NVMe 工具)读取磁盘健康指标。如健康异常,则标记为降级。服务器标记为 安装失败,加入 故障设备列表,安装停止并上报监控及系统。 
 
3.2 回收阶段 — 复用检查
服务器在实例释放后被回收时,重复开通阶段的磁盘健康检查。
3.3 监控数据采集与告警系统
服务器进入全面生产后,可观测性通过三层遥测保持:
- 基于 IPMI 的硬件监控 
- 业务 IP 网络监控 
- 交换机端口级监控 
所有采集的遥测数据也会展示在每个实例的健康仪表盘中,使用户可查看关键硬件与网络指标。

1. 基于 IPMI 的监控
- IPMI IP ICMP(延迟 / 丢包): 监控 BMC 网络连通性。 
- 传感器数据: - 处理器 – 温度、电源、健康状态 
- 电源 – 电压、电流、冗余 
- 内存 – ECC 错误计数、DIMM 健康 
- 磁盘插槽 – 插入/移除状态、故障 
- 风扇 – 转速及控制响应 
- 温度 – 实时热量分布 
 
- SEL(系统事件日志): 捕获关键中断、电源或风扇故障等事件,并自动触发告警。 
2. 基于业务 IP 的监控
- WAN IP ICMP(延迟 / 丢包): 监控外部网络可达性及延迟。 超出阈值时触发告警。 
3. 交换机端口级监控
- 入/出方向丢包: 检测丢包或缓冲区溢出。 
- 入/出方向错误: 识别物理链路故障(CRC、对齐错误)。 
最后更新于
