裸金属云服务器质量控制

概述

裸金属云服务器质量控制流程确保在三个阶段中的可靠性：

当我们采购新服务器或服务器在边缘节点首次部署时，会进行全面压力测试以确保硬件的稳定性与可靠性。

测试重点为内存完整性和系统级性能压力。我们主要使用以下工具：

目的: MemTest86 是独立的内存测试工具，可直接从启动运行，无需操作系统。它可检测内存模块的位错误、延迟异常及兼容性问题。
集成测试: 内存与服务器整机硬件一起测试，而非在独立测试设备上单独测试内存模块。此方法能更真实地反映实际稳定性，捕捉内存、主板、CPU 与电源组件之间的相互作用。
测试阶段:
- 每轮必须完成至少一次完整测试阶段，确保验证所有地址范围和访问模式。
- 测试结果会根据每个内存模块的序列号（SN）记录和归档，以便追踪和长期质量管理。
双阶段测试:
- 出厂前测试 – 在服务器组装完成并出货前进行，确保不出厂有缺陷的内存模块。
- 机架安装后测试 – 机架安装后再次执行，以验证运输后的完整性，在分布式边缘环境中尤为重要。
官方网站: https://www.memtest86.com。

目的: stress-ng (https://manpages.ubuntu.com/manpages/focal/man1/stress-ng.1.html) 是 Linux 上的综合压力测试工具，支持数百种压力子系统测试 CPU、内存、磁盘及 I/O。
测试时长: 每台服务器压力测试不少于 4 小时；高性能或 GPU 节点可延长至 24 小时。
出厂前测试监控指标:
- CPU 温度曲线
- 风扇转速及控制响应
- 电源稳定性（电压与功率）
目标: 及早发现热量、风扇或电源不稳定迹象，确保只有完全稳定的单元进入生产。

服务器在数据中心安装后，每台服务器都会经历完整的硬件验收流程，方可进入生产库存（生产池）。

这确保系统硬件符合设计规范，且处于验证的健康状态。

服务器进入生产后，通过运行时监控和生命周期验证保持持续质量保障，包括：

在每次通过控制台 实例创建（开通）或 实例终止（回收）时，自动硬件检查确保节点在用户工作负载前后均可靠。

控制方案进入安装模式，启动自动化操作系统部署。
硬件信息上传: 系统收集数据（通过 lshw 或等效工具）并上传到中央平台。
1. 包括 CPU、内存、磁盘、网卡、主板及 RAID 控制器信息。
2. 用于合规验证及在 SRE 平台中的告警关联。
3. 由于 IPMI 与 Linux 暴露硬件信息维度不同，因此 Linux 层数据也在此过程中采集，以补充 IPMI 遥测。
4. 出于安全原因，不安装任何代理；采集为周期性，非实时。
5. 确保每次开通与回收周期中硬件可见性与一致性完整。
磁盘健康验证: 防止性能下降硬件进入或留在生产。
1. 程序调用工具（smartctl、megacli、NVMe 工具）读取磁盘健康指标。如健康异常，则标记为降级。服务器标记为 安装失败，加入 故障设备列表，安装停止并上报监控及系统。

服务器在实例释放后被回收时，重复开通阶段的磁盘健康检查。

服务器进入全面生产后，可观测性通过三层遥测保持：

所有采集的遥测数据也会展示在每个实例的健康仪表盘中，使用户可查看关键硬件与网络指标。

IPMI IP ICMP（延迟 / 丢包）: 监控 BMC 网络连通性。
传感器数据:
- 处理器 – 温度、电源、健康状态
- 电源 – 电压、电流、冗余
- 内存 – ECC 错误计数、DIMM 健康
- 磁盘插槽 – 插入/移除状态、故障
- 风扇 – 转速及控制响应
- 温度 – 实时热量分布
SEL（系统事件日志）: 捕获关键中断、电源或风扇故障等事件，并自动触发告警。

最后更新于2个月前