管理命令集与操作 - 第193页
NVME2.0协议解读 1 min read

管理命令集与操作 - 第193页

Blog Author

我们继续深入分析 NVM Express® Base Specification Revision 2.0b 第 182 页的内容,主要讲解 SMART / Health Information Log Page(LID = 02h) 中的字段,特别是与 控制器状态、I/O 活动、温度监控 相关的详细字段。


✅ 一、SMART / Health Information Log Page 字段解析(LID = 02h)

该日志页提供了多种与控制器健康状态、性能以及存储介质相关的重要信息。以下是一些关键字段:

📌 Host Write Commands(主机写命令) - 字段 95:80

该字段表示控制器完成的 User Data Out Commands 数量。

字段 描述
Host Write Commands 表示已完成的用户数据写命令数。该值有助于了解写入操作的频率和负载。

📌 Controller Busy Time(控制器忙碌时间) - 字段 111:96

该字段表示控制器忙碌处理 I/O 命令的时间。

字段 描述
Controller Busy Time 该字段记录控制器在处理 I/O 命令时的忙碌时间,单位为 分钟。控制器忙碌时,指的是有命令在 I/O 队列中等待处理,且相关的 Completion Queue 条目尚未发布。

📌 Power Cycles(电源周期) - 字段 127:112

该字段表示控制器的 电源循环次数

字段 描述
Power Cycles 控制器在整个生命周期内的电源开启次数。

📌 Power On Hours(通电时长) - 字段 143:128

该字段记录控制器的 通电时长,单位为小时。

字段 描述
Power On Hours 控制器自开机以来的累计工作时间,单位为小时。

📌 Unsafe Shutdowns(不安全关机次数) - 字段 159:144

该字段表示发生的 不安全关机次数

字段 描述
Unsafe Shutdowns 记录当控制器无法确认电源断开是否安全时的关机次数。
若在 CPS 设置为 11b 时,控制器完成关机处理后可以安全断电。

📌 Media and Data Integrity Errors(介质和数据完整性错误) - 字段 175:160

该字段记录控制器检测到的 未恢复的完整性错误

字段 描述
Media and Data Integrity Errors 包含控制器检测到的不可恢复的数据完整性错误的数量,包括 不可纠正的 ECC 错误CRC 校验和失败LBA 标签不匹配 等。

📌 Number of Error Information Log Entries(错误信息日志条目数) - 字段 191:176

该字段表示 Error Information Log 中记录的错误条目总数。

字段 描述
Number of Error Information Log Entries 记录自控制器生命周期以来,错误信息日志中的条目数量。

📌 Warning Composite Temperature Time(警告复合温度时间) - 字段 195:192

该字段记录控制器运行时,温度高于 警告复合温度阈值(WCTEMP)但低于 临界复合温度阈值(CCTEMP)时的时间。

字段 描述
Warning Composite Temperature Time 记录控制器的运行时间,温度介于警告和临界阈值之间。

📌 Critical Composite Temperature Time(临界复合温度时间) - 字段 199:196

该字段记录控制器在温度达到或超过 临界复合温度阈值(CCTEMP)时的运行时间。

字段 描述
Critical Composite Temperature Time 记录控制器的运行时间,温度超过临界阈值。

📌 Temperature Sensor 1-6(温度传感器 1-6) - 字段 201:206

这些字段包含每个温度传感器的当前温度值。

字段 描述
Temperature Sensor 1 当前传感器 1 的温度(单位为摄氏度或开尔文,具体由控制器定义)
Temperature Sensor 2 当前传感器 2 的温度
Temperature Sensor 3 当前传感器 3 的温度
Temperature Sensor 4 当前传感器 4 的温度
Temperature Sensor 5 当前传感器 5 的温度
Temperature Sensor 6 当前传感器 6 的温度

✅ 二、健康监控与性能评估

  1. 控制器忙碌时间:通过监控 Controller Busy Time,可以了解控制器在 I/O 操作中的负载情况,帮助评估性能瓶颈。
  2. 电源和通电统计:通过 Power CyclesPower On Hours 字段,了解控制器的使用寿命和稳定性。
  3. 不安全关机:不安全关机的记录有助于诊断系统不稳定问题,特别是电源管理和关机过程。
  4. 数据完整性错误:通过 Media and Data Integrity Errors 字段,能够检测潜在的数据损坏问题,及时预警。
  5. 温度监控:多个温度传感器字段可以帮助实时监控控制器的温度状态,防止过热问题,确保设备稳定运行。

✅ 三、学习建议与应用

模块 建议
控制器忙碌时间分析 监控 Controller Busy Time,识别 I/O 操作的瓶颈,优化系统性能。
电源和寿命监控 通过 Power CyclesPower On Hours 字段评估控制器的稳定性和寿命。
温度与健康监控 使用 Temperature Sensor 字段持续监控设备温度,避免过热导致的故障。
数据完整性错误监控 监控 Media and Data Integrity Errors,及时发现不可恢复的错误,避免数据丢失。

如果你希望我为你提供:

  • 控制器健康监控详细图解,帮助你理解如何解读温度、寿命、错误等健康信息
  • 性能分析示意图,展示如何利用读取/写入命令数、控制器忙碌时间等字段计算 I/O 性能

我可以立刻为你整理并绘制图解,帮助你更好地理解设备健康和性能监控。你需要哪一部分?