第5章 管理接口命令集 - 页码118
NVMe-MI 1 min read

第5章 管理接口命令集 - 页码118

Blog Author

深入分析:NVM Subsystem Health Data Structure (NSHDS)

NVM Subsystem Health Data Structure (NSHDS) 中,以下字段为存储设备的健康状态提供了详细的诊断信息:

字段 1: SMART Warnings (SW)

此字段表示与 SMART/Health 信息日志页面中的 Critical Warning 字段相反的值。具体而言: - 每个控制器的 Critical Warning 位值被反转(即,1 转为 0,0 转为 1)。 - 如果 NVM 子系统中有多个控制器,则该字段会将每个控制器的 Critical Warning 字段的值合并。如果任何一个控制器的 Critical Warning 字段的位值为 1,则对应的位将被清零;如果所有控制器的 Critical Warning 位为 0,则该位被设置为 1

应用
  • 这个字段有助于集中处理多个控制器的健康警告,并通过整体的 SMART 警告 值提供一个简化的视图。

字段 2: Composite Temperature (CTEMP)

这个字段表示 NVM 子系统的 复合温度。它的计算方法如下: - 每 5 秒更新一次,基于所有控制器的 Composite Temperature 值。 - 如果有任何控制器的温度低于下限温度,且没有温度高于上限的控制器,则复合温度为最冷控制器的温度。 - 否则,复合温度为最热控制器的温度。

温度编码定义:
  • 00h to 7Eh:表示温度范围从 0 °C 到 126 °C。
  • 7Fh:表示温度超过 127 °C。
  • 80h:表示温度数据超过 5 秒钟且不再有效。
  • 81h:表示由于温度传感器故障,无法获取准确的温度。
  • C4h:表示温度低于 -60 °C。
  • C5h to FFh:表示低于 -1 °C 且高于 -59 °C,采用补码表示。
应用
  • 用于监控 NVM 子系统的温度变化,确保设备在适宜的温度范围内工作。超出规定范围时,可以触发警告或采取适当的保护措施。

字段 3: Percentage Drive Life Used (PDLU)

此字段表示 NVM 子系统的 使用寿命百分比,基于实际使用情况和制造商的预估生命周期: - 如果子系统有多个控制器,将返回最高值。 - 100 表示 NVM 的预期耐用性已消耗完,但可能不会立即导致 NVM 子系统故障。 - 该值每小时会更新一次,并且与 SMART / Health Information log 页面中的 Percentage Used 相等。

应用
  • 用于估算和监控存储设备的剩余耐用性。这对于提前计划更换设备或进行维护非常重要。

字段 5: Composite Controller Status (CCS)

这个字段表示 复合控制器状态,该字段的值来自于 Composite Controller Status Flags (CCSF),即 Figure 107 中的内容。

应用
  • 该字段用于提供有关所有控制器整体健康状态的额外信息,并确保跨所有控制器的状态同步。

总结:

  • SMART Warnings (SW) 提供了多个控制器健康状态的合并警告。
  • Composite Temperature (CTEMP)Percentage Drive Life Used (PDLU) 对设备的物理健康状态(温度、寿命)提供了实时监控数据。
  • Composite Controller Status (CCS) 提供了一个概览,以便监控整个子系统中的所有控制器的健康状态。

这些数据结构提供了关键的管理信息,帮助管理员识别潜在问题,并确保 NVM 子系统的稳定运行。

如果你希望深入探讨这些字段的具体影响或如何将这些信息用于具体的管理任务,或者对其他部分有疑问,随时告诉我!