管理命令集与操作 - 第191页
NVME2.0协议解读 1 min read

管理命令集与操作 - 第191页

Blog Author

我们继续深入分析 NVM Express® Base Specification Revision 2.0b 第 180 页的内容,重点讲解 SMART / Health Information Log Page(LID = 02h) 的结构和功能。


✅ 一、SMART / Health Information Log Page(LID = 02h)

该日志页提供了控制器的 SMART(Self-Monitoring, Analysis, and Reporting Technology)健康状态信息,用于监控存储系统的健康情况,包含关键警告、温度、剩余可用容量等信息。以下是该日志页的详细字段结构:

📌 关键警告(Critical Warning) - 字段 00(图 207)

该字段用于指示控制器的关键健康警告。每一位代表一种警告类型,多个位可以同时设置为 1,表示多个警告。清除某位为 0,则该警告不再适用。

Bits 定义 描述
7:6 Reserved 保留
5 Persistent Memory Region 如果为 1,表示持久内存区域已变为只读或不可靠。
4 Volatile Memory Backup Failure 如果为 1,表示易失性内存备份设备失败,仅在控制器有易失性内存备份解决方案时有效。
3 Media Read-Only Mode 如果为 1,表示所有存储介质已被设置为只读模式。
控制器不会因为命名空间的写保护状态更改而设置此位。
2 NVM Subsystem Reliability 如果为 1,表示 NVM 子系统可靠性因介质错误或内部错误而显著下降。
1 Temperature Warning 如果为 1,表示温度超过过温阈值或低于低温阈值(参见章节 5.27.1.3)。
0 Available Spare 如果为 1,表示可用的备用容量低于阈值。

注: 这些警告将触发异步事件通知主机,警告是临时性的,不会持久存储。


📌 复合温度(Composite Temperature) - 字段 02(图 207)

该字段包含一个 温度值,表示当前控制器及其相关命名空间的复合温度。温度单位为 开尔文(Kelvins)。计算方法由实现具体定义,可能不代表物理上某个点的实际温度。

字段 描述
复合温度 当前控制器和相关命名空间的复合温度值。
触发异步事件 该温度值可用于触发温度过热或过冷的异步事件,相关阈值由控制器的 WCTEMPCCTEMP 字段提供。

📌 可用备用容量(Available Spare) - 字段 03(图 207)

该字段表示剩余备用容量的百分比(从 0% 到 100%)。当可用备用容量下降到一定程度时,控制器会触发警告。


📌 可用备用容量阈值(Available Spare Threshold) - 字段 04(图 207)

该字段指定一个阈值,当剩余可用备用容量低于该阈值时,会触发 异步事件完成

字段 描述
可用备用容量阈值 如果可用备用容量低于该值,控制器将触发异步事件通知。

✅ 二、功能与用途总结

🎯 健康状态监控

  1. Critical Warning:通过关键警告字段监控控制器的整体健康状态,包括温度、内存失败、介质只读等问题。
  2. SMART 数据:提供控制器和命名空间的健康信息,包括温度、可用备用容量等,用于性能监控和健康评估。
  3. 性能计算:通过记录读取/写入命令的数量、数据量和控制器忙碌时间,控制器能够提供 I/O 每秒和带宽等性能指标。

🎯 命名空间支持

  • 如果 SMART / Health Information Log 不支持按命名空间提供信息,主机可以请求控制器级日志页(NSID = 0hFFFFFFFFh)。日志页内容将是相同的,因为当前版本的规范中没有命名空间特定的 SMART 信息。

✅ 三、学习建议与应用

模块 建议
Critical Warning 字段分析 学习如何解读控制器的健康警告,特别是存储介质、内存和温度等方面的问题。
温度监控 通过复合温度字段监控控制器和命名空间的温度变化,注意过热/过冷警告。
可用备用容量监控 配合 Available SpareAvailable Spare Threshold 字段,监控剩余可用容量的健康状况,提前预警容量问题。
错误日志的触发机制 理解错误日志、警告和事件的触发机制,通过 Critical Warning 字段与异步事件通知机制实时捕获系统状态变化。

如果你希望我为你提供:

  • SMART / Health 信息字段解析图,帮助你快速定位健康状态和警告
  • 复合温度与温度阈值计算流程图,展示如何实时监控和响应温度变化

我可以为你整理并绘制图示,帮助你更好地理解健康监控数据的应用。需要哪一部分呢?