管理命令集与操作 - 第191页
我们继续深入分析 NVM Express® Base Specification Revision 2.0b 第 180 页的内容,重点讲解 SMART / Health Information Log Page(LID = 02h) 的结构和功能。
✅ 一、SMART / Health Information Log Page(LID = 02h)
该日志页提供了控制器的 SMART(Self-Monitoring, Analysis, and Reporting Technology) 和 健康状态信息,用于监控存储系统的健康情况,包含关键警告、温度、剩余可用容量等信息。以下是该日志页的详细字段结构:
📌 关键警告(Critical Warning) - 字段 00(图 207)
该字段用于指示控制器的关键健康警告。每一位代表一种警告类型,多个位可以同时设置为 1,表示多个警告。清除某位为 0,则该警告不再适用。
| Bits | 定义 | 描述 |
|---|---|---|
| 7:6 | Reserved | 保留 |
| 5 | Persistent Memory Region | 如果为 1,表示持久内存区域已变为只读或不可靠。 |
| 4 | Volatile Memory Backup Failure | 如果为 1,表示易失性内存备份设备失败,仅在控制器有易失性内存备份解决方案时有效。 |
| 3 | Media Read-Only Mode | 如果为 1,表示所有存储介质已被设置为只读模式。控制器不会因为命名空间的写保护状态更改而设置此位。 |
| 2 | NVM Subsystem Reliability | 如果为 1,表示 NVM 子系统可靠性因介质错误或内部错误而显著下降。 |
| 1 | Temperature Warning | 如果为 1,表示温度超过过温阈值或低于低温阈值(参见章节 5.27.1.3)。 |
| 0 | Available Spare | 如果为 1,表示可用的备用容量低于阈值。 |
注: 这些警告将触发异步事件通知主机,警告是临时性的,不会持久存储。
📌 复合温度(Composite Temperature) - 字段 02(图 207)
该字段包含一个 温度值,表示当前控制器及其相关命名空间的复合温度。温度单位为 开尔文(Kelvins)。计算方法由实现具体定义,可能不代表物理上某个点的实际温度。
| 字段 | 描述 |
|---|---|
| 复合温度 | 当前控制器和相关命名空间的复合温度值。 |
| 触发异步事件 | 该温度值可用于触发温度过热或过冷的异步事件,相关阈值由控制器的 WCTEMP 和 CCTEMP 字段提供。 |
📌 可用备用容量(Available Spare) - 字段 03(图 207)
该字段表示剩余备用容量的百分比(从 0% 到 100%)。当可用备用容量下降到一定程度时,控制器会触发警告。
📌 可用备用容量阈值(Available Spare Threshold) - 字段 04(图 207)
该字段指定一个阈值,当剩余可用备用容量低于该阈值时,会触发 异步事件完成。
| 字段 | 描述 |
|---|---|
| 可用备用容量阈值 | 如果可用备用容量低于该值,控制器将触发异步事件通知。 |
✅ 二、功能与用途总结
🎯 健康状态监控
- Critical Warning:通过关键警告字段监控控制器的整体健康状态,包括温度、内存失败、介质只读等问题。
- SMART 数据:提供控制器和命名空间的健康信息,包括温度、可用备用容量等,用于性能监控和健康评估。
- 性能计算:通过记录读取/写入命令的数量、数据量和控制器忙碌时间,控制器能够提供 I/O 每秒和带宽等性能指标。
🎯 命名空间支持
- 如果 SMART / Health Information Log 不支持按命名空间提供信息,主机可以请求控制器级日志页(NSID =
0h或FFFFFFFFh)。日志页内容将是相同的,因为当前版本的规范中没有命名空间特定的 SMART 信息。
✅ 三、学习建议与应用
| 模块 | 建议 |
|---|---|
| Critical Warning 字段分析 | 学习如何解读控制器的健康警告,特别是存储介质、内存和温度等方面的问题。 |
| 温度监控 | 通过复合温度字段监控控制器和命名空间的温度变化,注意过热/过冷警告。 |
| 可用备用容量监控 | 配合 Available Spare 和 Available Spare Threshold 字段,监控剩余可用容量的健康状况,提前预警容量问题。 |
| 错误日志的触发机制 | 理解错误日志、警告和事件的触发机制,通过 Critical Warning 字段与异步事件通知机制实时捕获系统状态变化。 |
如果你希望我为你提供:
- SMART / Health 信息字段解析图,帮助你快速定位健康状态和警告
- 复合温度与温度阈值计算流程图,展示如何实时监控和响应温度变化
我可以为你整理并绘制图示,帮助你更好地理解健康监控数据的应用。需要哪一部分呢?