数据结构与日志格式 - 第205页
NVME2.0协议解读 1 min read

数据结构与日志格式 - 第205页

Blog Author

我们继续深入分析 NVM Express® Base Specification, revision 2.0b 中的 Endurance Group Information Log(耐久组信息日志,LID = 09h) 部分。这个日志用于提供关于 Endurance Group(耐久组) 的健康状态、剩余容量以及其他性能相关的信息。耐久组是存储在 NVM 子系统 中的容量集合,可以分配给一个或多个 NVM Sets,帮助管理存储的耐用性和数据完整性。


✅ 一、Endurance Group Information Log(耐久组信息日志,LID = 09h)

📌 功能:

这个日志主要提供耐久组的信息,包括其可用的备用容量、已使用的生命周期、估算的耐久性和实际的读取/写入数据量等。通过这些数据,可以监控耐久组的健康状态,及时发现潜在的风险。

📌 字段解析:

  1. Endurance Group Media (EGRMEDIA)
  2. 该字段表示 耐久组 是否使用旋转媒体存储数据。如果设置为 1,表示该耐久组使用的是旋转媒体存储(例如 HDD),如果设置为 0,则表示不使用旋转媒体存储。
字段 描述
Endurance Group Media (EGRMEDIA) 如果设置为 1,表示耐久组使用旋转媒体存储数据;否则不使用旋转媒体存储。

  1. Available Spare
  2. 该字段表示耐久组中 剩余备用容量 的百分比,范围从 0% 到 100%。如果备用容量低于某个阈值,可能会触发 异步事件
字段 描述
Available Spare 表示剩余备用容量的百分比(0% 至 100%)。

  1. Available Spare Threshold
  2. 该字段表示 备用容量阈值,当 Available Spare 低于此阈值时,可能会触发异步事件。
字段 描述
Available Spare Threshold 表示备用容量的阈值,低于该阈值时,可能会触发异步事件。

  1. Percentage Used
  2. 该字段表示耐久组的 生命周期已使用百分比。这是根据实际使用情况以及制造商对 NVM 使用寿命的预测进行估算的。一个值为 100 表示该耐久组的预期耐用性已经用完,但并不意味着耐久组已经失败。此值可以超过 100,表示超出预期的使用量。
字段 描述
Percentage Used 表示耐久组的生命周期已使用百分比,值为 100 时表示耐久度已用完,但不一定表示故障。

  1. Domain Identifier
  2. 该字段表示包含此 耐久组域标识符(Domain Identifier)。如果 NVM 子系统支持多个域,则该字段为非零值;如果为 0h,则表示不支持多个域。
字段 描述
Domain Identifier 表示包含耐久组的域标识符。如果支持多个域,则为非零值;否则为 0h

  1. Endurance Estimate
  2. 该字段是对耐久组生命周期内可写数据量的估算值。它基于一个假设,即写放大系数为 1(即没有额外的写操作)。此值以 十亿字节 为单位(1 = 1,000,000,000 字节),并向上舍入。
字段 描述
Endurance Estimate 耐久组生命周期内的估算可写数据总量,以十亿字节为单位。

  1. Data Units Read
  2. 该字段表示从耐久组中读取的总数据量(不包括由于垃圾回收等内部操作的读取)。此值以 十亿字节 为单位进行报告。
字段 描述
Data Units Read 表示从耐久组中读取的总数据量,以十亿字节为单位。

  1. Data Units Written
  2. 该字段表示写入耐久组的总数据量,排除垃圾回收等内部操作的写入。该值以 十亿字节 为单位进行报告。
字段 描述
Data Units Written 表示写入耐久组的总数据量,以十亿字节为单位。

  1. Media Units Written
  2. 该字段表示写入耐久组的 总数据字节数,包括主机和控制器的写入(如垃圾回收操作)。此值以 十亿字节 为单位进行报告。
字段 描述
Media Units Written 表示写入耐久组的总数据字节数,包括主机和控制器的写入。

📌 日志数据的分析与应用:

  1. 耐久组容量和健康监控:
  2. 通过监控 Available SparePercentage Used 字段,可以及时发现耐久组容量的变化和使用情况,帮助预测未来的存储需求或潜在的故障。

  3. 异步事件的触发:

  4. Available Spare 低于 Available Spare Threshold 时,系统可以根据这个日志触发异步事件,告知主机当前耐久组的健康状态或需要关注的容量问题。

  5. 耐久性估算:

  6. Endurance Estimate 字段提供了耐久组的可写数据量估算,帮助评估耐久组在生命周期内的表现,并为管理决策提供数据支持。

📌 总结与学习建议

  • 耐久组日志的作用:学习如何利用 Endurance Group Information Log 来监控耐久组的健康状态,尤其是在数据写入量、备用容量和寿命预测方面的应用。
  • 日志字段解析:熟悉如何通过 Percentage UsedEndurance Estimate 等字段来评估耐久组的使用情况和预期寿命。
  • 容量与健康警告:重点关注 Critical Warning 字段和 Available Spare 阈值,它们是耐久组健康的重要指标。

通过对这些字段的理解,能够帮助更有效地管理和监控存储设备,及时发现潜在问题,避免出现系统故障。

如果你有其他具体问题或需要进一步的示例来加深理解,随时告诉我!