问题描述

用户反馈在系统下看到大量关于硬盘的smartkit信息打印:

Aug 15 09:38:13 host10 smartd[1965]: Device: /dev/bus/1 [megaraid_disk_09] [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 146 to 150
Aug 15 09:38:13 host10 smartd[1965]: Device: /dev/bus/1 [megaraid_disk_10] [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 146 to 150
Aug 15 09:38:13 host10 smartd[1965]: Device: /dev/bus/1 [megaraid_disk_11] [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 146 to 153
Aug 15 09:38:13 host10 smartd[1965]: Device: /dev/bus/1 [megaraid_disk_12] [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 157 to 162

过程分析

1、查看当前服务器的各温度值,最高仅为41度,最低为19度:

2、查看对应硬盘smart信息中记录到信息,也能对应的上,以第一块盘为例,RAW_VALUE为硬盘的温度值,而VALUE是根据温度计算出来的数值,各个硬盘厂商对此参数的定义和计算逻辑都不相同;

3、至于反馈的系统下的smart日志打印,并非反应的硬盘的温度变化,判断只是硬盘的VALUE值的变化,查看系统messages日志,此打印信息一直存在,无需过多关注;

4、关于VALUE值的计算,根据YMTC官方文档,该SSD的温度指标的计算方法如下:

Value = ((MaxTemperature - CurrentTemperature) * 100) / (MaxTemperature - MinTemperature)

其中,MaxTemperature和MinTemperature是该型号SSD的温度范围,单位为摄氏度,CurrentTemperature是从硬盘的温度传感器中读取的当前温度。

在上面的计算中,Value的计算范围是0到100之间,如果Value值越接近100,则表明SSD温度正常,处于良好状态;反之,如果Value值接近0,则说明SSD温度过高,可能会严重影响硬盘寿命(当低于61时触发硬盘告警)。方法

此系统下打印仅表示硬盘温度发生变化,并非是硬盘超温,无需过多关注。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐