ECS: xDoctor RAP162: Disco de sistema SSD baja o vida útil restante del disco SSDr
Resumen: La baja vida útil restante del disco del sistema puede presentarse como un problema cuando los nodos SSD o SSDr tienen una vida útil de resistencia inferior al 5 % de la vida útil restante. ...
Síntomas
xDoctor informa sobre RAP162:
------------------------------------------
ERROR - System disk has low remaining life
------------------------------------------
Node = Nodes
Extra = {"Nodes": {"169.254.1.13": {"BTWM5AM000UB": {"used_life": "255"}}, "169.254.1.14": {"BTWM59N0079B": {"used_life": "255"}}, "169.254.1.15": {"BTWM59N002PB": {"used_life": "255"}}, "169.254.1.16": {"BTWM59N0025B": {"used_life": "255"}}}}
RAP = RAP162
Solution = KB 215459
Timestamp = 2023-06-30_132850
PSNT = Rome @ 4.8-92.0
----------------------------------------
ERROR - SSDR disk has low remaining life
----------------------------------------
Node = Nodes
Extra = {"Nodes": {"169.254.1.13": {"BTWM5AM000UA": {"used_life": "255"}}, "169.254.1.14": {"BTWM59N0077B": {"used_life": "255"}}, "169.254.1.15": {"BTWM59N002AB": {"used_life": "255"}}, "169.254.1.16": {"BTWM59N0025C": {"used_life": "255"}}}}
RAP = RAP162
Solution = KB 215459
Timestamp = 2023-06-30_132850
PSNT = Rome @ 4.8-92.0
Se detectó una alta utilización del disco en el sistema mediante la comprobación de los datos de SAR que recopilan información cada 10 minutos para determinar si el sistema persiste un problema de rendimiento de disco con una espera alta en las estadísticas de SAR.
Otra comprobación puede validar los datos SAR para el rendimiento del disco caché de lectura de SSD SATA o SSD SATA del sistema operativo:
Mandar: (Nodo individual de SSD SATA del sistema operativo)
# ssd=$(cs_hal list --all disks | grep 'intl/sys'|awk '{print $2}'|sed 's/.*[/:]//');sar -d -p --dev=$ssd
Comando: (Clúster de SSD SATA del sistema operativo)
# svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys'|awk '{print \$2}'|sed 's/.*[/:]//');sar -d -p --dev=\$ssd"
Disco de caché de lectura de SSDr:
Mandar: (SATA SSDr, disco de caché de lectura, nodo individual)
# ssdr=$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print $2}');sar -d -p --dev=$ssdr
Comando: (Clúster de discos de caché de lectura SSDr SATA)
# svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sar -d -p --dev=\$ssdr"
Ejemplo: (Confirme que los tiempos de espera sean superiores a 100 para las últimas tres verificaciones de SAR)
[...Output Truncated...]
DEV tps rkB/s wkB/s areq-sz aqu-sz await svctm %util
12:10:01 sdad 3.23 69.58 130.87 62.14 29.78 9503.41 224.33 72.36
12:10:01 DEV tps rkB/s wkB/s areq-sz aqu-sz await svctm %util
12:20:01 sdad 2.24 35.28 18.28 23.95 67.97 29994.40 371.69 83.11
12:30:01 sdad 2.72 76.23 91.17 61.48 17.16 6813.32 102.38 27.88
[...Output Truncated...]Causa
La SSD y la SSDr tienen una vida útil de resistencia, es decir, el tiempo que el disco puede funcionar hasta que falle. Estas comprobaciones clave se deben realizar para determinar si una falla es preocupante y si se justifica un reemplazo.
- Cuando la vida útil del disco caché de lectura de SSD SATA o SSD SATA del sistema operativo alcanza el 85 % utilizado o el 15 % restante, se recomienda un reemplazo proactivo.
- Cuando la vida útil del sistema operativo, la SSD SATA o la SSD SATA o el disco caché de lectura sea del 95 % utilizada o del 5 % restante, se recomienda un reemplazo reactivo
SSD SATA del sistema operativo:
- Compruebe las fallas de disco SSD mediante lo siguiente, que comprueba todos los discos del sistema en busca de VDC y se puede comprobar individualmente. Los diferentes modelos de SSD producen resultados de manera diferente.
# svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
Ejemplo 1: (porcentaje utilizado, indicador de resistencia y porcentaje de vida restante)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 90 --- Percentage Used Endurance Indicator
245 Percent_Life_Remaining 0x0032 064 064 000 Old_age Always - 10 <-- % Remaining.
...[Output Truncated]...
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 85 --- Percentage Used Endurance Indicator
245 Unknown_Attribute 0x0032 064 064 000 Old_age Always - 15 <-- % Remaining is reported as Unknown_Attribute.
...[Output Truncated]...
Ejemplo 3: (Porcentaje de vida restante)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Percent_Life_Remaining 0x0032 082 082 000 Old_age Always - 5 <-- % Remaining.
...[Output Truncated]...
Ejemplo 4: (Porcentaje usado de indicador de resistencia)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 14:02:03
Output from node: r1n1 retval: 1
0x07 0x008 1 95 N-- Percentage Used Endurance Indicator <-- % Used subtract from 100 for % Remaining.
...[Output Truncated]...
Ejemplo 5: (Unknown_Attribute)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Unknown_Attribute 0x0032 082 082 000 Old_age Always - 10 <-- % Remaining is reported as Unknown_Attribute
...[Output Truncated]...
- Comprobación de nodos individuales para investigar los discos por nodo
Comando:
# ssd=$(cs_hal list --all disks | grep 'intl/sys' |awk '{print $2}');sudo /usr/sbin/smartctl -l devstat $ssd | grep Endurance;sudo /usr/sbin/smartctl -a $ssd | grep -e 245
Ejemplo: Consulte los cinco ejemplos en el paso para conocer el porcentaje de resistencia correcto en el nodo.
Disco caché de lectura de SSD SATA:
- Para comprobar si hay fallas en el disco de caché de lectura de SSDr, lo siguiente verifica todos los discos del sistema en busca de VDC y se puede comprobar individualmente. Los distintos modelos de SSDr producen resultados de manera diferente.
# svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
Ejemplo 1: (porcentaje utilizado, indicador de resistencia y porcentaje de vida restante)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 95 --- Percentage Used Endurance Indicator
245 Percent_Life_Remaining 0x0032 064 064 000 Old_age Always - 5 <-- % Remaining.
...[Output Truncated]...
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 94 --- Percentage Used Endurance Indicator
245 Unknown_Attribute 0x0032 064 064 000 Old_age Always - 6 <-- % Remaining is reported as Unknown_Attribute.
...[Output Truncated]...
Ejemplo 3: (Porcentaje de vida restante)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Percent_Life_Remaining 0x0032 082 082 000 Old_age Always - 15 <-- % Remaining.
...[Output Truncated]...
Ejemplo 4: (Porcentaje usado de indicador de resistencia)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 14:02:03
Output from node: r1n1 retval: 1
0x07 0x008 1 80 N-- Percentage Used Endurance Indicator <-- % Used subtract from 100 for % Remaining.
...[Output Truncated]...
Ejemplo 5: (Unknown_Attribute)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Unknown_Attribute 0x0032 082 082 000 Old_age Always - 10 <-- % Remaining is reported as Unknown_Attribute
...[Output Truncated]...
- Comprobación de nodo individual para investigar los discos por nodo.
Comando:
# ssdr=$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print $2}');sudo /usr/sbin/smartctl -l devstat $ssdr | grep Endurance;sudo /usr/sbin/smartctl -a $ssdr | grep -w 245
Ejemplo: Consulte los cinco ejemplos en el paso para conocer el porcentaje de resistencia correcto en el nodo.