erreur sur mon disque nvm

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

erreur sur mon disque nvm

Jean-Marc
salut la liste,

Depuis quelques temps, j'ai des mail me disant que le daemon smartd a loggué des erreurs pour le périphérique Samsung SSD 950 PRO 256GB, S/N:S2GLNX0H729158H, FW:1B0QBXX7.

Il s'agit de mon disque SSD NMV.

Et les logs et mails ont commencés après la mise à jour du paquet smartmontools (6.6-1+b1 -> 7.0-2), ceci dit sans savoir s'il y a un lien quelconque entre cette màj et le problème.

Apparement, le disque va bien mais ajoute tous les jours une entrée à son log d'erreurs qui ressemble à ceci :
$ sudo nvme error-log /dev/nvme0 | head -30
Error Log Entries for device:nvme0 entries:64
.................
 Entry[ 0]  
.................
error_count  : 3528
sqid         : 0
cmdid        : 0x1a
status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc : 0
lba          : 0
nsid         : 0
vs           : 0
cs           : 0
.................
 Entry[ 1]  
.................
error_count  : 3527
sqid         : 0
cmdid        : 0xa
status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc : 0
lba          : 0
nsid         : 0
vs           : 0
cs           : 0
.................

Un contrôle via smartctl ne donne rien d'alarmant à part l'ajout de log :

$ sudo smartctl -a /dev/nvme0
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-4-amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 950 PRO 256GB
Serial Number:                      S2GLNX0H729158H
Firmware Version:                   1B0QBXX7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          256.060.514.304 [256 GB]
Namespace 1 Utilization:            106.228.342.784 [106 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5761b0b172
Local Time is:                      Sat Mar  7 21:29:50 2020 CET
Firmware Updates (0x06):            3 Slots
Optional Admin Commands (0x0007):   Security Format Frmw_DL
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Maximum Data Transfer Size:         32 Pages

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.50W       -        -    0  0  0  0        5       5
 1 +     5.80W       -        -    1  1  1  1       30      30
 2 +     3.60W       -        -    2  2  2  2      100     100
 3 -   0.0700W       -        -    3  3  3  3      500    5000
 4 -   0.0050W       -        -    4  4  4  4     2000   22000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        33 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    11.141.571 [5,70 TB]
Data Units Written:                 8.773.345 [4,49 TB]
Host Read Commands:                 202.440.422
Host Write Commands:                115.540.892
Controller Busy Time:               850
Power Cycles:                       5.041
Power On Hours:                     6.022
Unsafe Shutdowns:                   218
Media and Data Integrity Errors:    0
Error Information Log Entries:      3.528

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       3528     0  0x001a  0x4004  0x000            0     0     -
  1       3527     0  0x000a  0x4004  0x000            0     0     -
  2       3526     0  0x0018  0x4004  0x000            0     0     -
  3       3525     0  0x001a  0x4004  0x000            0     0     -
  4       3524     0  0x001a  0x4004  0x000            0     0     -
  5       3523     0  0x0006  0x4004  0x000            0     0     -
  6       3522     0  0x0016  0x4004  0x000            0     0     -
  7       3521     0  0x0012  0x4004  0x000            0     0     -
  8       3520     0  0x001a  0x4004  0x000            0     0     -
  9       3519     0  0x0013  0x4004  0x000            0     0     -
 10       3518     0  0x0006  0x4004  0x000            0     0     -
 11       3517     0  0x0016  0x4004  0x000            0     0     -
 12       3516     0  0x001c  0x4004  0x000            0     0     -
 13       3515     0  0x0012  0x4004  0x000            0     0     -
 14       3514     0  0x0012  0x4004  0x000            0     0     -
 15       3513     0  0x0013  0x4004  0x000            0     0     -
... (48 entries not shown)

Une recherche sur le net ne m'a rien donné de vraiment intéressant.

Si l'un d'entre vous à une idée, elle est la bienvenue.

Bonne soirée.

Jean-Marc <[hidden email]>
https://6jf.be/keys/ED863AD1.txt

attachment0 (849 bytes) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: erreur sur mon disque nvm

Étienne Mollier
Jean-Marc, on 2020-03-07 21:37:56 +0100:

> Et les logs et mails ont commencés après la mise à jour du
> paquet smartmontools (6.6-1+b1 -> 7.0-2), ceci dit sans savoir
> s'il y a un lien quelconque entre cette màj et le problème.
>
> Apparement, le disque va bien mais ajoute tous les jours une
> entrée à son log d'erreurs qui ressemble à ceci :
> $ sudo nvme error-log /dev/nvme0 | head -30
> Error Log Entries for device:nvme0 entries:64
> .................
>  Entry[ 0]  
> .................
> error_count  : 3528
> sqid         : 0
> cmdid        : 0x1a
> status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
> parm_err_loc : 0
> lba          : 0
> nsid         : 0
> vs           : 0
> cs           : 0
> .................
>  Entry[ 1]  
> .................
> error_count  : 3527
> sqid         : 0
> cmdid        : 0xa
> status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
> parm_err_loc : 0
> lba          : 0
> nsid         : 0
> vs           : 0
> cs           : 0
> .................
>
> Un contrôle via smartctl ne donne rien d'alarmant à part
> l'ajout de log :
Bonjour, je me risque à faire une réponse au doigt mouillé.

À mon sens aussi, il n'y a rien d'inquiétant.

Si le problème est apparu au moment de la mise à jour, il est
probable que la nouvelle version de smartmontools ait
nouvellement pris en charge l'affichage d'un nouveau champ géré
par le firmware du NVMe.  Il y a donc deux possibilités:

  - soit l'implémentation de smartmontools est incorrecte;
  - soit le remplissage du "status_field" par le firmware est
    erroné.

Si c'est le second cas, alors je crois qu'il est possible qu'un
message relatif à un champ SUBNQN invalide apparaisse dans le
journal du noyau.  Juste pour satisfaire ma curiosité
personnelle, que donne :

        # dmesg | grep SUBNQN

Peut-être qu'une mise à jour du microcode du NVMe corrigerait
alors le problème, si vous avez le courage de vous lancer là
dedans.  Sinon, en dehors du bruit dans les entrées de journal,
ça ne devrait pas poser de problèmes.

Amicalement,
--
Étienne Mollier <[hidden email]>
Fingerprint:  5ab1 4edf 63bb ccff 8b54  2fa9 59da 56fe fff3 882d
Sent from /dev/pts/2, please excuse my verbosity.

signature.asc (673 bytes) Download Attachment
Reply | Threaded
Open this post in threaded view
|

Re: erreur sur mon disque nvm

Jean-Marc
Sun, 8 Mar 2020 09:23:28 +0100
Étienne Mollier <[hidden email]> écrivait :

bonjour Étienne,

> Bonjour, je me risque à faire une réponse au doigt mouillé.

Par les temps qui courent et avec la présence du covid-19, est-ce bien raisonnable ?
:-)

> À mon sens aussi, il n'y a rien d'inquiétant.

Je le pense aussi.

> Si le problème est apparu au moment de la mise à jour, il est
> probable que la nouvelle version de smartmontools ait
> nouvellement pris en charge l'affichage d'un nouveau champ géré
> par le firmware du NVMe.  Il y a donc deux possibilités:
>
>   - soit l'implémentation de smartmontools est incorrecte;
>   - soit le remplissage du "status_field" par le firmware est
>     erroné.
>
> Si c'est le second cas, alors je crois qu'il est possible qu'un
> message relatif à un champ SUBNQN invalide apparaisse dans le
> journal du noyau.  Juste pour satisfaire ma curiosité
> personnelle, que donne :
>
> # dmesg | grep SUBNQN
Rien dans la sortie de dmesg.  Pas de SUBNQN, ni d'autres erreurs.
J'y ai déjà jeté un oeil en détail sans le mentionner dans le mail original.

> Peut-être qu'une mise à jour du microcode du NVMe corrigerait
> alors le problème, si vous avez le courage de vous lancer là
> dedans.  Sinon, en dehors du bruit dans les entrées de journal,
> ça ne devrait pas poser de problèmes.

Je vais regarder ce qu'il est possible de faire pour mettre à jour le microcode.
Mais c'est une opération délicate.  Donc, si ce n'est que pour supprimer le rapport quotidien de cette "erreur", je pense que je vais laisser le tout comme ça.

> Amicalement,

Bonne journée.

> Étienne Mollier <[hidden email]>

Jean-Marc <[hidden email]>
https://6jf.be/keys/ED863AD1.txt

attachment0 (849 bytes) Download Attachment