Forums FUG-FR
https://forums.fug-fr.org/cgi-bin/yabb2/YaBB.pl
FreeBSD >> Matériel >> Erreurs disque
https://forums.fug-fr.org/cgi-bin/yabb2/YaBB.pl?num=1364199287

Message started by Michel on 25. Mar 2013 at 09:14

Title: Erreurs disque
Post by Michel on 25. Mar 2013 at 09:14
Bonjour,

Tous les dimanche soir je fais une sauvegarde entre deux machines via FTP sur un LAN.
Cette nuit j'ai eu sur la machine de départ :

Code (]
....
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=84<ICRC,ABORTED> LBA=562837631
g_vfs_done():ad8s1d[READ(offset=288172834816, length=131072)):

error = 5
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562837887
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562837887
ad8: FAILURE - READ_DMA48 status=51<READY,DSC,ERROR> error=84<ICRC,ABORTED> LBA=562837887
g_vfs_done():ad8s1d[READ(offset=288172965888, length=131072)]error = 5
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562838143
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562838143
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562838911
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562839167
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562839423
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562839679
ad8: WARNING - READ_DMA48 UDMA ICRC error (retrying request) LBA=562840191
....


Et en même temps sur la machine d'arrivée :

Code (]
....
+g_vfs_done():ar0e[READ(offset=-3944942167344021504, length=16384)):

error = 5
+g_vfs_done():ar0e[READ(offset=-3944871798599843840, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944801429855666176, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944731061111488512, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944660692367310848, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3945082398944641024, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3945012536088199168, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944942167344021504, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944871798599843840, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944801429855666176, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944731061111488512, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944660692367310848, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=-3944590323623133184, length=16384)]error = 5
+g_vfs_done():ar0e[READ(offset=303359656030666752, length=16384)]error = 5
....


Je suis sous 8.3-RELEASE-p3 sur la machine de départ et FreeBSD 8.0-RELEASE #0 sur l'autre.

Une idée ?

Title: Re: Erreurs disque
Post by fgudin on 26. Mar 2013 at 09:13
D'abord, je pense que le problème se situe bien sur la machine source (les erreurs remontées à travers gvfs proviennent peut-être de l'«émulation» du disque attaché via ftp, mais je n'en connais pas le fonctionnement): que disent les smartmontools sur la première machine ?
Quelque-chose comme:[code]smartctl -a /dev/_rawhdd[/code]
(voir les compteurs "Raw_Read_Error_Rate", "Reallocated_Sector_Ct", "Seek_Error_Rate" et autres valeurs renvoyées). Mais il y a sans doute bien un disque en train de rendre l'âme vu que les LBAs concernés sont assez proches.

Title: Re: Erreurs disque
Post by Michel on 27. Mar 2013 at 09:36
Les données ne sembles pas "dramatiques" :

Code (]
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       8
  2 Throughput_Performance  0x0026   056   056   000    Old_age   Always       -       5573
  3 Spin_Up_Time            0x0023   085   085   025    Pre-fail  Always       -       4589
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       13
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       304
10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   252   252   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       13
191 G-Sense_Error_Rate      0x0022   252   252   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   059   053   000    Old_age   Always       -       41 (Min/Max 17/47)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   090   090   000    Old_age   Always       -       5822
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       4
223 Load_Retry_Count        0x0032   252   252   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       13

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       293         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Completed [00% left):

(0-65535)
....


Seule le "UDMA CRC error count" est notable. Je me demande si ce n'est pas un problème de carte mère ou d'alim

Title: Re: Erreurs disque
Post by Michel on 27. Mar 2013 at 13:12
Si je fais un df -h

Code (]
ilesystem              Size    Used   Avail Capacity  Mounted on
/dev/ad4s1a               2G    565M    1.2G    31%    /
devfs                   1.0k    1.0k      0B   100%    /dev
/dev/ad4s1e             3.9G     65M    3.5G     2%    /tmp
/dev/ad4s1f              21G     11G      9G    55%    /usr
/dev/ad4s1d               2G    1.9G   -110M   106%    /var
/dev/ad0s1d             288G    133G    132G    50%    /xusr
/dev/ad8s1d             458G   -1.1E    1.1E -73610168948%    /yusr
procfs                  4.0k    4.0k      0B   100%    /proc
[/code):

Et si je fais un du -h
[code]
...
...
du: ./NosPhotos/... .../600_DB_d33_150.jpg: Value too large to be stored in data type
du: ./NosPhotos/... .../600_DB_d33_600.jpg: Bad file descriptor
-3E    ./NosPhotos
-3E    .


Enfin si je fais un dd
[code]
dd if=/dev/ad8 of=/dev/null bs=1m conv=noerror
476940+1 records in
476940+1 records out
500107862016 bytes transferred in 5598.461238 secs (89329521 bytes/sec)
[/code]

En même temps, suite à une compilation des libroffice, je n'arrive pas à visualiser le/les fichier(s) qui font déborder /var

Title: Re: Erreurs disque
Post by fgudin on 27. Mar 2013 at 14:33

Michel wrote on 27. Mar 2013 at 09:36:
Seule le "UDMA CRC error count" est notable. Je me demande si ce n'est pas un problème de carte mère ou d'alim

Bonne piste, sans doute. Peut-être ajouter un essai en changeant le câblage ou le remuant un peu (mauvais contacts) ?

Michel wrote on 27. Mar 2013 at 13:12:
En même temps, suite à une compilation des libroffice, je n'arrive pas à visualiser le/les fichier(s) qui font déborder /var

Un simple find /var -mtime -7 -ls ou autre permettrait de trouver les fichiers récents, normalement (les méta-données sont peut-être corrompues: fsck ?).

Title: Re: Erreurs disque
Post by Michel on 31. Mar 2013 at 10:32
Bon la chute : j'ai changé de carte mère et donc de CPU mais aussi de mémoire et d'alim.
Comme un de mes disques était encore en IDE j'ai eu quelques problèmes pour retrouver mon /home ...

Bref j'ai presque tout changé !

Forums FUG-FR » Powered by YaBB 2.5.2!
YaBB Forum Software © 2000-2025. All Rights Reserved.