Maxtor i Reallocated Sectors Count???

[ newtesla @ 02.07.2011. 16:12 ] @

Pozdrav forumašima :)

Dakle, imam dva Maxtora, jedan je 6Y080LO - DiamondMax9, a drugi je 4R080LO - DiamondMax16. I obojica imaju problem, samo što ga ja ne vidim ;) Ovaj serije 9 ima 1583 Reallocated Sectors Count, a ovaj serije 16 ima nekih 60-tak - i to stanje stoji nepromenjeno već godinu i po; isti broj premeštenih sektora su imali i kada sam ih kupio polovne. Sad, oba diska su u upotrebi, na istoj mašini, već preko godinu dana - na jednom je XP, i linux swap; na drugom Ubuntu i particija sa win pagefile-om :) dakle, diskovi su u žestokoj desktop upotrebi, čas palim win, čas palim lin... a imam i virtuelne mašine. Diskovi rade skoro perfektno - skoro, jer je to ipak makstor ;) na desktopu nema nikakvih grešaka u radu, parkiranja glava, caktanja, zamrzavanja i slično.

Elem, kad sam pokušao (pre nekih par meseci) da ih dodam u RAID5 lanac na serveru (softraid pod ubuntu 10.04 lts), i jedan i drugi bi ili bili prihvaćeni, pa ispadali iz lanca (mode:degraded), ili ne bi ni uspevao da ih unesem u lanac (mdadm bi mi prijavio neke psovke...)

Budući da se broj realociranih sektora ne povećava već preko godinu, stvarno mislim da su hardovi dobri; pogotovo što nemam ni jedan problem sa njima u radu; sve što mi smeta jesu ti realocirani sektori koji se prikazuju u SMART-u; da napomenem da su i jedan i drugi hard u svojoj mladosti bili u mašinama kojima je zveknulo napajanje, pa sam tako i došao do njih - vlasnici se odlučili za upgrade, kad već menjaju napajanje.

Moje pitanje je: da li postoji način da mu obrišem tu stavku Reallocated Sectors Count u SMART-u, ili da barem svedem na neku prihvatljivu cifru - ili možda nulu; koja je u tom slučaju prihvatljiva cifra za softraid; ili bilo koji način koji bi mi dozvolio uvođenje dotičnih u raid lanac, a bez disable-ovanja SMART-a u biosu, ili samim diskovima - jer ipak želim da vidim ako nešto krene nizbrdo jednoga dana, a ne samo obaveštenje da sam degradiran :)

Probao sam:
-Maxtor Powermax - diskovi prolaze test besprekorno, i Low level format - full;
-HDD Regenerator - 0 sektora je proglasio neispravnim, na oba

...nisu urodili plodom.

[ combuster @ 02.07.2011. 18:05 ] @

To u smart-u nema vracanja nazad - diskovi su imali bad sektora - markirani su, ono sto je uspelo da se prebaci na spare blokove prebaceno je i to je to. Low level format ume da pomogne kod sirenja bad sektora, meni je pomoglo u nekoliko navrata.

[ newtesla @ 03.07.2011. 09:57 ] @

Ma, ne bih ja da povratim te sektore - mislim, toliko ih malo ima da je kapacitet zanemarljiv; samo želim da mi ta dva harddiska ne ispadaju neprekidno iz RAID-a.

Jedno od rešenja je i da isključim SMART u BIOS-u, ali to baš i ne bih; SMART ima svoju sjajnu funkciju, i povremeno bacim pogled na stanje diskova, pa želim da uočim na vreme kad neki krene da "svirne", tojest da mu se povećava broj preseljenih sektora; za sada, već više od godinu, ova dvojica hrabro stoje na svojim ciframa.

Samo želim da ih učlanim u RAID.

[ combuster @ 03.07.2011. 17:41 ] @

Za to je preporucljivo da imas dva identicna diska koja ti nemas :) One psovke koje si pominjao bi znacile :)

[ newtesla @ 03.07.2011. 23:31 ] @

Ali, ja imam dva identična diska; čak:

-6Y080L0 u raid5 lancu, potpuno ispravan sa smanjenim AAM I APM na minimum
-6Y080L0 -//-
-6Y080L0 -//-
-6Y080L0 -//-

-6Y080L0 sa 1581 realociranim sektorom - koji neće u lanac, ni puškom; ili hoće, pa ispadne;
-4R080L0 sa oko 60-tak realociranih sektora - nisam ni probao da ga mećem u lanac, jer polako radim tranziciju na ZFS i RAIDZ :))))

Padalo mi je na pamet da muljam sa pločicama, ali takođe sam čitao da je svima njima urađena kalibracija raznih struja i otpora magneta, glava i trofaznih motora, i to je sačuvano u eprom-u, pa se pločice ne gađaju 1/1, kad su različito iskalibrisane. Osim ako je sačuvano u negativnom track-u, na ploči?

A psovke? Pa, nešto kao Raid mode=degraded, disk sd0 SMART error, imminent failure, itd, itd... Recimo.

[ combuster @ 03.07.2011. 23:41 ] @

Pa jedan disk ti je prijavljivao da otkazuje, zato je i pucao - instaliraj smartmontools i daj izlaz od:

sudo smartctl -a /dev/sdX (gde ti je X oznaka za ta dva problematicna diska, znaci dva puta cukas komandu, jednom za prvi jednom za drugi disk).

1.5K reallocated sektora nije malo, dobro je da se taj broj ne povecava ali ne znaci da problema nema negde drugo. A pitanje je koliko je opravdano dodavati na server u raid diskove koji su bili problematicni u najmanju ruku...

[ newtesla @ 04.07.2011. 00:48 ] @

Evo.

Code:
newtesla@fifth ~ $ sudo smartctl -a /dev/sda
smartctl 5.40 2010-03-16 r3077 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Maxtor DiamondMax Plus 9 family
Device Model:     Maxtor 6Y080L0
Serial Number:    Y26P77ME
Firmware Version: YAR41BW0
User Capacity:    81,964,302,336 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Mon Jul  4 01:45:57 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          ( 241) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    No General Purpose Logging support.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      (  37) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   225   223   063    Pre-fail  Always       -       7617
  4 Start_Stop_Count        0x0032   249   249   000    Old_age   Always       -       7915
  5 Reallocated_Sector_Ct   0x0033   097   097   063    Pre-fail  Always       -       1583
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   247   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   250   239   187    Pre-fail  Always       -       38809
  9 Power_On_Minutes        0x0032   212   212   000    Old_age   Always       -       230h+10m
10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   233   233   000    Old_age   Always       -       8234
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       42
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       2510
196 Reallocated_Event_Count 0x0008   243   243   000    Old_age   Offline      -       10
197 Current_Pending_Sector  0x0008   253   252   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   240   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   198   195   000    Old_age   Offline      -       4
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       1
202 Data_Address_Mark_Errs  0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Soft_ECC_Correction     0x000a   253   252   000    Old_age   Always       -       0
205 Thermal_Asperity_Rate   0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   149   111   000    Old_age   Offline      -       0
99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
Warning: ATA error count 34972 inconsistent with error log pointer 5

ATA Error Count: 34972 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 34972 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 e0 08      00:15:17.968  READ DMA
  c6 00 10 00 00 00 e0 08      00:15:17.968  SET MULTIPLE MODE
  91 00 3f 00 00 00 ef 08      00:15:17.968  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 00 00 00 00 00 e0 08      00:15:17.952  RECALIBRATE [OBS-4]
  c8 00 01 00 00 00 e0 0c      00:15:17.616  READ DMA

Error 34971 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 e0 08      00:15:17.568  READ DMA
  c6 00 10 00 00 00 e0 08      00:15:17.568  SET MULTIPLE MODE
  91 00 3f 00 00 00 ef 08      00:15:17.568  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 00 00 00 00 00 e0 08      00:15:17.536  RECALIBRATE [OBS-4]
  c8 00 01 00 00 00 e0 0c      00:16:22.736  READ DMA

Error 34970 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 e0 08      00:16:22.688  READ DMA
  c6 00 10 00 00 00 e0 08      00:16:22.688  SET MULTIPLE MODE
  91 00 3f 00 00 00 ef 08      00:16:22.688  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 00 00 00 00 00 e0 08      00:16:22.672  RECALIBRATE [OBS-4]
  c8 00 01 00 00 00 e0 0c      00:16:22.336  READ DMA

Error 34969 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 e0 08      00:16:22.288  READ DMA
  c6 00 10 00 00 00 e0 08      00:16:22.288  SET MULTIPLE MODE
  91 00 3f 00 00 00 ef 08      00:16:22.288  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 00 00 00 00 00 e0 08      00:16:22.256  RECALIBRATE [OBS-4]
  c8 00 01 00 00 00 e0 0c      00:16:21.920  READ DMA

Error 34968 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 e0  Error: ICRC, ABRT at LBA = 0x00000000 = 0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 01 00 00 00 e0 08      00:16:21.872  READ DMA
  c6 00 10 00 00 00 e0 08      00:16:21.872  SET MULTIPLE MODE
  91 00 3f 00 00 00 ef 08      00:16:21.872  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 00 00 00 00 00 e0 08      00:16:21.856  RECALIBRATE [OBS-4]
  f8 00 00 be b5 8a e0 0c      00:16:21.520  READ NATIVE MAX ADDRESS

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     13428         -
# 2  Short offline       Completed without error       00%      9507         -
# 3  Extended offline    Completed without error       00%      6785         -
# 4  Short offline       Completed without error       00%      6769         -
# 5  Short offline       Completed without error       00%      6769         -
# 6  Short offline       Completed without error       00%      6739         -
# 7  Short offline       Completed without error       00%      6738         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Nije meni što ima toliko loših sektora, nego što se već godinu i po, a možda i dve stanje ne menja??? zato mi je i palo na pamet da je loše napajanje to prouzrokovalo.

Ovaj drugi je trenutno na mašini pod hirens-om, pokušavam nešto....

[ combuster @ 04.07.2011. 06:23 ] @

Citat:

newtesla:

Nije meni što ima toliko loših sektora, nego što se već godinu i po, a možda i dve stanje ne menja??? zato mi je i palo na pamet da je loše napajanje to prouzrokovalo.

To ne mozes da znas nikako :)

9 Power_On_Minutes 0x0032 212 212 000 Old_age Always - 230h+10m

Error 34972 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)

pffff... :)

[ newtesla @ 04.07.2011. 07:57 ] @

Combuster, možda me nisi razumeo kad sam napisao istoriju diska: mušterija donela komp sa mrtvim napajanjem, ja istestirao disk i našao 1581 grešku; mušterija kupila nov disk i novo napajanje, ja otkupio ovaj disk za smešne pare :) godinu i po kasnije (skoro dve ustvari) - disk i dalje ima 1581 grešku; inače, napajanju je bio 'ladan lem na grani od 12V, kako pipneš žice, tako se makina ukoči, ili resetuje, a hard se zavrti ispočetka.

Disk već skoro dve godine ne menja broj realociranih sektora - to je inače stvar koju redovno gledam, barem 2-3 puta mesečno, kroz smartmontools interfejs u webmin-u. Inače, kad kažem godinu i po - a možda i dve, to je zato što loše brojim kad je kalendar u pitanju ;)

Btw, disk je prolazio golgotu dok sam imao samo giga rama, i 50 prozora u operi - kad komp krene da swap-uje ...;)

A ovaj 4R808L0 je dosta kraće kod mene, ali je ista priča.

Code:
12 Power_Cycle_Count 0x0032 233 233 000 Old_age Always - 8234

Veruj mi da nema šanse da je neko upalio komp 8234 puta :) nego je bilo napajanje u prekidu.

[ combuster @ 04.07.2011. 09:18 ] @

Ali to ne objasnjava razliku izmedju Power on Minutes i vremena kada se greska dogodila (osim ako neko drugi ne zna da li je ovo neki bug ili mozda cak feature za koji ja ne znam).

I sta da ti kazem. Mene ni najmanje ne cudi to sto ti taj disk ispada iz RAID-a. Ne bi postojali RE hdd-ovi ili enterprise resenja da je to sve tako lako i da radi bez frke, imas software RAID sa matorim crkotinama gde pokusavas da dodas jos jednu matoru crkotinu sa istorijom bolesti :)

[ newtesla @ 04.07.2011. 09:59 ] @

Citat:

combuster: ...imas software RAID sa matorim crkotinama gde pokusavas da dodas jos jednu matoru crkotinu sa istorijom bolesti :)

Pa... Da :) Da imam glanc nove enterprise diskove - ne bih ni imao problem; ovako švrljam po forumu da bih možda i natrapao na neko flaster-rešenje, a buduće generacije će naučiti nešto čitajući sve ovo :)

Nego, opet - jedna stvar me pomalo buni - ako se bad sektori ne šire dalje, i velika je verovatnoća da ih je izazvao naponski pad/špic - da li je onda moguće da je problem samo do slabe magnetizacije ploča na tom mestu, pa da su sektori zato proglašeni lošima?
-----------
Ma, zato i prelazim na RAIDZ - "ZFS loves cheap disks" - sa FreeBSD sajta ;) da vidimo da li voli i one sa tri noge u grobu :)

[ combuster @ 04.07.2011. 10:22 ] @

E to bi moglo da upali :D

[ newtesla @ 06.07.2011. 10:40 ] @

E, pa da upotpunim temu:

Već sam napisao koliko diskova imam, i kako su vezani - e, pa ovako stoje stvari:

-6Y080L0 - start-stop count=1073; reallocated sectors count=3 (sdc)(sada ad4)
-6Y080L0 - start-stop count=585; reallocated sectors count=0 (sdd)(sada ad5)
-6Y080L0 - start-stop count=2497; reallocated sectors count=81 (sde)(sada ad6)
-6Y080L0 - start-stop count=2077; reallocated sectors count=0 (sdf)(sada ad7)
ovaj sam dodao pre dva dana u mašinu, nikada nisam pokušao da ga ubacim u RAID5 lanac:
-4R080L0 - start-stop count=816; reallocated sectors count=902 (sdb)(sada ad1)
Ovaj je neprekidno ispadao iz RAID5 lanca:
-6Y080L0 - start-stop count=7916; reallocated sectors count=1583

Svi diskovi pokazuju sledeće:

Code:
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Koliko sam našao na netu, moguće je prebaciti tabelu realociranih sektora u tabelu fabrički neispravnih sektora, gde je onda ReallocatedSectorsCount=0, a neispravni sektori se neće koristiti; ali, liči mi na težak hakeraj, a i mrzi me. Takođe, izgleda da je problematično tek kada broj realociranih sektora pređe 1024 - i to sam negde iskopao na netu; valjda mu je tolika rezerva na ploči, pa posle toga ide na smanjivanje kapaciteta - mada svi (ovi koji su isti model) imaju isti kapacitet.

Trenutno pravim vdev od 5 komada, i stavljam RAIDZ - pa pričam kako je prošlo - do tada, bekap visi u vazduhu :)))

----------------------
btw, ovo su mi sistemski diskovi (na dve mašine):

Code:
Model Family:     Maxtor DiamondMax 2160 Ultra ATA
Device Model:     Maxtor 86480D6
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
  1 Raw_Read_Error_Rate     0x000b   253   001   040    Pre-fail  Always   In_the_past 17180239018
  3 Spin_Up_Time            0x0027   222   221   063    Pre-fail  Always       -       79
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       1579
  5 Reallocated_Sector_Ct   0x0033   001   001   063    Pre-fail  Always   FAILING_NOW 637

Model Family:     Fujitsu MPA..MPG
Device Model:     FUJITSU MPD3084AT
SMART overall-health self-assessment test result: PASSED
  1 Raw_Read_Error_Rate     0x000b   100   087   032    Pre-fail  Always       -       176367
  2 Throughput_Performance  0x0005   066   066   020    Pre-fail  Offline      -       137
  3 Spin_Up_Time            0x0007   093   090   025    Pre-fail  Always       -       2
  4 Start_Stop_Count        0x0012   095   095   016    Old_age   Always       -       3200
  5 Reallocated_Sector_Ct   0x0033   100   100   024    Pre-fail  Always       -       0

...i oni tako već godinama... mada, ovaj fujitsu me stvarno iznenađuje ponekad :)