|
[ newtesla @ 02.07.2011. 16:12 ] @
| Pozdrav forumašima :)
Dakle, imam dva Maxtora, jedan je 6Y080LO - DiamondMax9, a drugi je 4R080LO - DiamondMax16. I obojica imaju problem, samo što ga ja ne vidim ;) Ovaj serije 9 ima 1583 Reallocated Sectors Count, a ovaj serije 16 ima nekih 60-tak - i to stanje stoji nepromenjeno već godinu i po; isti broj premeštenih sektora su imali i kada sam ih kupio polovne. Sad, oba diska su u upotrebi, na istoj mašini, već preko godinu dana - na jednom je XP, i linux swap; na drugom Ubuntu i particija sa win pagefile-om :) dakle, diskovi su u žestokoj desktop upotrebi, čas palim win, čas palim lin... a imam i virtuelne mašine. Diskovi rade skoro perfektno - skoro, jer je to ipak makstor ;) na desktopu nema nikakvih grešaka u radu, parkiranja glava, caktanja, zamrzavanja i slično.
Elem, kad sam pokušao (pre nekih par meseci) da ih dodam u RAID5 lanac na serveru (softraid pod ubuntu 10.04 lts), i jedan i drugi bi ili bili prihvaćeni, pa ispadali iz lanca (mode:degraded), ili ne bi ni uspevao da ih unesem u lanac (mdadm bi mi prijavio neke psovke...)
Budući da se broj realociranih sektora ne povećava već preko godinu, stvarno mislim da su hardovi dobri; pogotovo što nemam ni jedan problem sa njima u radu; sve što mi smeta jesu ti realocirani sektori koji se prikazuju u SMART-u; da napomenem da su i jedan i drugi hard u svojoj mladosti bili u mašinama kojima je zveknulo napajanje, pa sam tako i došao do njih - vlasnici se odlučili za upgrade, kad već menjaju napajanje.
Moje pitanje je: da li postoji način da mu obrišem tu stavku Reallocated Sectors Count u SMART-u, ili da barem svedem na neku prihvatljivu cifru - ili možda nulu; koja je u tom slučaju prihvatljiva cifra za softraid; ili bilo koji način koji bi mi dozvolio uvođenje dotičnih u raid lanac, a bez disable-ovanja SMART-a u biosu, ili samim diskovima - jer ipak želim da vidim ako nešto krene nizbrdo jednoga dana, a ne samo obaveštenje da sam degradiran :)
Probao sam:
-Maxtor Powermax - diskovi prolaze test besprekorno, i Low level format - full;
-HDD Regenerator - 0 sektora je proglasio neispravnim, na oba
...nisu urodili plodom. |
[ combuster @ 02.07.2011. 18:05 ] @
To u smart-u nema vracanja nazad - diskovi su imali bad sektora - markirani su, ono sto je uspelo da se prebaci na spare blokove prebaceno je i to je to. Low level format ume da pomogne kod sirenja bad sektora, meni je pomoglo u nekoliko navrata.
[ newtesla @ 03.07.2011. 09:57 ] @
Ma, ne bih ja da povratim te sektore - mislim, toliko ih malo ima da je kapacitet zanemarljiv; samo želim da mi ta dva harddiska ne ispadaju neprekidno iz RAID-a.
Jedno od rešenja je i da isključim SMART u BIOS-u, ali to baš i ne bih; SMART ima svoju sjajnu funkciju, i povremeno bacim pogled na stanje diskova, pa želim da uočim na vreme kad neki krene da "svirne", tojest da mu se povećava broj preseljenih sektora; za sada, već više od godinu, ova dvojica hrabro stoje na svojim ciframa.
Samo želim da ih učlanim u RAID.
[ combuster @ 03.07.2011. 17:41 ] @
Za to je preporucljivo da imas dva identicna diska koja ti nemas :) One psovke koje si pominjao bi znacile :)
[ newtesla @ 03.07.2011. 23:31 ] @
Ali, ja imam dva identična diska; čak:
-6Y080L0 u raid5 lancu, potpuno ispravan sa smanjenim AAM I APM na minimum
-6Y080L0 -//-
-6Y080L0 -//-
-6Y080L0 -//-
-6Y080L0 sa 1581 realociranim sektorom - koji neće u lanac, ni puškom; ili hoće, pa ispadne;
-4R080L0 sa oko 60-tak realociranih sektora - nisam ni probao da ga mećem u lanac, jer polako radim tranziciju na ZFS i RAIDZ :))))
Padalo mi je na pamet da muljam sa pločicama, ali takođe sam čitao da je svima njima urađena kalibracija raznih struja i otpora magneta, glava i trofaznih motora, i to je sačuvano u eprom-u, pa se pločice ne gađaju 1/1, kad su različito iskalibrisane. Osim ako je sačuvano u negativnom track-u, na ploči?
A psovke? Pa, nešto kao Raid mode=degraded, disk sd0 SMART error, imminent failure, itd, itd... Recimo.
[ combuster @ 03.07.2011. 23:41 ] @
Pa jedan disk ti je prijavljivao da otkazuje, zato je i pucao - instaliraj smartmontools i daj izlaz od:
sudo smartctl -a /dev/sdX (gde ti je X oznaka za ta dva problematicna diska, znaci dva puta cukas komandu, jednom za prvi jednom za drugi disk).
1.5K reallocated sektora nije malo, dobro je da se taj broj ne povecava ali ne znaci da problema nema negde drugo. A pitanje je koliko je opravdano dodavati na server u raid diskove koji su bili problematicni u najmanju ruku...
[ newtesla @ 04.07.2011. 00:48 ] @
Evo.
Code: newtesla@fifth ~ $ sudo smartctl -a /dev/sda
smartctl 5.40 2010-03-16 r3077 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Model Family: Maxtor DiamondMax Plus 9 family
Device Model: Maxtor 6Y080L0
Serial Number: Y26P77ME
Firmware Version: YAR41BW0
User Capacity: 81,964,302,336 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0
Local Time is: Mon Jul 4 01:45:57 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 241) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
No General Purpose Logging support.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 37) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0027 225 223 063 Pre-fail Always - 7617
4 Start_Stop_Count 0x0032 249 249 000 Old_age Always - 7915
5 Reallocated_Sector_Ct 0x0033 097 097 063 Pre-fail Always - 1583
6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0
7 Seek_Error_Rate 0x000a 253 247 000 Old_age Always - 0
8 Seek_Time_Performance 0x0027 250 239 187 Pre-fail Always - 38809
9 Power_On_Minutes 0x0032 212 212 000 Old_age Always - 230h+10m
10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0
11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 233 233 000 Old_age Always - 8234
192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0
194 Temperature_Celsius 0x0032 253 253 000 Old_age Always - 42
195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 2510
196 Reallocated_Event_Count 0x0008 243 243 000 Old_age Offline - 10
197 Current_Pending_Sector 0x0008 253 252 000 Old_age Offline - 0
198 Offline_Uncorrectable 0x0008 253 240 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0008 198 195 000 Old_age Offline - 4
200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 252 000 Old_age Always - 1
202 Data_Address_Mark_Errs 0x000a 253 252 000 Old_age Always - 0
203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 0
204 Soft_ECC_Correction 0x000a 253 252 000 Old_age Always - 0
205 Thermal_Asperity_Rate 0x000a 253 252 000 Old_age Always - 0
207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0
208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0
209 Offline_Seek_Performnce 0x0024 149 111 000 Old_age Offline - 0
99 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
100 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
101 Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0
SMART Error Log Version: 1
Warning: ATA error count 34972 inconsistent with error log pointer 5
ATA Error Count: 34972 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 34972 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
When the command that caused the error occurred, the device was in an unknown state.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ICRC, ABRT at LBA = 0x00000000 = 0
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 01 00 00 00 e0 08 00:15:17.968 READ DMA
c6 00 10 00 00 00 e0 08 00:15:17.968 SET MULTIPLE MODE
91 00 3f 00 00 00 ef 08 00:15:17.968 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 00 00 00 00 00 e0 08 00:15:17.952 RECALIBRATE [OBS-4]
c8 00 01 00 00 00 e0 0c 00:15:17.616 READ DMA
Error 34971 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
When the command that caused the error occurred, the device was in an unknown state.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ICRC, ABRT at LBA = 0x00000000 = 0
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 01 00 00 00 e0 08 00:15:17.568 READ DMA
c6 00 10 00 00 00 e0 08 00:15:17.568 SET MULTIPLE MODE
91 00 3f 00 00 00 ef 08 00:15:17.568 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 00 00 00 00 00 e0 08 00:15:17.536 RECALIBRATE [OBS-4]
c8 00 01 00 00 00 e0 0c 00:16:22.736 READ DMA
Error 34970 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
When the command that caused the error occurred, the device was in an unknown state.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ICRC, ABRT at LBA = 0x00000000 = 0
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 01 00 00 00 e0 08 00:16:22.688 READ DMA
c6 00 10 00 00 00 e0 08 00:16:22.688 SET MULTIPLE MODE
91 00 3f 00 00 00 ef 08 00:16:22.688 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 00 00 00 00 00 e0 08 00:16:22.672 RECALIBRATE [OBS-4]
c8 00 01 00 00 00 e0 0c 00:16:22.336 READ DMA
Error 34969 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
When the command that caused the error occurred, the device was in an unknown state.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ICRC, ABRT at LBA = 0x00000000 = 0
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 01 00 00 00 e0 08 00:16:22.288 READ DMA
c6 00 10 00 00 00 e0 08 00:16:22.288 SET MULTIPLE MODE
91 00 3f 00 00 00 ef 08 00:16:22.288 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 00 00 00 00 00 e0 08 00:16:22.256 RECALIBRATE [OBS-4]
c8 00 01 00 00 00 e0 0c 00:16:21.920 READ DMA
Error 34968 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
When the command that caused the error occurred, the device was in an unknown state.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ICRC, ABRT at LBA = 0x00000000 = 0
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 01 00 00 00 e0 08 00:16:21.872 READ DMA
c6 00 10 00 00 00 e0 08 00:16:21.872 SET MULTIPLE MODE
91 00 3f 00 00 00 ef 08 00:16:21.872 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 00 00 00 00 00 e0 08 00:16:21.856 RECALIBRATE [OBS-4]
f8 00 00 be b5 8a e0 0c 00:16:21.520 READ NATIVE MAX ADDRESS
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 13428 -
# 2 Short offline Completed without error 00% 9507 -
# 3 Extended offline Completed without error 00% 6785 -
# 4 Short offline Completed without error 00% 6769 -
# 5 Short offline Completed without error 00% 6769 -
# 6 Short offline Completed without error 00% 6739 -
# 7 Short offline Completed without error 00% 6738 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Nije meni što ima toliko loših sektora, nego što se već godinu i po, a možda i dve stanje ne menja??? zato mi je i palo na pamet da je loše napajanje to prouzrokovalo.
Ovaj drugi je trenutno na mašini pod hirens-om, pokušavam nešto....
[ combuster @ 04.07.2011. 06:23 ] @
Citat: newtesla:
Nije meni što ima toliko loših sektora, nego što se već godinu i po, a možda i dve stanje ne menja??? zato mi je i palo na pamet da je loše napajanje to prouzrokovalo.
To ne mozes da znas nikako :)
9 Power_On_Minutes 0x0032 212 212 000 Old_age Always - 230h+10m
Error 34972 occurred at disk power-on lifetime: 12938 hours (539 days + 2 hours)
pffff... :)
[ newtesla @ 04.07.2011. 07:57 ] @
Combuster, možda me nisi razumeo kad sam napisao istoriju diska: mušterija donela komp sa mrtvim napajanjem, ja istestirao disk i našao 1581 grešku; mušterija kupila nov disk i novo napajanje, ja otkupio ovaj disk za smešne pare :) godinu i po kasnije (skoro dve ustvari) - disk i dalje ima 1581 grešku; inače, napajanju je bio 'ladan lem na grani od 12V, kako pipneš žice, tako se makina ukoči, ili resetuje, a hard se zavrti ispočetka.
Disk već skoro dve godine ne menja broj realociranih sektora - to je inače stvar koju redovno gledam, barem 2-3 puta mesečno, kroz smartmontools interfejs u webmin-u. Inače, kad kažem godinu i po - a možda i dve, to je zato što loše brojim kad je kalendar u pitanju ;)
Btw, disk je prolazio golgotu dok sam imao samo giga rama, i 50 prozora u operi - kad komp krene da swap-uje ...;)
A ovaj 4R808L0 je dosta kraće kod mene, ali je ista priča.
Code: 12 Power_Cycle_Count 0x0032 233 233 000 Old_age Always - 8234
Veruj mi da nema šanse da je neko upalio komp 8234 puta :) nego je bilo napajanje u prekidu.
[ combuster @ 04.07.2011. 09:18 ] @
Ali to ne objasnjava razliku izmedju Power on Minutes i vremena kada se greska dogodila (osim ako neko drugi ne zna da li je ovo neki bug ili mozda cak feature za koji ja ne znam).
I sta da ti kazem. Mene ni najmanje ne cudi to sto ti taj disk ispada iz RAID-a. Ne bi postojali RE hdd-ovi ili enterprise resenja da je to sve tako lako i da radi bez frke, imas software RAID sa matorim crkotinama gde pokusavas da dodas jos jednu matoru crkotinu sa istorijom bolesti :)
[ newtesla @ 04.07.2011. 09:59 ] @
Citat: combuster: ...imas software RAID sa matorim crkotinama gde pokusavas da dodas jos jednu matoru crkotinu sa istorijom bolesti :)
Pa... Da :) Da imam glanc nove enterprise diskove - ne bih ni imao problem; ovako švrljam po forumu da bih možda i natrapao na neko flaster-rešenje, a buduće generacije će naučiti nešto čitajući sve ovo :)
Nego, opet - jedna stvar me pomalo buni - ako se bad sektori ne šire dalje, i velika je verovatnoća da ih je izazvao naponski pad/špic - da li je onda moguće da je problem samo do slabe magnetizacije ploča na tom mestu, pa da su sektori zato proglašeni lošima?
-----------
Ma, zato i prelazim na RAIDZ - "ZFS loves cheap disks" - sa FreeBSD sajta ;) da vidimo da li voli i one sa tri noge u grobu :)
[ combuster @ 04.07.2011. 10:22 ] @
E to bi moglo da upali :D
[ newtesla @ 06.07.2011. 10:40 ] @
E, pa da upotpunim temu:
Već sam napisao koliko diskova imam, i kako su vezani - e, pa ovako stoje stvari:
-6Y080L0 - start-stop count=1073; reallocated sectors count=3 (sdc)(sada ad4)
-6Y080L0 - start-stop count=585; reallocated sectors count=0 (sdd)(sada ad5)
-6Y080L0 - start-stop count=2497; reallocated sectors count=81 (sde)(sada ad6)
-6Y080L0 - start-stop count=2077; reallocated sectors count=0 (sdf)(sada ad7)
ovaj sam dodao pre dva dana u mašinu, nikada nisam pokušao da ga ubacim u RAID5 lanac:
-4R080L0 - start-stop count=816; reallocated sectors count=902 (sdb)(sada ad1)
Ovaj je neprekidno ispadao iz RAID5 lanca:
-6Y080L0 - start-stop count=7916; reallocated sectors count=1583
Svi diskovi pokazuju sledeće: Code: === START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Koliko sam našao na netu, moguće je prebaciti tabelu realociranih sektora u tabelu fabrički neispravnih sektora, gde je onda ReallocatedSectorsCount=0, a neispravni sektori se neće koristiti; ali, liči mi na težak hakeraj, a i mrzi me. Takođe, izgleda da je problematično tek kada broj realociranih sektora pređe 1024 - i to sam negde iskopao na netu; valjda mu je tolika rezerva na ploči, pa posle toga ide na smanjivanje kapaciteta - mada svi (ovi koji su isti model) imaju isti kapacitet.
Trenutno pravim vdev od 5 komada, i stavljam RAIDZ - pa pričam kako je prošlo - do tada, bekap visi u vazduhu :)))

----------------------
btw, ovo su mi sistemski diskovi (na dve mašine):
Code: Model Family: Maxtor DiamondMax 2160 Ultra ATA
Device Model: Maxtor 86480D6
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
1 Raw_Read_Error_Rate 0x000b 253 001 040 Pre-fail Always In_the_past 17180239018
3 Spin_Up_Time 0x0027 222 221 063 Pre-fail Always - 79
4 Start_Stop_Count 0x0032 253 253 000 Old_age Always - 1579
5 Reallocated_Sector_Ct 0x0033 001 001 063 Pre-fail Always FAILING_NOW 637
Model Family: Fujitsu MPA..MPG
Device Model: FUJITSU MPD3084AT
SMART overall-health self-assessment test result: PASSED
1 Raw_Read_Error_Rate 0x000b 100 087 032 Pre-fail Always - 176367
2 Throughput_Performance 0x0005 066 066 020 Pre-fail Offline - 137
3 Spin_Up_Time 0x0007 093 090 025 Pre-fail Always - 2
4 Start_Stop_Count 0x0012 095 095 016 Old_age Always - 3200
5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 0
...i oni tako već godinama... mada, ovaj fujitsu me stvarno iznenađuje ponekad :)
Copyright (C) 2001-2025 by www.elitesecurity.org. All rights reserved.
|