[LUGOS] md array hecnosti

Uroš Golja goljau at comcom.si
Thu Sep 27 07:51:02 CEST 2007


Pozdrav,

za devetimi gorami in devetimi vodami ždi nek strežnik. V ta strežnik je 
vtaknjen SATA krmilnik, ki uporablja linuxov gonilnik sata_sil24 
(Silicon Image, Inc. SiI 3124 PCI-X Serial ATA Controller (rev 01)). Na 
gonilnik so pripeti trije enaki Maxtorjevi diski po 200 GB. Nad temi 
tremi diski teče linuxov md array /dev/md0 v načinu RAID5.

Zadnje čase se je začelo dogajati tole:
root at floki 07:41:43 ~
# cat /var/log/kern.log
[snip]
Sep 26 19:00:52 floki kernel: ata2: exception Emask 0x10 SAct 0x0 SErr 
0x80000 action 0x2 frozen
Sep 26 19:00:52 floki kernel: ata2: (irq_stat 0x01100010, PHY RDY changed)
Sep 26 19:00:53 floki kernel: ata2: soft resetting port
Sep 26 19:01:03 floki kernel: ata2: softreset failed (timeout)
Sep 26 19:01:03 floki kernel: ata2: hard resetting port
Sep 26 19:01:08 floki kernel: ata2: hardreset failed (PHY debouncing failed)
Sep 26 19:01:08 floki kernel: ata2: reset failed (errno=-5), retrying in 
5 secs
Sep 26 19:01:13 floki kernel: ata2: hard resetting port
Sep 26 19:01:19 floki kernel: ata2: hardreset failed (PHY debouncing failed)
Sep 26 19:01:19 floki kernel: ata2: reset failed (errno=-5), retrying in 
30 secs
Sep 26 19:01:48 floki kernel: ata2: hard resetting port
Sep 26 19:01:53 floki kernel: ata2: hardreset failed (PHY debouncing failed)
Sep 26 19:01:53 floki kernel: ata2: reset failed, giving up
Sep 26 19:01:53 floki kernel: ata2.00: disabled
Sep 26 19:01:53 floki kernel: ata2: EH complete
Sep 26 23:50:46 floki kernel: sd 1:0:0:0: [sdb] Result: 
hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Sep 26 23:50:46 floki kernel: end_request: I/O error, dev sdb, sector 
61284415
Sep 26 23:50:46 floki kernel: sd 1:0:0:0: [sdb] Result: 
hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Sep 26 23:50:46 floki kernel: end_request: I/O error, dev sdb, sector 
61284415
Sep 26 23:50:46 floki kernel: raid5: Disk failure on sdb1, disabling 
device. Operation continuing on 2 devices
Sep 26 23:50:46 floki kernel: RAID5 conf printout:
Sep 26 23:50:46 floki kernel:  --- rd:3 wd:2
Sep 26 23:50:46 floki kernel:  disk 0, o:1, dev:sda1
Sep 26 23:50:46 floki kernel:  disk 1, o:0, dev:sdb1
Sep 26 23:50:46 floki kernel:  disk 2, o:1, dev:sdc1
Sep 26 23:50:46 floki kernel: RAID5 conf printout:
Sep 26 23:50:46 floki kernel:  --- rd:3 wd:2
Sep 26 23:50:46 floki kernel:  disk 0, o:1, dev:sda1
Sep 26 23:50:46 floki kernel:  disk 2, o:1, dev:sdc1
[snip]

Array je zelo malo obremenjen, napaka se vedno pojavi med delovanjem. 
Disk odleti dobesedno med "idlanjem". Vedno gre za isti disk. Zamenjal 
sem krmilnik (prej je bil notri Sil 3114). Diske sem priključil na druge 
porte na krmilniku. Ista stvar. Nato sem posumil, da bi lahko bil disk 
fuč. Vklopljen imam SMART, vendar smartctl --all /dev/sdb ne pokaže, da 
bi bilo z njim kaj narobe. Statistike so precej enake kot na ostalih 
dveh diskih.

Ima kdo kakšno idejo, preden grem zamenjat ves hardver do zadnjega SATA 
kabla? Strežnik je, čeprav izrazito neobremenjen, vseeno zelo pomemben.

LP,
U.


More information about the lugos-list mailing list