SW Raidy a havarie disku

Dan Lukes dan at obluda.cz
Wed Feb 20 22:30:03 CET 2008


Radim Kolar napsal/wrote, On 02/20/08 18:20:
> Muze mi nekdo vysvetlit proc kdyz odejde disk v sw raidu tak to
> vetsinou kousne masinu? Dela mi to jak gmirror tak md v linuxu. Spatna
> obsluha chyb v kernelu nebo je to tim ze ten radic/disk neni hotplug?
> 
> v 6.2 gvinumu to navic trapne kernel pri rebuildu kdyz je svazek mounted

	To se bez blizsich informaci neda moc jednoznacne rict. Jednak to muze 
byt chyba v samotnem kodu sw raidu - napriklad muze nebyt dostatecne 
testovan navratovy kod nejake funkce s predpokladem, ze ona se vzdy 
povede - a ona se nepovede. Pokyud nasledny kod povazuje nejake vracene 
hodnoty za platne a pouzije je, zatimco funkce skoncila chybou a rozumne 
hodnoty ve skutecnosti nevratila, muze to snadno skoncit panicem nebo 
nekterou z procesorovych exceptions. A to jeste v tom lepsim pripade.

	"Kousnuti", ktere by ale nemelo mit nekonecne trvani, ma pravdepodobne 
pricinu hardwarovou. Nahle zmizevsi disk samozrejme nekomunikuje a 
pokusy o komunikaci s nim konci timeouty, coz typicky trva dele nez 
"normalni" komunikace. Kroem toho, v zavislosti an ovladaci a hardwaru, 
po dobu behu takoveho timeoutu muze byt zablokovana i komunikace s 
jinymi disky tehoz radice. To muze vyvolat az dojem zatuhnuti.

	Typicky priklad je ATA sbernice, kde se po vypadku MASTER disku casto 
stane nedostupnym i SLAVE disk, proste proto, ze ATA specifikace 
nedovoluje aby na kabelu byl pouze SLAVE disk. Dat si tedy dva disky 
navzajem se zastupujuci v mirroru na tentyz kabel je pomerne nerozumne. 
V pripade RAID5 je problem stejny.

	Ani za teto situace by ale kernel nemel zbuchnout na CPU exception nebo 
dokonce zustat trvale a tise zadreny - to ukazuje takrka jiste na chybu 
kodu. Za tehle situace by "regulerne" melo dojit k panicu.

						Dan



More information about the Users-l mailing list