Podezrele chovani Intel MatrixRAID

Dan Lukes dan at obluda.cz
Thu Mar 9 13:15:59 CET 2006


	Uvidem reknu, ze jsme se timto konkretnim radicem nezabyval konkretne. 
A nemam moc v lasce semi-softwarove raidy vubec, takze celou tuhle 
skupinu hardware sleduju jen okrajove. Takze budu varit trochu z vody. 
Ergo, to do napisu je prevazne extrapolace znalosti z jinych oblasti a 
jde jen o (snad kvalifikovany) odhad.

jan.koukal at fs.cvut.cz wrote:
> Mar  8 20:03:11 mail kernel: ar1: WARNING - mirror protection lost. RAID1
> array in DEGRADED mode

	Co je primarni pricinou tohohle hlaseni se odhadovat pokouset nebudu. 
Muze jit o skutecnou vadu disku, selhani SATA radice, ale take chybu v 
ovladaci.

> Mar  8 20:03:11 mail kernel: ar1: writing of Intel MatrixRAID metadata is
> NOT supported yet

	Tohle uz je jasnejsi a vysvetluje to nektere nasledne veci. Pole ma na 
disku zapsanou svoji vlastni konfiguraci - kroem jineho take to, v jakem 
je ten-ktery disk a cele pole stavu.

	Pro tento konkretni typ pole ovsem v driveru, ktery ve FreeBSD 6.0 je 
neni implementovan zapis techto dat - driver tedy neni schopen zpet 
ulozit informaci, ze konkretni disk selhal a pole je v nekorektnim stavu.

	To lze povazovat za velmi vazny problem - po restartu, ke kteremu 
doslo, dosly ovladace na zaklade (ne)uloznych informaci k zaveru, ze 
pole je V PORADKU. Ono ale mozna neni a existuji v tom mirroru mista, 
kde obsah kopii neni identicky.

> Mar  8 20:03:11 mail kernel: unknown: TIMEOUT - WRITE_DMA48 retrying (1
> retry left) LBA=326028767

	To znaci ztratu schopnosti komunikovat s konkretnim diskem. Proc ale, 
to z teto sady informaci urcit nelze. Znovu muze jit o vadu disku, 
radice nebo ovladacu.

	To, ze se pocitac nasledne restartoval mirne favorizuje moznost, ze by 
mohlo jit o chybu ovladacu. Ve skutecnosti to ale klidne mohla byt 
primarne chyba jina, na kterou jen chybne napsany ovladac nespravne 
zareagoval (a to vedlo k restartu).

> Mar  8 20:04:39 mail kernel: ar1: 305245MB <Intel MatrixRAID RAID1> status:
> READY
> Mar  8 20:04:39 mail kernel: ar1: disk0 READY (master) using ad8 at
> ata4-master
> Mar  8 20:04:39 mail kernel: ar1: disk1 READY (mirror) using ad10 at
> ata5-master

	A tady uz je videt shora popsany problem - neulozena informace o 
problemu ma za nasledek, ze vse je po restartu "v poradku".

	Ja osobne si myslim, ze takto nedodelany ovladac se nikdy nemel dostat 
do jakekoliv RELEASE - a pokud to z nejakeho velmi dobreho duvodu bylo 
treba, tak melo byt jak v manualove strance i pri startu systemu velmi 
velkymi pismeny uvedeno, jake nasledky muze mit v nekterych pripade 
pouziti tohoto nedodelku.

	Ale nemuzu to tu rikat moc hlasite, protoze nekteri jakekoliv osocovani 
"noveho FreeBSD" nebo novych metod, ktere jsou pouzivany pri jeho 
soucasnem vyvoji spatne snasi ... ;-)

	Mimochodem, v 6.1 uz na tomto typu radice zapis metadat podporovany 
bude (presto ale zustane jeste spousta radicu, kde stale ne).

> Jde z tohoto usoudit ce se stalo? Spatny disk,board?

	Nebo ovladac. To se opravdu takhle odhadnout neda.

	Co je jiste je, ze tento hardware je pri te konkretni verzi FreeBSD 
opravdu nevhodne vybran. Ovladac je v teto situaci opravdu "zparchantely".

	Nemam k tomu lepsi radu nez tu, ze nejprve rekneme, co chceme 
dosahnout, pak se rozhodneme pro software a pak k software vybereme 
odpovidajici hardware. Pokdu to probehne obracene, je treba byt velmi 
opatrny nakolik je dany hardware pro dany OS vhodny - a v tomto pripade 
moc neni ...


> Je normalni, ze na se sytem rebootne?

	Na verzi 4.x nebo 5/6.x ? ;-)

	U nektereho typu zavad to je normalni a v zasade se na takovou situaci 
neda zareagovat o moc lepe - kazdopadne - reboot je typicky nasledek 
zavady typu "nekorektne napsany software (OS)", ktery rozhodila ho 
nejaka neobvykla situace (treba zavada hardware - s tou by ale mel 
pocitat). Mozna se kdo dostal do nejake oblasti, kterou tech deset 
studentu pri testovani vynechalo ... ;-)

						Dan





More information about the Users-l mailing list