Problem s diskom - DMA TIMEOUT

Dan Lukes dan at obluda.cz
Fri Dec 4 03:53:15 CET 2009


Marian Cerny napsal/wrote, On 12/03/09 16:36:
> poprosil by som o radu ohladne problemu s diskom na jednom serveri. Zda 
> sa, ze problem nie je priamo s diskom, ale s nejakou inou komponentou 
> (radic, kable, system?).

> logoch sa opakovane objavovali zaznamy DMA TIMEOUT

> Po restarte serveru komunikacia s diskom fungovala opet v poriadku

Az podsud to znam, stalo se mi to tento tyden. Az na to, ze nepomahal 
ani restart stroje. Pomohlo az fyzicke odpojeni napajeni a pripojeni zpet.

U sebe jsem to vyhodnotil jako vaznou interni chybu firmware disku.

Akorat mam trochu odlisny typ nez ty (a zejmena verzi firmware) - 
WD5000AAKS-00TMA0 12.01C01 - takze to asi bude nahodna koincidence a 
tvuj problem bude spis jiny.

Navic je se dvema disky souacsne, coz by naznacovalo problem nejake 
spolecne komponenty. Disky jsou SATA, takze kazdy ma svuj kabel. Takze v 
uvahu pripada:
a) elektricke ruseni (bud' zcela vnejsi nakmitane do obou kabelu, nebo 
vnitrni - prorazeny nektery z filtracnich kondenzatoru spis ve zdroji 
nez na MB)
b) vada radice (a tedy zakladni desky)

Muzes zkusit prerovnat kabely uvnitr tak, aby oba nevedly spolu - pokud 
by to situaci zmenilo, pak jde o vnejsi ruseni nakmitane do kabelu. 
Muzes zkusit kabely i vymenit, ale to je spis pro lacino pocit, ze se 
neco udelalo - pravdepodobnost, ze soucasne odesly dva nezavisle kabely 
je mala.

No a pak uz je to o tom zacit pomalu menit komponenty a hledat vadnou. 
Pro zacatek bych proveril, ze vada neni ve skutecnosti zpusobena 
prehratim. Disky mas sice chladne, ale o teplote zbytku nevime nic. 
Prizadreny vetracek na procesoru se muze projevovat i takhle. Pak bych 
se vrhnul na zdroj. Problemem muze byt nejen vnitrni zavada, ale treba i 
to, ze neni dostatecne dimenzovany na to, aby utahl vsechno co v bedne je.

Nicmene, z popisu se zda, ze zatim je to nahodne se projevujici chyba. 
To se bude hledat spatne ...

Jako workaround muzes zkusit zakazat DMA. Ale zazrak bych si od toho 
nesliboval. Nektere hranicni pripady by to mohlo zamaskovat (posunout 
hranici, kdy se zacnou projevovat jako pozorovatelna chyba, takze se 
navenek neprojevi).


Co se tyce toho, ze jeden disk vyrvava i po odpojeni - nemame od tebe vypis
swapctl -l
takze nevime, kde swap mas.

Mimochodem, ja bych swap na softwarovy RAID nedaval, nicmene, dovedu si 
predstavit situace, kdy to ma smysl.

					Dan


P.S.
Obecne se v posledni prislo na to, ze rada disku neni vhodna pro provoz 
v RAIDu. A to proto, ze nekdy jim odpoved trva prilis dlouho (rec je o 
zejmena pripadech, kdy disk pouziva L2 samoopravny algoritmus, ktery je 
vypocetne narocnejsi) a RAID management je ma tendenci vyhodnotit jako 
vadne a vyradi je.

Jak Seagate tak WD na problem reagovalo uvolnenim novych firmware pro 
nektere typy svych disku. Ten tvuj ale mezi ne nepatri, coz by mohlo 
znamenat, ze je v tomto ohledu v poradku.




More information about the Users-l mailing list