SATA radic Sil3512 + 1TB disk WRITE/READ_DMA error

Dan Lukes dan at obluda.cz
Mon Jan 19 14:15:54 CET 2009


Ladislav Kohout wrote:
> Při čtení či zápisu se objevují chyby ve stylu (LBA se mění náhodně)
> ad6: WARNING - WRITE_DMA UDMA ICRC error (retrying request) LBA=20023473
...
> ad6: FAILURE - READ_DMA timed out

ICRC a "timeout" chyby jsou chyby "prenosove". Muze jit i o zavadu 
elektroniky disku, ale to zas az tak obvykle neni - casteji jde o zavadu 
kabelaze (spatny kontakt, poskozeny kabe, ruseni z jineho blizkeho 
kabelu). A nebo o elektrickou nekompatibilitu mezi radicem a diskem 
samym. Coz by potvrzovalo to, ze s jinym radicem nebo jinym diskem se 
problem neprojevuje.

Na podzim jsem na nekterych strojich delal upgrade BIOSu, kde v "change 
log" byla uvedena zavada (volne parafrazuji) "v nekterych rezimech 
provozu je radic disku mimo maximalni hodnoty povolene specifikaci". 
Nedelal jsem ten upgrade kvuli teto zavade, tak nemuzu rict jestli to 
pomohlo nebo ne, ale i tohle muze byt jedna z moznych pricin a upgrade 
BIOSu muze byt reseni. Dokonce i kdyz v jeho changelogu prave tato 
zavada explicitne zminena nebude (ne vsechny opravene veci se tma pisi).

> Je zvláštní že na integrovaném intelovském řadiči (testovací stroj) se
> stejným diskem nebo při použití uvedeného řadič a 160GB hd WD se tyto chyby
> neobjevují.

Mirne "mimotolerancni" problemy jsou skoro vzdy zavisle na zcela 
konkretnich typech zarizeni na obou stranach. Pricemz jestli mirna 
mimotolerance vznikla kabelem (konektorem, rusenim) s parametry "na 
hranici zavady" nebo chybnym nastavenim chipsetu BIOSem neni podstatne.

> A velice zvláštní je že se chyby ukázují i s vypnutým DMA:
> # less /boot/loader.conf
> hw.ata.ata_dma="0"
> hw.ata.wc="0"
> hw.ata.atapi_dma="0"

> Jan 19 13:10:47 testik kernel: ad6: TIMEOUT - READ_DMA retrying (2 retries
> left) LBA=28226510

Evidentne to DMA vypnute nebylo. Proc, to je jina a resil bych to jako 
samostatny problem.

> K dispozci mám ještě řadiče s chipy Sil3132 a Via VT6421A. Bohužel ve
> FreeBSD 5.3 nemají nativní podporu a žádné ovladče nebo moduly jsem pro ně
> nenašel.
> 
> Budu rád za jakoukoli radu, ať už co se týče rozchození stávajícího nebo
> něktrého z uvedených náhradních řadičů.

To je hodne omezujicich podminek najednou ...

Zkouset rozchodit nepodporovane radice - i kdyby se to povedlo, tezko 
mluvit o bezpecnem, spolehlivem a stabilnim reseni.

Takze jsme omezeni na ten radic, co tam je. Operacni system mame taky 
zakazano vymenit. Takze muzeme vymenit ten BIOS, datovy kabel od disku 
(a zkusit ho tahnout dal od ostatnich zarizeni). Ruseni se take muze 
sirit napajecim rozvodem - pokud je vadny zdroj. Takze dalsi 
"nezakazanou" vymenou je vymena napajeciho zdroje (tise pomijim moznost, 
ze by ruseni prichaelo uz z 220V rozvodu). No a v neposledni rade - 
vime, ze problem se projevuje jen s nekterymi disky, Takze vymenit disk 
- to taky zakazano nebylo.

Uvadim jen moznosti, co se da zkusit - nektere moznosti nejsou prilsi 
pravdepodobne, coz ale neznamena, ze je to vylouceno. Nektera z vymen by 
zabrat mohla. A nebo zadna. Je mozne, ze v ramci nastavenych podminek 
nebude reseni mozne ...

						Dan




More information about the Users-l mailing list