Podivne zaseky - jak dal postupovat? [dlouhe]

Dan Lukes dan at obluda.cz
Mon May 23 17:22:58 CEST 2016


On 05/23/16 14:28, Miroslav Prýmek wrote:
> Takze prozatimni zaver je, ze salt-ssh dela neco

> Jelikoz k tomu zaseku doslo na _novem_ disku (opet ada1), pojal
> jsem podezreni, ze je vadny ATA kanal na radici nebo kabel
> (ten jsem nemenil). Zkusil jsem teda ada1 z mirroru vyhodit
> a znovu spustit X. A opet se to zaseklo. Tentokrat uz mi ale
> watchdog nepomohl, protoze se jelo jenom z jednoho disku, ktery
> se sekl a timpadem uz ani neslo spustit zadny prikaz ani se prihlasit.

Zaprve, mas byt pri podobnem testu prihlaseny dvakrat - pak se po 
zaseknuti prihlasovat znovu nemusis.

Za druhe, mas si, na te konzoli, kde bys ten 'kill -9 <pid>' psal pred 
tim nez to zadreso spustit 'kill -0 <pid>'. Pak je vse potrebne v cache 
a je slusna sance, ze ten prikaz pujde spustit i nad zadrenym diskem neb 
disk potrebovat nebude.

> 1. salt-ssh dela neco netradicniho, v cem je proste ve FreeBSD chyba,
>     ale pri jinem provozu se neprojevi
>
> 2. nejaka hw zavada kdovikde (ale je divny, ze ji neodhali stresstesty)

Od doby co maji disky bezne NCQ je vsechno o dost komplikovanejsi. Muze 
jit klidne o to, ze disk zadrou dva konkretni requesty, ktere jdou ve 
spravnem poradi po sobe. A tobe se podarilo najit software jehoz 
aktivity k takovemu poradi vedou, zatimco jiny software, byt' by delal 
neco podobneho, nedela to uplne stejne a requesty an disk prijdou v 
trochu jinem poradi coz staci aby se interne nezadrel.

Coz je, samozrejme, jen hypoteza.

Ten "novy" disk, ktery se ti zadrel taky - to byl stejny vyrobce a model ?

Mozna by stacilo vzit podoben velky disk jineho vyrobce, nebo alespon 
jine modelove rady. Proste aby to melo pokud mozno jiny firmware.

Pokud jsem se totiz nahodou trefil, tak pri trose smuly ti to muze delat 
i ten novy server, pokud se v nem znovu nestastne sejde hardware se 
softwarem.

Ale samozrejem to muzou bejt i ty kondenzatory (ostatne, zminoval jsem 
tu moznost taky) a pak ti novy server problem vyresi.

Bohuzel, v tomhle pripade nedostanes radu, u ktere by byla jistota trefy.


Dan





More information about the Users-l mailing list