Podivne zaseky - jak dal postupovat? [dlouhe]

Miroslav Prýmek m.prymek at gmail.com
Mon May 23 14:28:07 CEST 2016


Diky, Dane, minimalne jsem si diky tvym komentarum utridil myslenky a
posunul se v dalsim postupu.

Samozrejme jsem zapomnel napsat dost podstatnou informaci: doslo k tem 
samovolnym resetum, ktery jsem pricital vadne UPSce (asi opravnene, po
jeji vymene se neopakovaly), potom doslo k zaseku na disku ada1 pri
operaci X (viz dal), tak jsem disk ada1 vymenil (za jiny model jineho
vyrobce) - a pak doslo pri operaci X opet k temuz i s novym diskem.
To jsem zapomnel napsat :(

Diky moc za radu s watchdogd, nikdy jsem to zatim nepouzil a je to super
vec pro takovyhle situace!

No takze jsem watchdogd zapnul a nekolika pokusy overil, ze se zasek
opravdu da vyvolat akci X, coz je vzdalene spusteni salt-ssh
( https://docs.saltstack.com - konfiguracni management ). K zaseku
nedojde deterministicky, ale po par pokusech k nemu vzdycky doslo.
(cca dvakrat, trikrat jsem zasek + reset zopakoval, takze to fakt
vyvolat jde). Na jinych serverech se mi to nestalo ani jednou.

Takze prozatimni zaver je, ze salt-ssh dela neco, co diskove stresstesty
nedelaji. Prozatimni podezreni je, ze salt-ssh zjistuje "fakta" o
serveru a v ramci toho mj. dela treba "camcontrol identify adaX" pro
vsechny disky. A hned predtim a potom intenzivne saha na disky a sit,
tak by tam mohlo dojit k nejake situaci, kterou normalni stresstest
nenavodi.

No a ted pres vikend jsem teda zkusil jeste jednu vec:

Jelikoz k tomu zaseku doslo na _novem_ disku (opet ada1), pojal
jsem podezreni, ze je vadny ATA kanal na radici nebo kabel
(ten jsem nemenil). Zkusil jsem teda ada1 z mirroru vyhodit
a znovu spustit X. A opet se to zaseklo. Tentokrat uz mi ale
watchdog nepomohl, protoze se jelo jenom z jednoho disku, ktery
se sekl a timpadem uz ani neslo spustit zadny prikaz ani se prihlasit.
Takze vic uz jsem otestovat nestihl. Kazdopadne po tvrdem resetu
tlacitkem probehlo vraceni do mirroru + resilver v poradku, takze
samotne diskove operaci jsou asi v pohode.

Takze zaver pro me je, ze bud

1. salt-ssh dela neco netradicniho, v cem je proste ve FreeBSD chyba,
    ale pri jinem provozu se neprojevi

2. nejaka hw zavada kdovikde (ale je divny, ze ji neodhali stresstesty)

Prijde mi, ze uz jsem vycerpal tu "rezervu", kterou jak jsi psal, mam
na tyhle problemy zaplacenou, a asi prijde na radu jednani se zakaznikem
o koupi noveho serveru (coz vede k otazce, jake soucasne male servery
maji dobrou kompatibilitu s FreeBSD, ale tenhle dotaz kdyztak polozim
v novem vlakne).


Takze, Dane, jeste jednou dik moc za konzultaci.


Mirek


More information about the Users-l mailing list