SSD pro bsd

Cejka Rudolf cejkar at fit.vutbr.cz
Thu Jun 2 14:04:02 CEST 2016


Dan Lukes wrote (2016/06/01):
> Jo, vim o nekom, kdo prisel o RAID5 prestoze pole melo 'spare' disk. 
> Chcipnul prvni disk, RAID5 presel do degradovaneho modu, aktivoval spare 
> a zacal dopocitavat. A o necelou pulminutu pozdeji zdechnul druhy disk a 
> bylo vymalovano ...

Ahoj, nebudu to teď psát osobně, ale obecně - dlouhodobě bojuju se dvěma
předsudkama, které se nedaří z lidí vytlouct, tak třeba trocha osvěty
pomůže ;o)

1) První, když chci mít RAID, musím se o něj starat. Tj. ne "přestože pole
   mělo spare disk" (= jednou tam zapíchnu disk navíc a dál se nestarám),
   ale "přestože pole dělalo pravidelný patrol read a consistency check"
   (= dělají se pravidelné plné kontroly čitelnosti všech sektorů všech
   disků a kontroly konzistence kontrolních součtů a výstupy kontroluju).
   Nebo u všech disků aspoň pravidelný smart long test, když už nic jiného.
   A týká se to jak HW RAIDů, tak i SW RAIDů (a je pravda, že u SW se na
   tuto nutnost zapomíná ještě častěji), nebo i jednotlivých disků. A aspoň
   jednou za měsíc, ale my používáme zásadně jednou týdně. Pak je minimální
   pravděpodobnost, že rebuild selže. Kdo ale má v RAIDu disky, u kterých
   se některé sektory nezkoušely číst nebo zapisovat několik let, tak se
   vůbec nemůže divit, že se mu rebuild nepovede. Je nutné si totiž mimo jiné
   uvědomit, že u datového přístupu je pravděpodobnost chyby čtení mnohem
   nižší, protože se čtou jen data zapsaná "teprve nedávno", kdežto
   u rebuildu se čtou všechny sektory všech disků, tj. musí se přečíst i ty
   sektory, které třeba ještě nikdy nebyly uživatelem přepsané, pouze
   inicializované výrobcem. (Ano, existuje i rebuild bez kontroly ECC
   s ochotou přeskočit pár nečitelných sektorů, jenže to už nikdo neví,
   která data jsou správná a která ne, a to je pak zralé na překopírování
   na jiný RAID s nadějí, že chyby byly jen u nepoužívaných sektorů.)
   A pokud se u RAIDu pravidelné kontroly čitelnosti a konzistence nedělaly,
   je ztráta dat spíš jen otázkou času, než čehokoli jiného.
   Jestli spare disk umožní okamžitý rebuild, nebo se chvíli počká na výměnu
   disků ručně, to už u RAIDu, který by měl umět fungovat několik let,
   nehraje tak velkou roli - spíš to asi bude otravovat admina, který se
   navíc nemusí při vytahování trefit.

2) A druhý, RAID v žádném případě nemůže nahradit dislokované zálohování.
   Stačí pomyslet buď na klasiku požár, potopa, zloděj či dnes už i
   ransomware, nebo mnohem zábavnější problémy typu "odešel 10 let starý
   řadič". Schválně, budete shánět novější typ a budete doufat, že se disky
   v tom novém chytí (nejlépe po akvizici jedné firmy druhou), nebo začnete
   shánět, jestli někdo nemá stejný řadič vyřazený a schovaný v šuplíku a
   nebude ochoten vám ho dát? :o)

-- 
Rudolf Cejka <cejkar at fit.vutbr.cz> http://www.fit.vutbr.cz/~cejkar
Brno University of Technology, Faculty of Information Technology
Bozetechova 2, 612 66  Brno, Czech Republic


More information about the Users-l mailing list