Spolehlivost SSD v praxi: stáří je důležitější než značka

2. 3. 2016
Doba čtení: 2 minuty

Sdílet

Google zveřejnil informace z výzkumu miliónů SSD, které na svých serverech používal. Spolehlivost se mezi značkami neliší a nevylepšuje ji ani oslavovaná technologie SLC. Problém značí chybné bloky z výroby.

Testovat spolehlivost úložných zařízení není snadné, potřebujete totiž velký statistický vzorek. Tento problém odpadá u Googlu, který za posledních šest let sledoval životnost několika miliónů serverových SSD a rozhodl se data zanalyzovat a podělit se o výsledky. Podrobnosti jsou k dispozici ve zprávě Flash Reliability in Production: The Expected and the Unexpected, v článku si shrneme to nejzajímavější.

Byly použity SSD od čtyř různých nejmenovaných výrobců a data říkají, že jejich spolehlivost se prakticky neliší. To na druhou stranu může být dáno i tím, že se používají už prověřené značky. Co je ještě zajímavější, rozdíl není ani mezi MLC (2 bity na buňku) a SLC (1 bit) paměťmi, přestože druhé jmenované jsou dražší a často propagované jako spolehlivější.

Zajímavé je také to, že na spolehlivost je ovlivněna nejen opotřebením, ale i samotným stářím disku nezávisle na skutečném opotřebení. Obecně lze říct, že přestože jsou SSD méně chybové než klasické plotnové disky, chyby u SSD bývají závažnější a častěji způsobují problémy samotnému uživateli – ztrátu dat atp.

20–63 % disků se během prvních čtyř let v provozu setká alespoň s jednou neopravitelnou chybou, což z těchto chyb dělá nejběžnější netransparentní chyby v těchto discích. Tyto chyby ovlivňují 2–6 z 1000 pracovních dnů disku. S opravitelnými chybami se pak disky setkávají prakticky denně. 

Lze tedy chybovost nějak rozumně predikovat? Standardní ukazatel RBER (raw bit error rate) je nevhodný, protože jeho vyšší hodnota se v realitě neprojevuje vyšším počtem neopravitelných chyb v budoucnu. A o ty nám jde zejména. Také neexistuje vztah mezi velikostí UBER (uncorrectable bit error rate) a počtem čtení, takže tento ukazatel také nelze vhodně použít pro predikci.

Oba ukazatele se zvyšují s počtem cyklů zápisu, ale závislost je lineární. Míra růstu hodnoty ukazatelů se nijak zvlášť nemění ani poté, co disk přesáhne počet cyklů zápisu udávaný výrobcem. V tomto ohledu jsou tedy SSD disky poměrně předvidatelné. S exponenciálním či jinak prudkým nárůstem chyb v souvislosti s opotřebením se nesetkáváme.

ict ve školství 24

Disky mají buď jen pár, nebo hodně chybných bloků. To naznačuje, že blížící se selhání čipu může být predikováno podle dosavadního počtu chybných bloků (a možná i dalších faktorů). Disky s větším množstvím chybných bloků z výroby pak mají větší šanci, že se v nich při provozu objeví větší množství chybných bloků a další chyby, zní asi to nejdůležitější.

Podobně velký výzkum z oblasti pevných disků asi neexistuje, ale slušný náhled poskytují statistiky společnosti Backblaze. Ty např. ukazují, že zdaleka nejvíc problémů mají disky značky Seagate. Chybovost těchto disků nakonec vyústila i v žalobu, která Seagate viní za neschopnost dodat bezproblémové disky.

Autor článku

Bývalý redaktor serveru Root.cz, dnes produktový manažer a konzultant se zaměřením na Bitcoin a kryptoměny.