Testovat spolehlivost úložných zařízení není snadné, potřebujete totiž velký statistický vzorek. Tento problém odpadá u Googlu, který za posledních šest let sledoval životnost několika miliónů serverových SSD a rozhodl se data zanalyzovat a podělit se o výsledky. Podrobnosti jsou k dispozici ve zprávě Flash Reliability in Production: The Expected and the Unexpected, v článku si shrneme to nejzajímavější.
Byly použity SSD od čtyř různých nejmenovaných výrobců a data říkají, že jejich spolehlivost se prakticky neliší. To na druhou stranu může být dáno i tím, že se používají už prověřené značky. Co je ještě zajímavější, rozdíl není ani mezi MLC (2 bity na buňku) a SLC (1 bit) paměťmi, přestože druhé jmenované jsou dražší a často propagované jako spolehlivější.
Zajímavé je také to, že na spolehlivost je ovlivněna nejen opotřebením, ale i samotným stářím disku nezávisle na skutečném opotřebení. Obecně lze říct, že přestože jsou SSD méně chybové než klasické plotnové disky, chyby u SSD bývají závažnější a častěji způsobují problémy samotnému uživateli – ztrátu dat atp.
20–63 % disků se během prvních čtyř let v provozu setká alespoň s jednou neopravitelnou chybou, což z těchto chyb dělá nejběžnější netransparentní chyby v těchto discích. Tyto chyby ovlivňují 2–6 z 1000 pracovních dnů disku.
S opravitelnými chybami se pak disky setkávají prakticky denně.
Lze tedy chybovost nějak rozumně predikovat? Standardní ukazatel RBER (raw bit error rate) je nevhodný, protože jeho vyšší hodnota se v realitě neprojevuje vyšším počtem neopravitelných chyb v budoucnu. A o ty nám jde zejména. Také neexistuje vztah mezi velikostí UBER (uncorrectable bit error rate) a počtem čtení, takže tento ukazatel také nelze vhodně použít pro predikci.
Oba ukazatele se zvyšují s počtem cyklů zápisu, ale závislost je lineární. Míra růstu hodnoty ukazatelů se nijak zvlášť nemění ani poté, co disk přesáhne počet cyklů zápisu udávaný výrobcem. V tomto ohledu jsou tedy SSD disky poměrně předvidatelné. S exponenciálním či jinak prudkým nárůstem chyb v souvislosti s opotřebením se nesetkáváme.
Disky mají buď jen pár, nebo hodně chybných bloků. To naznačuje, že blížící se selhání čipu může být predikováno podle dosavadního počtu chybných bloků (a možná i dalších faktorů). Disky s větším množstvím chybných bloků z výroby pak mají větší šanci, že se v nich při provozu objeví větší množství chybných bloků a další chyby,
zní asi to nejdůležitější.
Podobně velký výzkum z oblasti pevných disků asi neexistuje, ale slušný náhled poskytují statistiky společnosti Backblaze. Ty např. ukazují, že zdaleka nejvíc problémů mají disky značky Seagate. Chybovost těchto disků nakonec vyústila i v žalobu, která Seagate viní za neschopnost dodat bezproblémové disky.