Buďte S.M.A.R.T. a hlídejte si disky

28. 6. 2013

Doba čtení: 6 minut

Líbí se vám článek?
Podpořte redakci

Každý zkušený admin vám řekne, že data jsou důležitější než železo samotné. Stejný člověk vám pak také řekne, že dobrá záloha je základ spokojeného života. Je dobré také sledovat zdraví svého počítače a zejména pak jeho disku. Naštěstí k tomu existují výborné nástroje využívající technologii S.M.A.R.T.

S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) je monitorovací systém pro pevné disky. Pokud disk technologii SMART podporuje, zaznamenává si během provozu o sobě mnoho zajímavých údajů, ke kterým dovolí uživateli přístup. Pravidelná analýza zaznamenaných hodnot může pomoci odhalit a předejít mnoha problémům ještě dřív, než se opravdu vyskytnou.

Historie technologie S.M.A.R.T. se začala psát v roce 1995, kdy Compaq s podporou IBM, Seagate a Western Digital zahájil proces její standardizace. Oficiální technická specifikace standartu SMART pochází z roku 2004, a v dnešní době je nezbytnou součástí každého pevného disku.

Kromě logování SMART nabízí i možnost aktivního testování disku, takzvaný self-test. Kontrolu samotnou provádí opět firmware na zařízení, a to i za plného provozu bez znatelné ztráty výkonu.

Je důležité zmínit, že výše uvedené funkce jsou součástí firmware disku jako takového a nejsou nijak závislé na operačním systému. Záznamy z logu i z předchozích testování zůstávají k dispozici i po naformátování či přemístění disku do jiného počítače, což ocení především uživatelé dedikovaných serverů – můžou si jednoduše zkontrolovat, jak zdravé disky do svého nového serveru dostali.

S.M.A.R.T. atributy

Výrobci pevných disků definují soubor sledovaných parametrů a k nim prahových hodnot, jež by při normálním provozu neměly být nikdy překročeny. Každý atribut má surovou (raw) hodnotu, která obvykle odpovídá fyzikální jednotce, například stupně celsia nebo vteřiny, a pak normalizovanou hodnotu v rozsahu od 1 do 253 (kde 1 znamená nejhorší a 253 nejlepší).

Jak ale tahle data z disku dostat? Pomůže nám k tomu utilita smartctl, která je součástí balíku smartmontools, případné GUI programy zmiňovat nebudeme. Základní report dostaneme při spuštění následujícího příkazu:

# smartctl -a /dev/sda

Má-li kdo zájem o trochu detailnější informace, použije místo přepínače -a přepínač -x.

Důležité je také zmínit, jak se dostat ke SMART atributům na discích za hardwarovými RAID řadiči, jako je například 3ware, protože v případě jejich použití disk /dev/sda nemusí být vůbec fyzickým diskem jako takovým, ale například dvojicí zrcadlených disků. Dotazovat se na atributy /dev/sda by tudíž nemuselo vždy dávat smysl. Z toho důvodu je pak nutno dotazované zařízení adresovat zvláštním způsobem, který je popsaný v man smartctl a je různý pro různé raid řadiče.

Jako příklad uvedeme výpis SMART dat z prvních tří disků za 3ware řadičem:

# smartctl -a -d 3ware,0 /dev/twa0
# smartctl -a -d 3ware,1 /dev/twa0
# smartctl -a -d 3ware,2 /dev/twa0

V následující tabulce uzříte zredukovaný přehled atributů na jednom starším disku. Tato tabulka je součástí výpisu ze smartctl, nemá smysl ho zde uvádět celý:

ID# ATTRIBUTE_NAME          VALUE WORST THRESH WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     100   100   016    -           0
  2 Throughput_Performance  134   134   054    -           87
  3 Spin_Up_Time            134   134   024    -           540 (Average 615)
  4 Start_Stop_Count        100   100   000    -           230
  5 Reallocated_Sector_Ct   100   100   005    -           0
  7 Seek_Error_Rate         100   100   067    -           0
  8 Seek_Time_Performance   133   133   020    -           27
  9 Power_On_Hours          099   099   000    -           10312
 10 Spin_Retry_Count        100   100   060    -           0
 12 Power_Cycle_Count       100   100   000    -           23
192 Power-Off_Retract_Count 100   100   000    -           25
193 Load_Cycle_Count        100   100   000    -           25
194 Temperature_Celsius     130   130   000    -           46 (Min/Max 25/75)
196 Reallocated_Event_Count 100   100   000    -           0
197 Current_Pending_Sector  100   100   000    -           0
198 Offline_Uncorrectable   100   100   000    -           0
199 UDMA_CRC_Error_Count    200   200   000    -           1

Výpis obsahuje hodnoty sledované diskem /dev/sda. Jiný disk od jiného výrobce může sledovat hodnoty obecně jiné, ovšem v praxi jsou ty zde uvedené více méně běžné. Ve sloupcích VALUE, WORST a TRESH jsou normalizované hodnoty sledovaného parametru, VALUE udává aktuální stav, WORST nejvyšší hodnotu zaznamenanou za celou životnost disku, a TRESH je výrobcem stanovená mez, která by neměla být překročena. Pokud je 000, tak se referenční mez neuvádí.

Zajímavé jsou také hodnoty ve sloupci RAW_VALUE. Tento konkrétní disk už byl spuštěný 10312 hodin, což je něco přes jeden rok nepřetržitého provozu. Momentálně má disk teplotu 46 stupňů Celsia, nejvyšší naměřená teplota je 75 stupňů, zřejmě se někdy v minulosti vinou nedostatečného větrání serveru dost přehříval, což mohlo vést k jeho rychlejšímu poškození. Tento konkrétní kus už je sktečně vyřazen pro špatnou funkčnost.

Na otázku, které z parametrů použít pro odhadnutí, zda je disk blízko svého konce, neexistuje univerzální odpověď. To že je disk již víc než rok v provozu ( Power_On_Hours), nebo že byl 230× zapnut a vypnut ( Start_Stop_Count), ještě nemusí nutně znamenat problém, na druhou stranu čím je disk starší a používanější, tím větší je šance, že se projeví nějaké mechanické opotřebení. Záleží tedy na hodnotách všech parametrů, které pro disk posoudíme jako celek. Příliš vysoké hodnoty Reallocated_Event_Count by mohly naznačovat konkrétnější problém, protože ty udávají počet realokací způsobených vadnými sektory, ale zde je zase nutné sledovat spíš změnu v čase než aktuální surovou hodnotu, která může vypadat relativně vysoká i u nového a nepoužitého disku. Navíc některé disky jako je tento je patrně ani nepočítají.

Kromě logování naměřených nebo napočítaných parametrů jsou na disku zaznamenávány ještě informace o chybách při čtení či zápisu. U funkčního disku bez žádných takových záznamů smartctl nic navíc nevypíše, ovšem pokud na disku někdy k nějaké chybě někdy došlo, nachází se výpis těchto chyb hned pod tabulkou s atributy. Příklad následuje:

Error 32 occurred at disk power-on lifetime: 7755 hours (323 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 ff ff ff ef 00   3d+06:24:52.346  READ DMA EXT
  27 00 00 00 00 00 e0 00   3d+06:24:52.345  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00   3d+06:24:52.343  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00   3d+06:24:52.343  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00   3d+06:24:52.318  READ NATIVE MAX ADDRESS EXT

Detaily z tohoto výpisu jsou smysluplné především pro výrobce zařízení, pro běžného uživatele stačí jen informace, že k nějaké chybě došlo (zde je vypsaná již třicátá osmá chyba, takovýto disk je lepší co nejdříve vyměnit).

Self-test aneb samovyšetření

Jak již bylo naznačeno v úvodu, kromě logování S.M.A.R.T. nabízí i možnost aktivního testování disku, takzvaný self-test. Test disku provádí firmware na zařízení bez jakékoli součinnosti operačního systému, a to i za plného provozu bez znatelné ztráty výkonu (samozřejmě jen pokud je disk nějak normálně vytížen). Existuje několik typů testů, z těch nejpoužívanějších SHORT a LONG. Krátký ( SHORT) test je obvykle dokončen do desíti minut, dlouhý ( LONG) test může trvat několik hodin. Spuštění testu provedeme příkazem:

# smartctl -t short /dev/sda

Výsledky testu nebo stav jeho průběhu opět nalezneme ve výpisu z

# smartctl -a /dev/sda

Výpis o výsledcích testu může vypadat takto:

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     10313         -
# 2  Short offline       Completed without error       00%      5212         -

V případě nalezení chyb je ve sloupci LBA_of_first_error uvedena adresa sektoru první z nich.

Démon smartd

Součástí balíku smartmontools je i smart daemon smartd. Ten ve výchozím nastavení analyzuje SMART data každých 30 minut a loguje do syslogu případné nalezené chyby či problémy. Zároveň podporuje odeslání emailu na zadanou adresu v okamžiku, kdy uživatelem sledované hodnoty překročí mez. Konfigurace démona se provádí obvykle v /etc/smartd.conf, detailněji viz man smartd.conf.

Vstoupit do diskuse (51 názorů)

Tomáš Matějíček

Tomáš Matějíček je autorem několika více či méně známých projektů jak z oblasti operačních systémů, tak internetu. V současnosti samozvaný expert na Linux, Bash, PHP a MySQL.

SSD disky S.M.A.R.T. mají taky, jen tam nemají/neuvádí hodnoty, které souvisí s mechanickou funkčností. Na druhou stranu zase některé SSD uvádí počet reálně zapsaných dat. Hodnoty jako počet zapnutí, čas provozu a další jsou univerzální a platí i pro SSD.

Zopper

Sdílet

S.M.A.R.T. atributy

Self-test aneb samovyšetření

Démon smartd

Autor článku

Tomáš Matějíček

Nvidia App má problém: Podle testů grafikám GeForce o hodně zhoršuje výkon

Regulace podle NIS2: Klamali jste, stěžuje si operátorské sdružení APMS na NÚKIB

Online nakupování musí být pohodlné. Známe trendy v e-commerce pro rok 2025

Některé iPhony koupíte v EU jen do konce roku, bez USB-C už být nesmí

Válka o čipy, ekonomický pád Německa, Nvidia nebo Kotletova revoluce v AI. Tipy na knihy z…

Minimální mzda se v roce 2025 rekordně zvýší, zaručená mzda ale končí

Sbohem, Blu-ray. LG úplně ukončilo výrobu přehrávačů optických disků

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Trpaslíci, kam se podíváš. Když vánoční kampaň chytře propojí různé kanály

Buďte S.M.A.R.T. a hlídejte si disky

Sdílet

S.M.A.R.T. atributy

Self-test aneb samovyšetření

Démon smartd

Autor článku

Tomáš Matějíček

Mohlo by vás zajímat

Postřehy z bezpečnosti: zranitelnost v Google Chrome umožňuje vzdálené spuštění kódu

Pat Gelsinger skončil, nepodařilo se mu přepsat již napsaný osud Intelu

Distribuce elementary OS 8 aneb Linux oblečený v kabátku macOS

Intel Arc B580: slušná grafická karta s dobrým linuxovým potenciálem

Z našich webů

Nvidia App má problém: Podle testů grafikám GeForce o hodně zhoršuje výkon

Regulace podle NIS2: Klamali jste, stěžuje si operátorské sdružení APMS na NÚKIB

Online nakupování musí být pohodlné. Známe trendy v e-commerce pro rok 2025

Některé iPhony koupíte v EU jen do konce roku, bez USB-C už být nesmí

Válka o čipy, ekonomický pád Německa, Nvidia nebo Kotletova revoluce v AI. Tipy na knihy z…

Minimální mzda se v roce 2025 rekordně zvýší, zaručená mzda ale končí

Sbohem, Blu-ray. LG úplně ukončilo výrobu přehrávačů optických disků

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Trpaslíci, kam se podíváš. Když vánoční kampaň chytře propojí různé kanály

Dále u nás najdete

Na počítači od Apple nemusíte mít jen macOS

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Lidé kvůli svátkům přecházejí infarkt, nechtějí obtěžovat

Naše pleť je pruhovaná, lidské tělo svítí

Slovensko prošetří operátory, zvažuje omezení přídělů kmitočtů

OSA chce vybírat poplatky z dovezených telefonů

Neplaťte si IT kurzy sami, využijte dotace od EU

Beey dokáže rozpoznat, který poslanec mluví

Trpaslíci, kam se podíváš. Vánoční kampaň chytře propojila kanály

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Hrozbou číslo jedna pro české počítače je spyware Formbook

Jak okresní města mění koeficienty k dani z nemovitostí

Firma se vyhnula pokutě za nepodání kontrolního hlášení

GenAI nástroje pro tvorbu 3D světů přicházejí

Místo 25 formulářů budou firmy dávat jen jedno hlášení

V aukci se vydraží jen každá třicátá doména .CZ

V roce 2024 dostalo přidáno 46 % zaměstnanců, většina 2 až 5 tisíc

Deset let od první transplantace střeva: V IKEM se připravují na děti

Smyčka se utahuje – americké restrikce omezí další firmy

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí