RAID5 som skúšal pred pár rokmi a preto ho zásadne nedoporučujem. RAID1 je proti tomu v pohode. Toto sú príčiny:
- z RAID5 nevedel grub bootovať (z RAID1 áno),
- všetky výpočty voľného priestoru, ako df, btrfs fi df a podobne vyhadzovali pri RAID5 blbosti.
- po pár mesiacoch sa RAID5 zosypal tak, že nebol schopný ani konverzie na RAID1.
- RAID1 mi funguje niekoľko rokov na jednom serveri a v pohode.
Mno, vývojáři zatím nedoporučují RAID5 používat:
https://btrfs.wiki.kernel.org/index.php/Status
"Unstable: do not use for other then testing purposes, known severe problems, missing implementation of some core parts"
Treba citat cele:
RAID56 Unstable tbd n/a write hole still exists (see below)
No a nizsie sa pise:
RAID56
Some fixes went to 4.12, namely scrub and auto-repair fixes. Feature marked as mostly OK for now.
Further fixes to raid56 related code are applied each release. The write hole is the last missing part, preliminary patches have been posted but needed to be reworked. The parity not checksummed note has been removed.
Používám RAID6 asi 5 nebo 6 let na 6 discích, ze začátky bylo hodně problémů, kernel panics, zatuhnutí PC. jednou jsem přišel o všechna data. Přešel jsem na styl, abych měl vždy, co nejaktuálnější kernely. Poslední 3-4 roky nemám žádné problémy a to jsem i několik disků měnil. Jenom mi trochu vadí, že scrub trvá týden a ten týden je opravdu utrpení ten server používat, všechno je hrozně pomalé.
Ahoj, já v roce 2015 nadšeně zkoušel btrfs raid5, ale měl jsem problémy, možná to souviselo i s tím, že jsem měl nějaký podivný HW řadič. Každopádně jsem se chtěl k btrfs raid5 vrátit, ale stále není označený za stable. Tvoje zkušenosti jsou tedy takové, že používáš raid6 nad produkčními daty? A stačí jen používat vždy nový kernel? Na jakém systému jedeš?
Díky
No, produknčními bych neřekl, nad domácími daty, filmy, videa, hudba, běží tam nějaké servery, pošta, nextcloud, mastodon, nahrává ze satelitu. Používám openSUSE Tumbleweed. Co já vím, tak jediná chybějící věc je write hole, ale nesetkal jsem se s ní i přes výpadky proudu nebo vypínání natvrdo, když bylo období, kdy mi server zatuhával, kvůli threadripperu.
Problem RAID5 je v tom, ze v nom nie su peniaze.
Pre "velke" data sa pouzije NAS/SAN, kde sa nativny filesystem neriesi, to je zalezitost vyrobcu, pre este vacsie data distribuovane systemy, ktore si chcu manazovat disky same (ala Ceph).
Pre "male" systemy RAID5 netreba, napr. kontajnerizacny workload co pouziva Facebook si vystaci s jednym fyzickym diskom, ked node odide, nic sa nedeje. Pokial sa nieco da do stanice, tak skor RAID1/10, 5 urcite nie.
Tak zostava RAID5 pre domacich nadsencov, homelabistov a podobne use cases, ktori chcu pomer kapacita/cena RAID5, ale ktori vyvoj neutiahnu.
Myslím že ani jedna z nich RAID 5 nepoužívá. Je po tom malá poptávka, v tomto low-endu je každý disk navíc velkou částí celkového rozpočtu (stavěl jsem teď několik custom 6×8T NASů a představa, že by se jeden disk jen tak obětoval na oltář parity, je nesmysl). Dělá se maximálně RAID1, a i to je často overkill - redundance se zajišťuje na aplikační úrovni, protože typicky jen malou část dat chcete pojistit. Např. pár set GB záloh, fotek, dokumentů a podobně. Zbylých 10 tera filmů a midget porna RAIDovat potřeba není.
Taková firma není nikde v blízkosti trhového segmentu, na kterém se pohybují výše uvedené společnosti
To je bohužel prokletí pro Btrfs, není dostatek těch, kteří by do toho investovali aspoň svůj čas. Komerční firmy raději vyjdou ze ZFS, které je opravdu funkčnější a navíc má lákavější licenci. Třeba se jednou nějaká síla najde a budeme mile překvapeni.
Zajímavý článek / seriál článků.
Pokud bych ale mohl poprosit, bylo by fajn pokud by v jednom z dalších článků bylo rozebráno chování v případě výpadku disk, a další pak s ukázkou opravy/obnovy pro některé případy.
Co tak lehce sleduju různá fóra, co kdo řešil atp. tak by mne zajímalo například:
* jak se projeví/může projevit výpadek nebo chyba za běhu systému (pád aplikace/systému, unmount? nebo běží až do příštího restartu a pak nenamountuje(bez degraded volby) )
** - v případě že je ještě dost disků
** - v případě že je málo disků na zaručenou redundanci (např. když umře druhý disk z
dvoudiskového Raid1)
** - výpadek dalšího disku během rebalance (např pokud by bylo 10disků v raid1)
** - Jak se v situacích výše chovají nové režimy raid1c3 / raid1c4?
** Jak dá btfrs vědět o výpadku disku (pro monitoring)
** Jak dá btfrs vědět o problémech které se ale podařilo opravi (pro monitoring - statistika)
* Jestli je stále v případě kdy nelze zajistit redunndanci (např vypadne druhý disk z dvoudiskového raid1) možno přimountovat v RW jen jednou? A jak jsou na tom v tomto ohledu nvé režimy raid1c3 raid1c4?
Informace se dají najít různě po webu, ale většinou jsou starší nebo nekompletní , a většinou se řeší až násldná situace kdy disk nejde namountovat.
Aktuální přehled o chování během výpadku, a během prvních chvílích pokusů o diagnostiku a opravu(to je možná na samostatný článek) by myslím tomuto seriálu slušel.
Možná mi tu někdo vysvětlí následující situaci v Ubuntu 18.04:
btrfs fi show:
Label: none uuid: 55c2cb51-94bf-2176-bf80-9c0c87bd6504
Total devices 5 FS bytes used 119.54GiB
devid 1 size 418.81GiB used 273.06GiB path /dev/sda6
devid 2 size 418.81GiB used 273.06GiB path /dev/sdb6
devid 3 size 418.81GiB used 273.06GiB path /dev/sdc6
devid 4 size 418.81GiB used 273.06GiB path /dev/sdd6
*** Some devices missing
mount:
/dev/sda6 on /storage type btrfs (rw,noatime,degraded,compress=lzo,space_cache,subvolid=5,subvol=/)
(viz degraded)
btrfs device delete missing /storage/
ERROR: error removing device 'missing': no missing devices found to remove
Problém RAID 5 (stabilní / nestabilní) je tak trochu problémem z dřívější doby, kdy byla malá kapacita disků, dnes je už velká a asi stačí RAID 1 i pro SOHO. Ale velice podobná je i situace s příkazem replace pro jednodušší náhradu disku, pokud na nahrazovaném disku ještě jde přečíst superblok. Bezproblémové využití replace bez následné magie by správu btrfs významně zefektivnilo !! Ono to nějak funguje, ale statusové informace po jeho provedení nejsou úplné, zdánlivě je vše v pořádku, ale doporučuje se použít ještě příkaz dmesg a pak se objeví chyby. Jak to tedy je - v jaké situaci se replace může použít bez obav, v jakých případech je jen pro experty a kdy je třeba se mu obloukem vyhnout? Takovéto příkazy poněkud devalvují jinak vynikající filesystém btrfs.