Vlákno názorů k článku
OpenZFS umí paralelně synchronizovat více objektů, zvýšila se rychlost zápisu od radek - Vážně to někdo používá v seriózním podnikovém prostředí...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 11. 2023 15:26

    radek

    Vážně to někdo používá v seriózním podnikovém prostředí s ostrými daty? Když mám stovky disků a vysoké nároky, pak přece nepoužiju neco bez podpory někoho seriózního, ale použiju opravdové podnikové řešení. Ano, i za cenu kompromisů.

    12. 11. 2023, 15:26 editováno autorem komentáře

  • 12. 11. 2023 21:36

    Adam Kalisz
    Stříbrný podporovatel

    Jo, AWS FSx má variantu, která běží s OpenZFS. Nebo rsync.net využívá OpenZFS na prakticky vše. No a potom jsou tu různé výzkumné laboratoře, které mají celé řady racků, kde běží OpenZFS. Např. Modirum používá OpenZFS/ FreeBSD a na jejich strojích se realizuje část workflow kolem platebních karet. To mi přijde jako docela kritické.

    A nakonec třeba OrgPad provozujeme taky kompletně nad OpenZFS. Co do počtu a intenzity přístupů se rozhodně můžeme s některými systémy ve velkém korporátu měřit.

  • 13. 11. 2023 10:25

    radek

    Díky za reakci.

    O AWS FSx for OpenZFS jsem nevěděl. Asi proto, že jsem spíš hledal support pro řešení o kterých se píše tady v diskuzi (desítky disků) potažmo o řešení on-premises. Podobné je to s ostatními:

    rsync.net je cloudová služba a velice malá firma.

    Modirum nikde nepublikuje co na zfs dělá a zrovna to by mě zajímalo.

    OrgPad v pohodě, spadá do kategorie o které jsem psal - malá firma pro pár TB.

    0xide, to je USA crowdfundovaný startup, to na produkční data banky nebude stačit ještě plno let.

    Zajímavé je tedy jen to AWS, kde to vypadá, že tomu někdo věří. Sice jsem se dočetl o technických a supportních limitech, ale i přesto je to dobrá reference, nicméně pro mojí hypotetickou banku to není, ta si "instaluje zfs na svůj hv inhouse a chce support". Btw. AWS nabízí SLA 99.5 %.

  • 13. 11. 2023 11:57

    Adam Kalisz
    Stříbrný podporovatel

    Zcela jasně píšu, že Oxide Computer věří i finanční instituce. Oxide opravdu není crowdfundovaný, nevím, kde jste na to přišel. Je to velmi slušně zafinancovaný startup pro který pracují matadoři v odvětví. Celý jejich produkt je od začátku hodně zafokusovaný na bezpečnost od hardwaru až po virtuálky. Však si můžete poslechnout jejich podcast, kde spoustu věcí vysvětlují do poměrně velké hloubky, nebo projít jejich dokumentaci.

    Modirum provozuje desítky TB MySQL nad FreeBSD/ OpenZFS pokud vím. Hodně je zajímaly kompresní poměry atd. S Eirikem Øverbym jsem se bavil na vícero EuroBSDConech, existují záznamy z jeho přednášek, tak se můžete podívat, jaké výzvy řeší.

    rsync.net je možná malá firma, ale z hlediska úložné kapacity předpokládám, že budou mít možná desítky PB dat zákazníků. Na trhu jsou skoro 20 let. Nepodařilo se mi dohledat nějaké konkrétní číslo, ale myslím si, že když kupují JBODy po 45/60 discích, že ty PB poskládají poměrně rychle.

    Mimochodem, jestli znáte Nexentu nebo Delphix, tak ti poskytují kritický storage pro spíše větší a největší zákazníky. Polská firma FUDO Security třeba aspoň historicky dělala jump hosty se zaznamenáváním trafficu. Celé to bylo kryptograficky atestované a data se ukládala pomocí ZFS. Setup podle mě bude dost podobný jako u Modirum, protože FUDO PAM běželo také nad FreeBSD. https://download.fudosecurity.com/documentation/fudo/5_0/online_help/en/main/en/hardware.html
    Zrovna FUDO u minulého zaměstnavatele pěkně sloužilo, byl jsem s tím dost spokojený.

  • 13. 11. 2023 13:48

    radek

    Máte pravdu, 0xide není crowd-fundovaný, je to start-up. 0xide dodává appliance, což je fajn, ale není to podpora jako taková. Na ty finanční instituce bych se chtěl podívat - nenašel jsem žádnou referenci a jsem přesvědčen o tom, že ta reference nebude znít nějak jako: "využíváme 0xide pro kritická data", ale třeba se pletu.

    Delphix jako největší přispěvovatel a tahoun vývoje zfs věřit musí. Přesto nenabízí support jako takový. Od Delphixu bych totiž té podpoře byl ochotný věřit (ne zcela, ale dost).

    Celkově jsem mile překvapen, kolik firem nabízí nějaká řešení nad zfs, to jsem nečekal. Těším se (marně z mnoha důvodů) až bude zfs podporované stejně jako třeba ext, xfs nebo jako kdejaká databáze nebo aplikáč.

    Btw. sám na zfs provozuju několik storage s kapacitou třeba 24TB a 16. disky. Stojí mi na tom byznys a živím se tím. Nicméně až budu dělat další rozšíření, bude to něco tradičnějšího, zfs prostě nevyužiju a přináší mi jen problémy.

  • 20. 11. 2023 18:04

    Adam Kalisz
    Stříbrný podporovatel

    Prosím můžete pro ostatní napsat, co nad tím děláte a jaké problémy Vám ve spojení se ZFS vznikají? Bylo by to možná užitečné pro mě a moje podnikání, ale třeba i ostatní. Pokud to nechcete psát veřejně, moc bych ocenil, kdybyste mě zkontaktoval aspoň napřímo.

    Finanční instituce obyčejně moc svůj technologický stack nevytrubují, tím spíše něco, kde jsou mezi prvními.
    Oxide, Delphix, Nexenta, určitou dobu Joyent atd. jsou v podstatě firmy, které vyrostly na tom, že jim Sun odchoval celou řadu špičkových inženýrů.

    ZFS support na FreeBSD a Linuxu podle všeho prodává nezávisle třeba Klara Inc., nakonec řadu vývojářů zaměstnávají a další můžou nakontraktovat.

    ZFS je podporované hodně na FreeBSD, OpenIndiana apod., na Debianu to ještě celkem ujde, je na to a pár dalších věcí balíček. Ty tanečky navíc jsou dnes už opravdu minimální a třeba nám v OrgPadu to vyřešilo různé nepříjemnosti, které bychom jinými přístupy řešili nejspíš výrazně krkolomněji.

  • 20. 11. 2023 19:05

    radek

    Provozuju nad tím image virtuálů (KVM), exportuji jako NFS svazky a využívám pro backup a archiv Bacula. Původními motivy byly komprese a deduplikace a výkon. Problematický je upgrade jádra, bez kterého nemám support na OS (EL), dále podpora SElinux, kdy jsem ho byl po upgrade nucen vypnout, abych se dostal k datům, výkonově v mé konfiguraci zaostává za kdečím (XFS). Deduplikace byla výkonově nepoužitelná, compressratio mám někde kolem 1.48 v průměru. To je pro mě asi hlavní přínos. Žádné další vlastnosti nepoužívám - netroufnu si postavit nad tím nějaké řešení. Ten filesystém není použitelný v podnikovém prostředí, nemá žádný ekosystém, nepodporuje ho žádný výrobce podnikového operačního systému. Proto je tam kde je, na okraji, byť mě to může mrzet.

    Pravděpodobně je to mou neznalostí, nicméně jak píšu, za ty problémy mi to nestojí. Nechám to dožít, ale už to na nové řešení nepoužiju.

    Nechci se nikoho dotknout, ale FreeBSD, OpenIndiana apod., jsou sice bezvadný hračky, ale podobně jako ZFS to nikde nikdo nepoužívá, protože je to pro fandy. Nechci se ani přít o potřebách OrgPadu, vůbec netuším co za technologické výzvy tam řešíte, ale to je ten typ projektu, kam ZFS patří.

  • 22. 11. 2023 2:59

    Adam Kalisz
    Stříbrný podporovatel

    Stejně jako řada GNU/ Linux distribucí, i FreeBSD a OpenIndianu je nutné chápat jako framework, který se nastaví a případně rozšíří/ upraví pro potřeby projektu. FreeBSD (ani OpenBSD a NetBSD) bych si nedovolil označit za hračky, protože prostě vím, že to hračky nejsou. Na řadě míst jsou nasazené v komerční produkci v podstatě bez rozšíření, jen s upravenou konfigurací. Zrovna *BSD by řada distribucí Linuxu mohla závidět třeba detailnost a uživatelskou přívětivost dokumentace. OpenIndiana je prostě distribuce Illumosu pro desktop a integruje tak práci v tomto ekosystému. I když nevím o tom, že by někdo nad OpenIndianou bez dalších úprav stavěl podnikání, rozhodně to není hračka.

    S OpenZFS na klonech RHELu a interakcích se SELinuxem nemám zkušenosti. Na Debianu jsem problémy s upgrady kernelu, či rovnou celé distribuce s Root-on-ZFS nezaznamenal.

    O deduplikaci na (Open)ZFS všichni co se ZFS nějak zabývali ví, že spotřebovává hodně paměti. Nakonec to třeba FreeBSD má přímo v dokumentaci s varováním: https://docs.freebsd.org/en/books/handbook/zfs/#zfs-zfs-deduplication v knihách Michaela Warrena Lucase je to také velmi jasně řečeno, že to v drtivé většině případů není dobrý nápad zapínat: https://mwl.io/nonfiction/os#fmzfs
    Samozřejmě, Red Hat OpenZFS nepodporuje, takže pokud je esenciální support, tak Vám OpenZFS neprojde. OpenZFS snad podporuje Canonical v Ubuntu, takže pokud by Vaše aplikace připouštěla provoz tam, tak by možná byla i cesta, jak získat oficiální podporu. Mimochodem, i v dokumentaci kernel týmu Ubuntu je deduplikace zcela jasně nedoporučená: https://wiki.ubuntu.com/Kernel/Reference/ZFS

    Pro virtuály je dobrý nápad, dělat každému vlastní dataset s raw image/ či ZVOL. Pokud má virtuálka více oddílů, udělejte více datasetů ideálně zanořených v jednom rodičovském datasetu, pokud chcete dělat konzistentní snapshoty celé VM. Zde je dobré nastavit správně aspoň recordsize (pro virtuálky asi obecně na 4k) a vypnout atime, v novějších vydáních ZFS může být zajímavé přejít z komprese XZ na ZSTD-fast nebo tak, to si naměřte. Na fyzickém hardwaru s rotujícími disky bych zvážil vyčlenit metadata do separátního VDEVu s mirrorem nad třemi NVMe. Také bych zvážil L2ARC (také ideálně nad NVMe), hlavně pokud máte málo RAM.

    Nějaké tipy i ohledně výkonu píšu v článku: https://www.root.cz/clanky/konverze-debianu-ze-souboroveho-systemu-ext4-na-moderni-zfs/

    ZFS je nutné výrazně více znát, než běžné souborové systémy jako EXT4 a XFS, což mimochodem také píšu hned v motivaci článku. Je to systém mnohem podobnější databázi v tom, že prostě vyžaduje aspoň základní porozumění a nastavení. Mikrobenchmarky ZFS skoro určitě nevyhraje, ale v reálném provozu nakope klasickým souborovým systémům rostě zadek, protože zálohy pomocí snapshotů a zfs send/ receive můžou být o dost levnější, než poměrně naivní zálohy pomocí pomocí Baculy/ Bareos. Ano, neříkám, že je to bez námahy to iniciálně rozchodit a získat s tím nějaký komfort, ale odměnou Vám může být, že najednou můžete držet backupy třeba po hodině po dobu několik dní, kde byste dřív měl zálohy jen třeba po dnech. Výkonnostně to nemá na ZFS efekt.
    Nakonec můžete snapshoty využít i třeba pro klony, když si chcete něco poměrně rychle zkusit a nejste si jistý, jaký by to mělo efekt, nebo když potřebujete z obrazu virtuálky vytáhnout omylem smazaný soubor.
    Strašně záleží, co přesně potřebujete a určitě jsou nasazení, kde XFS dává perfektní smysl, je to dobrý, odladěný souborový systém. Rozhodně bych se v takovém případě podíval, že má zapnuté kontrolní součty metadat a reflinky.
    Já už bych ale za sebe asi ten krok z mého pohledu zpět od ZFS k XFS na bare metal asi nešel, pokud bych vyloženě nemusel. Zvykl jsem si na vymoženosti ZFS.

  • 22. 11. 2023 10:24

    radek

    Děkuju za vyčerpávající odpověď. Chápu vše co píšete, rozumím tomu přístupu a je mi blízký a byl a je to jeden z důvodů proč ZFS používám. Nic to však nemění na mém názoru, že ZFS do podnikového prostředí pro kritická data nepatří a je vhodné jen tam, kde není potřeba plně supportovaný stack technologií.

    Všechny skvělé vlastnosti ZFS, které jste zmínil, i které ne, jsou pro mě víceméně zbytečné a hodí se spíše do prostředí, které má mnohem vyšší nároky než moje nasazení. Kdo POTŘEBUJE snapshoty po hodině? SMB asi těžko, velký byznis si nedovolí ZFS a sáhne po filesystému, který je v jádře a podporovaný. Pokud nějaká vlastnost chybí, řeší se např. aplikačně.

    Chápu Vaši chuť provozovat ZFS a využívat plno vlastností, které jiné filesystémy nemají, nebo je implementují jinak.

    Btw. jsem ve spojení s pány z Klara inc. a diskutuji možnosti supportu našich storage serverů. Vedle toho i s vlastníkem rsync.net debatujeme na téma finančních garancí jeho společnosti abychom byli schopni využít jejich služeb pro část našich dat. Tady Vám patří poděkování za doporučení.