Názor k článku
OpenZFS bude mít Fast Dedup od kdave_ - Souhlas s tím, že se vyplatí cíleně, tj....

  • Článek je starý, nové názory již nelze přidávat.
  • 19. 2. 2024 15:25

    kdave_

    Souhlas s tím, že se vyplatí cíleně, tj. mám už dopředu představu o potenciálním množství duplicitních dat. Na tohle je třeba nástroj https://github.com/markfasheh/duperemove, předhodím tomu soubory a najde do co jde zdeduplikovat. Výhody a nevýhody jsou asi zřejmé, za mě vidím hlavně ty výhody, že to můžu pustit, kdy se to hodí, inkrementální k tomu přidávat další soubory, které se zdeduplikují s původními.

    Ten globální přístup k on-line deduplikaci v btrfs asi nikdy nebude. Byly nějaké předběžné verze, ale celkově to tolik zesložití IO cesty, je to v jádře (hůř se řeší okrajové stavy a konfigurace) a ten přínos je přinejmenším diskutabilní. Viz https://www.usenix.org/conference/fast11/study-practical-deduplication "A Study of Practical Deduplication", studie z praxe, IIRC vychází průměrná úspora (jen) nějakých 20%.

    Nicméně globální deduplikace se dá dosáhnout i mimo kernel, viz např. https://github.com/Zygo/bees to řeší skenováním filesystému a udržováním seznamu hashů. Potřebuje to podporu od filesystému pro hledání blok -> soubor.