RAM potrebujes jen pokud to nechces davat na disk (a chces to delat online a rychle) a pokud se bavime o nejakym pidisystemu. Deduplikaci muzes klidne delat treba tak, ze pri zapisu spocitas hash bloku dat a ten posles na uplne jiny zelezo do nejaky databaze, a kdyz se ti vrati ze nasel, tak misto zapisu jen nalinkujes prislusnej existujici blok. Samo prevazne to nejdriv nekam zapises a expost to presunujes na deduplikovany uloziste.
Zase tak moc ne, u ZFS cca 20 GiB pro online dedup stačí. Což je pro server v pohodě. Horší je to s výrazně kolísavým výkonem, každý hash hit totiž znamená read+compare, což u množství dat, která má DropBox, bude poměrně často. Když jsem dělal na projektu, kde se tohle řešilo pro big data, tak se používal online tagging (označení a zařazení podle hashe jako potenciálně dedup; to vyžaduje to množství RAM) + jednou za čas offline dedup (kde díky tomu, že se porovnává hodně bloků se stejným hashem najednou, to dost zrychlí disková cache).
Nevím, co máte zase kecy o NSA. Pokud by to byla NSA, tak s tím problém naprosto není, protože ty aspoň (v době různých islámských vygumovanců) dělají záslužnou práci.
Problém je, že data syslí komerční nadnárodní entity, které se nemusí nikomu zodpovídat - a nejhorším prostě přesunou data do jiného státu. To je ta největší hrozba pro svět!
prvni vysledky angazma Condoleezzy Riceove v Dropboxu
https://www.theguardian.com/technology/2014/apr/11/dropbox-condoleezza-rice-privacy-surveillance