Dovolte mi, abych citoval krásnou definici Big Data z wikipedie, se kterou jsem se v mírně jiném znění setkal před více než dekádou, kdy jsem se problematikou Big Data začal prefesionálně zajímat.
Big data is data sets that are so voluminous and complex that traditional data processing application software are inadequate to deal with them.
Je to vskutku krásná a elegantní definice a podle této jednoduché definice se o Big Data nejedná. Ten objem je směšný a použit je naprosto běžný software, který dnes na zpracování trochu většího objemu dat používá prakticky každý.
Čistě z teorie informace, zpracováním dat žádná nová informace nemůže vzniknout. Můžete ty data převracet tisíckrát naruby, ale nezískáte nic nového. Pokud vám při zpracování dat vzrůstá jejich objem, znamená to, že zhoršujete kvalitu kódování obsažené informace. Může to být praktické, třeba z hlediska rychlosti dalšího spracování, například indexace dat. Ale pořád je to jen vaše praktikalita a pokud vám tím objem dat narůstá řádově, tak rozhodně Big Data nemáte, protože, kdyby jste je měl, tak si to nemůžete dovolit.
Pokud vám zpracováním 100kr/s interně vzniká 10 000 kr/s je to chyba vaší architektury, vašeho designu a je to jádro pudla, co je na tom designu a na té architektuře špatně. A nejste sám, takových naprosto špatných a nesmyslných designů, už jsem za svou kariéru viděl a ještě uvidím.
Pokud by jste měl skutečná Big Data, tak vaší hlavní a nejdůležitější starostí bude jak snížit objem dat při zachování maximálního množství informace v nich obsažené. To že si můžete dovolit řádově zvýšit objem dat je samo o sobě důkazem, že Big Data nemáte. Už jen tento samotný fakt vás z používání pojmu Big Data diskvalifikuje.
Je těžké říct co jsou Big Data, ale v některých případech je velmi jednoduché poznat, co Big Data nejsou. Například použití naprosto běžných technologií, plýtvání datovými toky, řádový nárůst datových toků v průběhu zpracování atd. Lidé s tím pojmem žonglují aniž by znali jeho obash. Používají ho jako floskuli, jako marketingový pojem a každý je chce mít jan aby se nimi mohl chlubit. Jenže jako profesionál v oblasti vám řeknu, skutečná Big Data nechcet mít. Věřte mi. Nechcete. Skutečná Big Data jsou PITA.
Nazávěr se musím ohradit proti tvrzení, že navrhuji systém, který „zpracovává“ sebevětší množství dat tím způsobem, že je co nejrychleji maže. O mazání dat jsem nikde nepsal, to slovo jsem nikde nepoužil. Takže si toho slaměného panáka nechte od cesty. Nepodsouvejte mi své vlastní zcela nesmyslné představy. Samozřejmě, že nemůžete na běžné PC uložit přírůstek 56TB dat týdně. Jenže já sjem psal o zpracování a zpracovat je můžete. Uložit si je samozřejmě musíte do adekvátního úložiště a dokonce jsem to i explicitně napsal. Jenže to by jste si do mě nesměl projektovat své představy. A i k tomu obyčejnému PC jde připojit NAS a vzhledem k tomu datovému toku by bylo možné jak zálohovat vstupní stream ještě by mi spousta volného IO zbyla na výstup do další analytiky. (Mimochodem zrovna teď mám na zcela obyčejném PC uložených 8TB dat a počítám, že se mi tam nějaké 4TB vejdou. Magic. Kdybych tam místo toho jednoho SSD dal pár obyčejných komoditních SATA HD, tak bych tam tam ten směšný vstupní tok mohl klidně pár dní skladovat jako first level backup. Abych předešel nedorozumnění a dalším slaměným panákům, pro skutečné řešení bych doporučil pořádný NAS.)