Názor k článku Jak nikdy nespouštět službu, aneb kdo posílá tajemný SIGKILL? od Pichi - Dovolte mi, abych citoval krásnou definici Big Data...

Článek je starý, nové názory již nelze přidávat.

23. 1. 2018 9:37

Pichi

Dovolte mi, abych citoval krásnou definici Big Data z wikipedie, se kterou jsem se v mírně jiném znění setkal před více než dekádou, kdy jsem se problematikou Big Data začal prefesionálně zajímat.

Big data is data sets that are so voluminous and complex that traditional data processing application software are inadequate to deal with them.

Je to vskutku krásná a elegantní definice a podle této jednoduché definice se o Big Data nejedná. Ten objem je směšný a použit je naprosto běžný software, který dnes na zpracování trochu většího objemu dat používá prakticky každý.

Čistě z teorie informace, zpracováním dat žádná nová informace nemůže vzniknout. Můžete ty data převracet tisíckrát naruby, ale nezískáte nic nového. Pokud vám při zpracování dat vzrůstá jejich objem, znamená to, že zhoršujete kvalitu kódování obsažené informace. Může to být praktické, třeba z hlediska rychlosti dalšího spracování, například indexace dat. Ale pořád je to jen vaše praktikalita a pokud vám tím objem dat narůstá řádově, tak rozhodně Big Data nemáte, protože, kdyby jste je měl, tak si to nemůžete dovolit.

Pokud vám zpracováním 100kr/s interně vzniká 10 000 kr/s je to chyba vaší architektury, vašeho designu a je to jádro pudla, co je na tom designu a na té architektuře špatně. A nejste sám, takových naprosto špatných a nesmyslných designů, už jsem za svou kariéru viděl a ještě uvidím.

Pokud by jste měl skutečná Big Data, tak vaší hlavní a nejdůležitější starostí bude jak snížit objem dat při zachování maximálního množství informace v nich obsažené. To že si můžete dovolit řádově zvýšit objem dat je samo o sobě důkazem, že Big Data nemáte. Už jen tento samotný fakt vás z používání pojmu Big Data diskvalifikuje.

Je těžké říct co jsou Big Data, ale v některých případech je velmi jednoduché poznat, co Big Data nejsou. Například použití naprosto běžných technologií, plýtvání datovými toky, řádový nárůst datových toků v průběhu zpracování atd. Lidé s tím pojmem žonglují aniž by znali jeho obash. Používají ho jako floskuli, jako marketingový pojem a každý je chce mít jan aby se nimi mohl chlubit. Jenže jako profesionál v oblasti vám řeknu, skutečná Big Data nechcet mít. Věřte mi. Nechcete. Skutečná Big Data jsou PITA.

Nazávěr se musím ohradit proti tvrzení, že navrhuji systém, který „zpracovává“ sebevětší množství dat tím způsobem, že je co nejrychleji maže. O mazání dat jsem nikde nepsal, to slovo jsem nikde nepoužil. Takže si toho slaměného panáka nechte od cesty. Nepodsouvejte mi své vlastní zcela nesmyslné představy. Samozřejmě, že nemůžete na běžné PC uložit přírůstek 56TB dat týdně. Jenže já sjem psal o zpracování a zpracovat je můžete. Uložit si je samozřejmě musíte do adekvátního úložiště a dokonce jsem to i explicitně napsal. Jenže to by jste si do mě nesměl projektovat své představy. A i k tomu obyčejnému PC jde připojit NAS a vzhledem k tomu datovému toku by bylo možné jak zálohovat vstupní stream ještě by mi spousta volného IO zbyla na výstup do další analytiky. (Mimochodem zrovna teď mám na zcela obyčejném PC uložených 8TB dat a počítám, že se mi tam nějaké 4TB vejdou. Magic. Kdybych tam místo toho jednoho SSD dal pár obyčejných komoditních SATA HD, tak bych tam tam ten směšný vstupní tok mohl klidně pár dní skladovat jako first level backup. Abych předešel nedorozumnění a dalším slaměným panákům, pro skutečné řešení bych doporučil pořádný NAS.)
- Zobrazit celé vlákno

Zprávičky

GIMP oslavil 29 let

Bezpečnostní chyba v balíčku Needrestart umožňuje ovládnout systém

Jádro Linux 6.13 přinese podporu Raspberry Pi Camera Front End

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Názor k článku Jak nikdy nespouštět službu, aneb kdo posílá tajemný SIGKILL? od Pichi - Dovolte mi, abych citoval krásnou definici Big Data...

Zprávičky

GIMP oslavil 29 let

Bezpečnostní chyba v balíčku Needrestart umožňuje ovládnout systém

Jádro Linux 6.13 přinese podporu Raspberry Pi Camera Front End

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Dále u nás najdete

Youtubeři a influenceři se musí registrovat

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Obsah vytvořený pomocí AI vidíte každý den. Jen to nevíte

Vyhněte se chybám a prodlužte životnost USB flash disku

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Co dělat, když vám zavřou dodavatele IT služeb?

World of Warcraft slaví 20 let a stále se hraje

Šlamastika kolem pozastavené výplaty důchodu

Stow vytváří regálové systémy pro Alzu, Lidl i Rohlík

Chrome OS se zřejmě promění v Android

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Děti, které nemají praktika, mohou jít do nemocničních ordinací

Policie zatkla provozovatele tržiště pro DDoS útoky

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Nejen Coca-Cola, ale i Lidl má červený vánoční kamion

Vánoční slevy operátorů? Daleko za očekáváním