Definic toho, co vlastně již jsou nebo nejsou Big data (překlad „Velká data“ se téměř nepoužívá), je celá řada. Například Gartner uvádí, že jde o takové soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. Pro každého samozřejmě může být onen rozumný čas něco jiného. Zcela jiné požadavky budeme mít na výpočty srážek dvou galaxií a na rychlou lékařskou nebo ekonomickou analýzu, kde jde o vteřiny.
Podle stejné společnosti se nyní Big data nacházejí na vrcholku hype cyklu – všichni o nich mluví, píší, ale jen velice málo se skutečně zpracovávají a používají. V tomto ohledu jde tak zřejmě o oblast, která na nějaké větší zpracování a uchopení do velké míry ještě čeká. Obecně je možné říci, že problém Big data může být ve třech základních rovinách – objemu, který je třeba zpracovat, problematické struktuře dat nebo v nárocích na rychlost.
Podle toho, o jakou z těchto tří oblastí nám jde primárně, se pak liší jednotlivé přístupy. Na tomto místě je nutné zdůraznit, že nejde jen o problém softwarový, ale silně zasahuje také do hardwaru. Pro vědu jsou důležité nejen nové databázové přístupy, ale také vhodná infrastruktura v oblasti rozmístění a kooperace jednotlivých jader. Můžeme tak vidět cestu superpočítačových center (které u nás nejsou a asi ani nikdy pořádně nebudou, i když jedno takto jmenující se se staví v Ostravě) a pak distribuované výpočty v gridových sítích jako je WLCG z CERN či evropská EGI.
V předchozím článku jsme se věnovali internetu věcí, který je spojen s obrovským nárůstem datového provozu na sítí. Pěkným příkladem jsou stále větší a robustnější senzorické sítě, jejichž data je třeba nějakým efektivním způsobem vyhodnocovat a zpracovávat. Jiným příkladem mohou být analýzy sociálních sítí, které se dnes silně rozvíjí, které jsou specifické svojí nestrukturovaností a dynamikou. V dnešní době je velký vliv také vědeckých experimentů, které generují obrovské množství dat náročných na výpočty. Díky tomu může být téma Big data široce rozkročené od vědy, přes medicínu až po krajně komerční aplikace.
Jednou z cest jsou databáze
Jednou z cest, jak vyřešit (alespoň částečně) problém s Big data, je užití NoSQL databází. Ty umožňují zpracovávat data bez jasné struktury, řešit závislosti mezi jednotlivými objekty nebo umožňují rychlejší vyhledávání, i když samozřejmě také zde platí, že nic není zadarmo a klasické SQL v řadě případů představuje důležitou součást komplexních řešení.
Jedním z příkladů rychlý databází jsou Key-value databáze, které jsou založeny na myšlence, že ke každému klíči je přiřazena určitá hodnota. Databázový systém umí v zásadě jen na otázku na klíč, vrátit informaci o hodnotě, přidávat a upravovat záznamy atp. Vyhledávání je tedy možné jen pomoci klíče, který není možné v databázi nějak dynamicky měnit. Tyto databáze se používají všude tam, kde je třeba zajistit rychlé odpovědi, i třeba za cenu nižších možností databáze. Časté je řešení, kdy základní dotazy a funkce zajišťuje rychlá key-value databáze a pokročilejší a náročnější operace pomaleji relační databáze. Toto řešení užívají téměř všechny sociální sítě, jako třeba Twitter.
Grafově orientované databáze odstraňují jeden z největších problémů relačních databází, totiž jejich malá škálovatelnost, která je daná pevně nastavenou tabulkou. V řadě případů je ale potřeba mít flexibilnější řešení, které nabízejí právě grafově orientované databáze. Každý uzel má mimo vlastních informací uloženy také odkazy na své kolegy (sousední uzly), což je dobré řešení třeba pro Graph Search, který nedávno představil Facebook.
Jiným příkladem mohou být dokumentově orientované databáze a řada dalších modifikací klasického konceptu. Téměř vždy platí, že problém je principiálně řešitelný v SQL, ale buď velice pomalu, nebo za cenu obrovských redundancí, tedy za velké peníze. Jedním z důležitých parametrů Big data aplikací jsou totiž právě finanční limity. Jakékoli zlepšení v řádu jednotek procent generuje velké úspory.
Co s Big data dělat?
Big data jsou oblastí, která má spojitost snad se všemi trendy, které se v oblasti ICT objevují. Už jsme zmínili jejich možné spojení s internetem věcí, ale obzory jsou mnohem širší. Například Amazon nabízí možnost online převodu videa, neustále se hovoří o možnostech cloudcomputingu v oblasti zpracování velkých objemů dat nebo si lze představit analýzu pohybu osob na letišti pomocí kamer, které budou dodávat data výpočtům, které budou identifikovat potenciální teroristy (podle pohybu, teploty atp.). Pro zpracování velkého objemu dat je možné zmínit open source aplikaci Apache Hadoop, která slouží pro distribuované výpočty.
Logo projektu Apache Hadoop
Mezi další možnosti využití patří podrobné analýzy toho, jak se chovají zákazníci či společnost, jaké výrobky budou kupovat a proč, studium lidského genomu a hledání příčin onemocnění, pátrání po Higgsově bosonu, který je důležitým stavebním kamenem standardního modelu atp.
V tomto kontextu je zajímavý názor IEEE, která uvádí jako jeden z klíčových trendů ve vývoji ICT letos vizualizaci těchto dat. Velké objemy dat jsou často počítačem obtížně zpracovatelné ve smyslu podrobné analýzy a často ani dopředu nevíme, co v datech chceme najít. Přesto potřebujeme jejich pochopení. V tomto kontextu se hovoří o procesu vizualizace dat, tak jak je známe třeba z politických analýz sociálních sítí. Obecně je ale možné říci, že je to právě vizualizace, která může Big data do reálného komerčního využití dostat snad nejrychleji a zásadním způsobem může měnit management či marketing řady společností.
Závěrem
Big data otevírají cestu ke zcela zásadním změnám toho, jakým způsobem jsou řízeny podniky, probíhá vzdělávání či rozhodování vlád. Již dnes víme, že počítačové simulace jsou jakýmsi třetím pilířem vědy. To vše jen podtrhuje jejich význam. Jde o jednu z oblastí, ve které se točí obrovské množství peněz a i účast v relativně okrajových oblastech může být mimořádně zajímavá z hlediska vývoje (především distribuované systémy, cloud či NoSQL), ale také obchodu a komerčního využití. I relativní drobné znalosti mohou mít velkou hodnotu, čehož by byla škoda nevyužít.
Jednoduchý přehled o tom, co jsou big data a jaké jsou jejich světlé, ale také stinné stránky (omezování soukromí, možná ekologická zátěž atp.), je možné najít na infografice napravo.