
Veľké dáta môžeme charakterizovať ako dáta, ktorých veľkosť je mimo schopnosti zachytávať a spracovávať bežne dostupnými a používanými softvérovými prostriedkami v rozumnom čase.
Azda najpoužívanejšou definíciou pre big data je Gartnerova definícia z roku 2001. Big data sú dáta, ktoré pozostávajú z obrovského a rýchlo rastúceho objemu dát. V angličtine je táto definícia známa ako tri V (z anglického, volume, variety a velocity).
Tri V veľkých dát
Volume – objem
Objem je dôležitý. Pre prácu s big data je príznačné spracovávanie obrovského množstva dát. Háčikom je však skutočnosť, že ide zväčša o neštruktúrované dáta neznámej hodnoty ako napríklad data feed Twittru, zdrojové kódy webstránok alebo mobilných aplikácií, alebo dokonca denník záznamov zapnutia wi-fi žiarovky. Môžu to byť desiatky terabajtov až petabajtov dát (pre ilustráciu jeden petabajt je 1 000 000 gigabajtov).
Velocity – rýchlosť
Pri big data nezáleží len na objeme dát. Rovnako dôležitá je rýchlosť ich zaznamenávania a spracovávania. Big data pribúdajú veľmi rýchlym tempom a preto je dôležité ich vedieť priebežne spracovávať.
Variety – rôznorodosť
Rôznorodosť je pre big data charakteristická. Big data ako bolo spomínané, sa neskladajú len zo štruktúrovaných dát, ale z polo-štruktúrovaných (semi-structured data) ako napríklad xml feedy, emaily a podobne a z neštruktúrovaných dát ako sú audio alebo video súbory.
Vierohodnosť a hodnota veľkých dát
V posledných pár rokoch k trom V pribudli ďalšie dve V z anglických veracity (vierohodnosť) a value (hodnota).
Veracity – vierohodnosť
Keďže big data pochádzajú z rôznorodých zdrojov, je dôležitá aj ich vierohodnosť a výpovedná hodnota. Je to obrovská výzva najmä pri spracovávaní big data.
Value – hodnota
Samotný objem dát je bezpredmetný, ak dáta nemajú hodnotu. Teda je dôležité aby zbierané dáta mali výpovednú hodnotu a boli použiteľné pre ďalšie spracovanie a použitie.
Využitie big data
Samotné využite big data je širokospektrálne. Od zákazníckeho servisu až po umelú inteligenciu. Pozrime sa spolu aspoň na pár príkladov.
Strojové učenie – Machine learning
Strojové učenie je horúca téma dnešných dní a ešte aj dlho horúcou témou bude. A big data sú ďalším dôvodom prečo je tomu tak. Práve big data sú kľúčom k napredovaniu v tejto oblasti. Vďaka nim nemusíme stroje programovať, ale budeme ich učiť.
Vývoj produktov – Product development
Spoločnosti ako Netflix, Unilever alebo Proctor & Gamble využívajú big data na analýzu správania zákazníkov a predvídanie ich potrieb. Skladajú a vyvíjajú prediktívne modely pre nové produkty a služby. Snažia sa identifikovať kľúčové vlastnosti aktuálnych a predchádzajúcich produktov a služieb a nájsť spojitosť ich kľúčových vlastností s ich komerčným úspechom.
Predvídanie údržby – predictive maintenance
Existuje mnoho údajov a faktorov, ktoré dokážu predpovedať kedy a za akých okolností sa môže daný stroj pokaziť, alebo daný softvér skolabovať. Tieto údaje môžu byť hlboko skryté v štruktúrovaných údajoch ako napríklad model, rok výroby, typové označenie, výbava, výrobca a rovnako aj v neštruktúrovaných dátach ako denníky aktivít, záznamy vstupov, počet vstupov, chybové správy, údaje zo snímačov a tak ďalej.
Analyzovaním týchto údajov môžeme identifikovať problém skôr než nastane. Spoločnosti môžu zosúladiť opravy a údržbu strojov, skôr než príde k trvalému poškodeniu alebo k výraznému opotrebeniu.
Zákaznícka Skúsenosť – Customer experience
Big data umožňujú získať údaje zo sociálnych médií, návštevy webov, záznamy prihlásení, záznamy telefónnych hovorov. Ak sú tieto údaje správne vyhodnotené pomáhajú zlepšiť zákaznícky servis, pomáhajú pripravovať personalizované ponuky a predísť tak nespokojnosti zákazníka.
Spreneverenie a únik citlivých informácií
Antivírusové a ostatné ochranné systémy sa tiež vyvíjajú a generujú svojou činnosťou obrovské množstva dát. Big data umožňujú identifikovať vzorce, ktoré indikujú potenciálnu hrozbu úniku dát a vytvoriť tak predikčný model a následné procesy, ktoré by mali zabrániť takýmto incidentom.
Výhľady s big data
Nezabúdajme, že big data je dynamický koncept, ktorý sa rýchlo mení a rovnako rýchlo ako sa mení aj rastie. Odhaduje sa, že každé dva roky sa objem dát zdvojnásobuje. Práve kvôli big data vznikli nové technológie ako ukladať a analyzovať tieto dáta.
Práve obrovské množstvá dát spôsobujú vrásky spoločnostiam. Pretože, len „uskladniť“ dáta nestačí. Je potrebné ich správne analyzovať a interpretovať.
Vedci a špecialisti strávia 50% až 80% času tým, že big data analyzujú a vyhodnocujú.
Pre budúcu prácu s big data je dôležité zvládnuť ich zber, vyhodnocovanie a následné implementovanie. Spoločnosti, ktoré zvládnu prácu s big data budú prosperovať a zaradia sa k lídrom vo svojom obore.