Big data, analýza dat, ilustrace
Big data, analýza dat, ilustrace
autor: archiv

V současné době asi není problém mít "big data", ale vyznat se v nich. Jak se firmám daří využít big data?

Velká část firem má problém využít "malá data", natož aby se pouštěla do velkých dat. Reporting se stále často dělá v Excelu nebo nad malými databázemi, které vznikají po celé organizaci v různých odděleních. Navíc big data projekty jsou často řízené IT oddělením, pro které je důležité mít data pod kontrolou, se správně nastavenými přístupy a zabezpečením, takže smysluplné využití je až na druhém místě.

Na druhou stranu existuje spousta nástrojů, které i poměrně nezkušenému uživateli umožňují celkem jednoduše analyzovat velké objemy dat přímo z jeho počítače bez nutnosti znát programování. Tyto dva trendy jdou trochu proti sobě - analytici by i věděli, jak data využít, ale IT jim je nemůže nebo neumí zpřístupnit.

A kde je tedy chyba - na straně IT?

Postoj IT je legitimní - říká se, a my tomu věříme také, že data jsou nejcennějším aktivem firmy. A svá nejcennější aktiva si samozřejmě chcete chránit - nejen kvůli regulaci, jako je GDPR nebo ochrana osobních údajů, ale také kvůli konkurenční výhodě. IT tedy musí data kontrolovat a pečlivě sledovat přístupy a využití.

Na druhou stranu má IT často za úkol také data vlastnit a zpracovávat - včetně přípravy reportů a analýz pro obchodní oddělení, marketing nebo finance, a to už správně není. IT se pak typicky stává úzkým hrdlem, přes které se informace nedostávají k byznysu. Řešením může být rozdělení pravomocí - IT data spravuje a hlídá, zároveň ale vymezí uživatelům bezpečné hřiště pro vlastní analýzy, tzv. self-service analytics.

Mají uživatelé dost znalostí pro práci s daty? A jaká jsou úskalí self-service analytics?

Díky moderním analytickým nástrojům, jako je PowerBI, Qlik nebo Tableau, není problém analyzovat obrovské objemy dat v podstatě real time. Dokonce ani nebývá problém s přetížením serverů při nevhodně zadaných dotazech nebo špatně vytvořených reportech. Celá oblast self-service se zaměřuje na to, aby abstrahovala složité operace a zpřístupnila je i méně zkušeným uživatelům. Nástroje tohoto typu bývají dost intuitivní a pro základní práci (která je většinou dostačující) stačí jednoaž několikadenní zaškolení.

Problém je spíš s kvalitou dat a pak s jejich interpretací. Koncoví uživatelé daleko lépe než IT rozumí tomu, jakou informaci hledají, ale stává se, že nesprávně spojí datové soubory nebo přehlédnou chyby v datech, které pak zkreslí celkový výsledek.

Podle naší zkušenosti je nejlepší kombinace "IT/BI driven reportů" - regulatorních a mandatorních reportů, o které se stará IT nebo BI tým a ručí za jejich kvalitu a správnost - a pak "data discovery" - ad-hoc analytické reporty, které nemusí být zcela přesné, ale umožňují rychle identifikovat trendy nebo anomálie zajímavé pro byznys. Správné "data discovery" se definuje jako hledání otázek, a ne pouze odpovědí.

To se asi vztahuje i na standardní analytiku, nejen pro big data. Mění se nějak situace s big daty?

Trochu ano - ve smyslu: větší data, větší problém. Mnoho firem začalo big data projekt s cílem vytvořit "data lake" jako základnu pro pokročilé analytické úlohy a místo toho jim vznikla "data swamp" - bažina, ve které se prakticky nikdo nevyzná a získávat z ní informace je komplikovanější než v případě sice zastaralého, ale přece jen lépe organizovaného datového skladu.

Pro úspěch big data projektu je důležité k němu přistoupit i z byznys strany a nadefinovat si use cases, tj. kdo bude konečným uživatelem dat a jak s nimi bude pracovat. Zároveň je také vhodné vytvořit efektivní "data governance" - správu dat a metadat, která umožní udržovat přehled o datových zdrojích a propojit byznys a IT pohled.

 

Rozhovor byl publikován v magazínu ICT revue.

Autoři: Aleš Procházka