BI potřebuje čistá data

Proč si myslíme, že je potřebné kvalitu dat ještě nějak více řešit? Vždyť kdo měl data v nepořádku, dávno zkrachoval

BI potřebuje čistá data


Hromadíme data již desítky let. Pracujeme s nimi každý den – jak fungovat bez nich, si už ani nedokážeme představit. Na první pohled je s nimi vše v pořádku – koneckonců dodáváme, fakturujeme a firma funguje. Proč si tedy myslíme, že je potřebné kvalitu dat ještě nějak více řešit? Vždyť kdo měl data v nepořádku, dávno zkrachoval.

 

Abychom si mohli odpovědět na položenou otázku, musíme se nejdříve podívat až na konec, tam, kde je spotřeba či použití dat. Pro další využití totiž data celou dobu hromadíme – ta, která nepoužíváme, nemají význam a měli bychom se jich zbavit. A právě v otázce použití dat je zakleta odpověď na otázky týkající se jejich kvality. Data jsou dostatečně kvalitní právě tehdy, když vyhovují potřebám, pro které je používáme. To, co používáme v každodenní praxi již desítky let, evidentně vyhovuje každodenní potřebě. V poslední době lze ale využívat data novými způsoby – a pak záhy zjišťujeme, že to, co stačilo až dosud, nestačí dnes a už vůbec nebude stačit zítra.

Právě něco tak samozřejmého, jako je fakturace, může sloužit jako dobrý příklad – pro vystavení faktury potřebujeme správné údaje o odběrateli. Ten, kdo už od nás přestal odebírat, nás z pohledu faktur nezajímá. Nepotřebujeme mít o něm správné údaje. A tak se nám například stane, že totožného odběratele budeme mít ve svých datech vícekrát, pokaždé s jinými daty. Pro potřeby fakturace nám to nevadí, fakturujeme „tomu správnému“. Ve chvíli, kdy chceme zjistit, proč již od nás odběratel přestal odebírat, začne nám to vadit. Nezjistíme totiž, že vůbec odebírat nepřestal, jen se skrývá pod jiným jménem nebo číslem.

BI je nejvýznamnějším z nových způsobů využití dat. Právě proto je oblast BI motorem, který táhne celou oblast datové kvality dopředu. Jsou tady však i další okolnosti. Uživatel BI řešení obvykle vstupní data nepořizuje. Nemůže proto sám bezprostředně ovlivnit jejich kvalitu podle svých potřeb. Nezbývá mu, než volat o pomoc jinde.

 

Datová myčka

Když mám špinavé auto, zajedu s ním do myčky. Když mám špinavá data? Setkávám se s názorem, že data je možné vyčistit nějakým geniálním softwarem. Tvrdí to prodejci takového softwaru a přizvukují ti, kteří mají rádi jednoduchá řešení.

My, kdo se kvalitou dat již pár let zabýváme takřka na plný úvazek, víme, že je to s jejich čistěním ošidné. Jistě, leccos se dá díky zajímavým a moderním řešením opravit. Ale tak jako vám při každém mytí oken občas ukápne špína na zem, také při každém čištění dat se občas něco ještě více zašpiní. A čím více toho budete čistit, tím více toho také zašpiníte. Budete-li dostatečně opatrní, může být čištění dat významným přínosem. Ale zázraky nečekejte.

 

Governance

Cesta ke kvalitním datům se jmenuje Data Governance. Zajímavé je, že přestože se tento pojem skloňuje čím dál více, setkávám se s tím, že si pod tím každý představuje něco jiného. Pokusím se tedy pro jistotu shrnout základní body.

Data vznikají, zanikají, upravují se. Data popisují realitu, ale realita se neustále mění v čase. Co z toho plyne? Chceme-li řešit datovou kvalitu, nemůžeme ji řešit jako projekt s pevným začátkem a koncem. Řízení kvality dat je proces, který začal s nástupem dat a bude trvat tak dlouho, dokud budou trvat data. Data Governance proto musí být průběžnou a nikdy nekončící aktivitou.

Mantrou datové kvality je fakt, že data jsou kvalitní právě tehdy, pokud vyhovují potřebám, pro které je používáme. Odtud plyne, že datovou kvalitu nemůžeme řídit, nestojí-li v centru tohoto řízení odběratelé dat.

Kvalita dat je přímo úměrná procesům, kterými data pořizujeme. Neřekneme-li osobám, které pořizují data, jak to mají dělat, bude to každý dělat po svém. Setkal jsem se s případem, kdy v jedné velké tuzemské organizaci dokázali napsat název své vlastní firmy asi padesáti způsoby. Nevadilo to, dokud nevznikla potřeba v rámci BI řešení vybrat ten správný a po­dle něj vyhledávat. Data Governance je v mnoha ohledech zejména o komunikaci směrem k těm, kteří data pořizují, a také k těm, kteří pro ně připravují prostředí ať již metodické, nebo softwarové.

Jiný příklad z praxe: protože se operátoři pořizující data domnívali, že adresa slouží jen pro tisk obálek, nevadilo jim, že jednou píší Great Britain, podruhé United Kingdom, potřetí Velká Británie, příště England, pak zase Anglie, nechybělo ani Spojené království, UK, GB a další formy. Ve chvíli, kdy se měla nová verze softwaru rozhodnout, ze které země klient je, a podle toho upravit své chování, ukázalo se, že tato data jsou nepoužitelná. Je typické, že nás začne kvalita dat trápit až ve chvíli, kdy jsou již pořízena a zpětně jejich vznik neovlivníme. Data Governance proto potřebuje zahrnout osoby, které umí data analyzovat a v případě potřeby je také opravovat. Říkáme jim datoví stevardi a musíme je vybavit nástroji, pomocí kterých mohou svou práci efektivně vykonávat.

Předchozí dva příklady z praxe ukazují ještě jedno. Protože se potřeby mění, stojí za to snažit se předvídat a řešit datovou kvalitu dříve, než se projeví. Zjednodušeně řečeno „pořádek se vyplatí“. Stojí za to psát názvy firem vždy stejně i přesto, že to v této chvíli k ničemu nepotřebujeme. Stojí za to psát státy jednotně, stojí za to vyplňovat do stejných kolonek vždy stejný druh informace. Data Governance by měl definovat obecné principy i v případech, kdy prozatím nejsou vynuceny konkrétní potřebou.

Pokud bychom sebrali v některé velké organizaci všechny informace o kvalitě dat, o rozporech mezi skutečností a potřebou, nepochybně bychom zjistili, že na jejich řešení budeme potřebovat roky. Je zřejmé, že nemůžeme řešit všechno najednou. Data Governance musí stanovit priority. V ideálním případě by měly odrážet celkovou podnikovou strategii. Například pokud je základní strategií cross seling, pak prioritou by měla být kvalita identifikačních údajů klientů, je-li strategií zvýšení produktivity práce při obsluze klienta, pak by prioritou mělo být to, co tuto produktivitu nejvíce ovlivňuje.

Představme si situaci, kdy jsme pracně vybudovali celé prostředí Data Governance. Udělali jsme to správně? Neměli bychom na tom prostředí něco změnit? Jak to zjistíme? Obecně platí, že co ne­umíme měřit, neumíme ani řídit. Data Governance musí mít nástroje k měření datové kvality.

A nakonec si řekněme ještě jednu maličkost. Ať již budeme dělat cokoli, vždy nás to bude něco stát. Bez zdrojů nelze dosáhnout ničeho. Data Governance musí mít vlastní zdroje, finanční, technické i personální.

 

Jak začít?

Že už jste začali? Ale jistě, pracujeme přece s daty desítky let. Všichni jsme se již začali nějak starat o svá data. Možná si dokonce myslíme, že to děláme dobře. A možná máme pravdu.

Kdysi dávno, v letech základní školní docházky, se mi do rukou dostala nevelká kniha s názvem „Klíč k určování rostlin“. Nelíbila se mi. Na rozdíl od atlasu rostlin v ní nebyly krásné obrázky. Ale najít v atlasu rostlin to, co právě kvete na louce za domem, to je spíše dílem náhody. Pomocí onoho klíče to bylo mnohem snazší. Pojďme si tedy zopakovat jednotlivé nezbytné složky Data Governance a ptejme se sami sebe, nakolik je máme vyřešeny.

  • Máme firemní strategii zajišťování kvality dat?
  • Je zavedeno prostředí a procesy řízení kvality dat?
  • Byli do tohoto prostředí zahrnuti všichni odběratelé dat a máme vybudovány kanály, kterými komunikují své potřeby?
  • Máme do prostředí řízení kvality dat zahrnuty všechny procesy jejich pořizování? Máme nástroje, kterými řídíme operátory pořizující data a nástroje, kterými řídíme požadavky na software, kterým se pořizují data?
  • Dokáží naši pracovníci analyzovat kvalitativní jevy v datech? Umí opravovat kvalitativní jevy v datech? Mají k tomu dostatečné nástroje?
  • Máme definovány obecné principy, podle kterých se chováme ke svým datům, aby byla data v pořádku? Komunikujeme tyto principy v dostatečné míře se všemi, kteří by je měli znát?
  • Byly stanoveny priority při řešení požadavků na kvalitu dat? Víme, proč jsme stanovili právě tyto priority a ne jiné? Jsou v souladu s celkovou obchodní strategií organizace?
  • Umíme měřit účinnost procesů řízení datové kvality, kvalitu dat a její vývoj? Dokážeme říct, zda je vývoj v souladu s našimi prioritami?
  • Jsou vyčleněny zdroje pro řízení kvality dat,a evidovány všechny náklady na řízení kvality dat?
  • Máme výše uvedené položky popsány ve firemních politikách či směrnicích a můžeme jejich dodržování vynucovat?

 

Závěr

Osobně jsem se setkal s projektem nasazení nového softwaru, který několikanásobně překročil plánované náklady. Důvodů bylo samozřejmě více včetně prvotního podcenění problému. Ale podstatná část zvýšených nákladů na projekt byla způsobena především nekvalitními daty, se kterými měl onen software pracovat.

Nikdo se nepokusil přesně vyčíslit, jak velká část zvýšených nákladů šla na vrub nekvalitních dat. Nikdo tedy neví, kolik by se bývalo bylo vyplatilo investovat do kvality dat již dříve, než se nekvalita takto výrazně projevila.

Ve stejné organizaci jsem se setkal i s podobnými projekty, které se realizovaly za nižší než plánované náklady. Shodou okolností všechny tyto projekty s řešením kvality dat nějakým způsobem počítaly. Možná to byla náhoda. Ale co když ne?

 

Autor pracuje jako senior konzultant ve společnosti Adastra


Vyšlo v CIO Business World 9/2010





Komentáře