Co dělat, když data churaví?

V roce 2006 odhadovala společnost TDWI zbytečně vynaložené náklady na poštovné, tisk a zaměstnance v důsledku nekvalitních zákaznických dat na 611 miliard dolarů jen pro americké firmy.

Co dělat, když data churaví?


V roce 2006 odhadovala společnost TDWI zbytečně vynaložené náklady na poštovné, tisk a zaměstnance v důsledku nekvalitních zákaznických dat na 611 miliard dolarů jen pro americké firmy. Kolik je to asi ve zbytku světa nebo přímo u vás? Dobrým nástrojem pro zjištění skutečného stavu věcí je audit datové kvality. Jeho prostřednictvím si můžeme udělat rámcovou představu o rozsahu problémů v datech a identifikovat oblasti, které jsou nekvalitními informacemi nejvíce postiženy. Zajímavou vlastností nekvalitních dat je jejich schopnost šířit se napříč databázemi a systémy podobně, jako to umějí viry. Databáze zasažená nákazou nekvalitních dat se celá stává nekvalitní, protože bez vhodných nástrojů neumíme rozpoznat špatná data od kvalitních.

Pokud se nám podaří pomocí auditu datové kvality stanovit diagnózu a máme již představu o rozsahu „nákazy“, můžeme se pustit do léčby. Zde je dobré vědět, že informace je vytvářena a zpracovávána na dvou frontách. Jednou z nich jsou informační systémy, kde kvalitu dat ovlivňují technické faktory, jako např. datové pumpy, integrační nástroje, reportingová platforma a mnohé další. Druhou frontou jsou pak procesy a lidé, kteří s informacemi v rámci procesů manipulují. Obě fronty skýtají značné množství příležitostí pro poškození či infekci dat. Na každé frontě je však potřeba zvolit trochu jinou léčebnou metodu.

Na straně procesů je třeba ošetřit místo, kde informace vznikají. To se často řeší metodikou nebo manuálem, který popisuje proces vzniku a distribuce dat, stanoví požadavky na jejich kvalitu, určuje všechny náležitosti. Vezměme si jako příklad zápis nového klienta. Příslušný pracovník (např. operátor call centra) by měl mít k dispozici manuál nebo být řádně proškolen, aby zajistil zápis klientské informace v potřebné kvalitě. Tím zajistíme, že všichni operátoři budou zapisovat informace stejným způsobem a všichni budou stejně chápat jednotlivé komponenty klientské informace. Takže akademický titul bude zapsán do příslušné kolonky a adresa bude obsahovat i číslo popisné/orientační.

Pokud například dojde k situaci, kdy je potřeba klientský záznam ukončit, protože klient rozvázal smlouvu nebo v horším případě zemřel, proškolení operátoři budou reagovat stejným způsobem, a to zápisem příslušného data do kolonky ukončení smlouvy (a nikoli opravou příjmení „Novák – zemřel“, jak občas můžeme v některých systémech vidět). Dále je potřeba zajistit, aby se stejným způsobem chovali nejen pracovníci v rámci jednoho oddělení, ale prakticky všichni, kdo napříč celou firmou mají oprávnění pořizovat či upravovat informace o klientech. To může být náročnější úkol, někdy bývá klientská informace uložena ve více systémech a každý z nich používá trochu jiné struktury a standardy. V rámci „léčebné kúry“ je vhodné i tyto rozdíly vyhledat a zneškodnit. Cílem je, aby data o klientovi byla vždy stejná a konzistentní v kterémkoli systému.

Když už zmiňujeme systémy, i tam může být zdroj případných defektů či anomálií. Výhodou je jejich relativně snadná rozpoznatelnost. Pokud nějaký systém „kazí“ data, obvykle to dělá stále totožným způsobem. Není tak velký oříšek nalézt záznamy se stejnou vadou a dohledat k němu zdroj. V praxi se často stává, že jsou některé řetězce nesprávně oříznuty na stejnou délku („Jaroslav Skočdopo“), což vždy spolehlivě ukáže na příliš krátkou délku vstupního pole, případně též na chybu v transformačním nástroji, kterým může být třeba datová pumpa nebo ETL v datovém skladu. Setkáváme se s chybami kódování, chybějící nebo přebývající diakritikou, ořezáváním nebo naopak prodlužováním řetězců. Zákeřné bývají problémy zobrazovacího nástroje (portál, report), kdy podkladová data jsou sice v pořádku, ale nesprávně se zobrazují.

Ať už je příčina jakákoli, opět je nutné defekt odstranit a zajistit opravu dat, která byla tímto defektem poškozena, pokud je to možné. V prostředí, ve kterém spolu žije v symbióze více různých systémů, je třeba zajistit používání jednotných standardů. Ty mohou být pevně zakotveny ve směrnicích či metodikách vývoje aplikací, musí však být vynucovány a jejich dodržování pravidelně kontrolováno. Pokud nám do našich systémů vstupují data „z venku“, musíme se připravit na to, že mohou být nakažena nízkou kvalitou, a proto musíme přijmout opatření, která zamezí vstupu nekvalitních informací. Tím se dostáváme do sféry proaktivních léčebných metod.

Pokud je naše informační prostředí nevelké a vejde se do jednoho či několika málo systémů, není účelné investovat do robustních a sofistikovaných řešení datové kvality. Stačí důsledně dodržovat disciplínu a podobně jako jednou za čas navštěvujeme lékaře na preventivní prohlídku, provedeme v našich datech kontrolu (audit) a následný úklid.

V rozsáhlejších prostředích, která čítají desítky až stovky vzájemně provázaných systémů, je investice do nástroje datové kvality nutností. Speciálně zaměřený nástroj je napojen na datové toky klíčových systémů a databází a dokáže průběžně monitorovat, vyhodnocovat a reportovat drobné lokální onemocnění, jakož i globální epidemii. Podle nastavených pravidel pak provádí automatizované čištění nakažených dat, případně též izoluje neopravitelné informace a předává je proškoleným pracovníkům – datovým stevardům, kteří zde vykonávají činnost jednotky intenzivní péče a dají nemocná data zase do pořádku.

Nástroj datové kvality jim k tomu připravuje reporty, ze kterých je možné určit zdroj a příčinu nákazy, datoví stevardi pak na základě své letité praxe navrhují nápravná opatření a předávají je příslušným specializovaným lékařům, tzn. vývojářům a metodikům. Ti zase s chirurgickou přesností opraví či vylepší pokažený systém a po krátkém, ale důkladném testování v době rekonvalescence ukončí neschopenku nemocného systému a pustí jej do produkčního provozu. Všechny tyto procesy jsou zapouzdřeny do podnikových směrnic a metodik, a společně tak tvoří ucelený program péče o data – data governance.





Komentáře