Vyčištěná data pro každý den

Vysokou kvalitu dat uchovávaných v počítačových systémech dnes považujeme za samozřejmost. Nejsou tu počítače právě proto? Jsou, a obrovská část úsilí vynaloženého na vývoj hardwaru a softwaru se vždy týkala ochrany dat a udržení datové kvality na žádoucím stupni. Problém je, že kvalita dat není absolutní pojem, a musíme ji posuzovat v kontextu využití informací. A kontext se neustále mění.

Vyčištěná data pro každý den


Vysokou kvalitu dat uchovávaných v počítačových systémech dnes považujeme za samozřejmost. Nejsou tu počítače právě proto? Jsou, a obrovská část úsilí vynaloženého na vývoj hardwaru a softwaru se vždy týkala ochrany dat a udržení datové kvality na žádoucím stupni. Problém je, že kvalita dat není absolutní pojem, a musíme ji posuzovat v kontextu využití informací. A kontext se neustále mění.

Uveďme si několik důvodů pro současný zájem o datovou kvalitu. Je to datová integrace, kdy data, která naprosto vyhovují potřebám jedné aplikace, mohou způsobit zmatek v datovém skladu, nejsou-li pro nový kontext dostatečně ošetřena. Je to samoobslužnost, která umožňuje lidem zacházet s daty často nepředvídaným způsobem, například ve webových dotaznících záměrně zadávat chybné údaje s cílem chránit své soukromí. Dále je to kritický význam informací, které stále více ovlivňují úspěch i úpadek organizací. V neposlední řadě je to naše každodenní závislost na informacích.

Nekvalitní případy

Před pár lety, někdy kolem Halloweenu, jsem stál u přepážky v bance a dotazoval se, proč mi bankomat odmítá vydat peníze. Úřednice cosi nezúčastněně naťukala do počítače, zatvářila se překvapeně a zavolala kolegyni. Obě si něco špitaly a ukazovaly si střídavě na mne a na obrazovku. Jejich sdělení mne šokovalo. Jsem nebožtík. A s mým účtem nelze do vyřízení pozůstalosti nic dělat. Změna barvy mého obličeje a několik prudších pohybů přece jen způsobily na druhé straně přepážky jisté pochyby o správnosti jejich údajů. Po důkladném ověření mé životnosti (ano, zrcadlo odráželo můj obraz, ani pokus prostrčit pravítko mou dlaní nevyšel) se dámy za přepážkou omluvily a daly se do práce. Za půl hodiny jsem bankovně ožil. Případ se šťastným koncem nazvěme „Nebožtík z Halloweenu“.

Mnohem hůře mohl skončit další případ. 23. července 1983 Boeingu 767 společnosti Air Canada v půlce pravidelného letu z Montrealu do Edmontonu ztichly oba motory. Piloti v manuálu marně hledali, jak s proudovým letadlem plachtit. Jenom díky jejich rozvaze, obrovské zkušenost a znalosti místních podmínek dovedli stroj klouzavým letem na nepoužívanou dráhu letiště v Gimli, kde letadlo bezpečně přistálo s nezraněnými 61 cestujícími a posádkou, pouze s poškozenou přídí díky nezajištěnému podvozku. Incident, který nezpůsobila technická závada, je v oboru známý jako Gimli Glider, „Kluzák z Gimli“.

Další, zcela čerstvý příklad mi poskytla změna mé adresy v pobočce přední české banky.

V bance využívám tři úzce provázané produkty. Novou adresu mám sice jen jednu, ale úřednice ji musela zadat třikrát a vytisknout tři různé formuláře, které jsem podepsal. Ty pak zahajují své dlouhé, předpisy definované životy. Na každém formuláři měla adresa jiný formát, na dvou drobnou chybu. Celá procedura trvala skoro půl hodiny. Pracovní název případu bude „Bankovní puzzle“.

Příčiny a následky

Tyto případy skončily dobře, bez katastrof nebo bez velkých finančních ztrát. Dokonce i kluzák z Gimli byl opraven a létá dodnes. Pokusme se tedy najít typ problému a možné následky zobecnit.

Nebožtík z Halloweenu vznikl díky nezachycené chybě, kdy banka zablokovala správné číslo účtu, ale s nesprávným předčíslím označujícím pobočku. Důsledkem byl chybně nastavený stav účtu. Chybná datová položka. Řeknete si, běžná chyba na vstupu, jaká se občas stane. Banku stálo odstranění chyby asi 20 minut práce. Jenže konto skutečného nebožtíka bylo několik dnů zcela bez ochrany a banka tím mohla být vystavena značným finančním rizikům. Ostatně, je stejně snadné zadat chybný kód i při jiných transakcích? Kolik takových incidentů je zákazník ochoten tolerovat, než změní banku?

Gimli Glider byl způsoben jiným typem chyby. Boeing 767 bylo první letadlo provozované Air Canadou, které používalo metrické jednotky. Při srovnání množství natankovaného paliva s potřebou pro let piloti mylně vynásobili natankovaný počet litrů koeficientem pro libry a výsledek srovnávali s kilogramy potřebnými pro cestu. Letadlo pak odstartovalo jen s polovičním množstvím potřebného paliva.

Hlavním problémem je zde definice dat vstupujících do výpočtu, která nebyla piloty zohledněna. Nešlo sice o data uložená v databázi počítače, ale v IT je definice dat častý problém. Nedostatečná, nejasná, zastaralá nebo v komunikujících systémech nejednotná definice způsobuje problémy při datové integraci i v jednotlivých aplikacích. Následky – nepoužitelné analýzy a statistiky z datových skladů, nemožnost rekoncilace výstupů. Finanční ztráty z chybných rozhodnutí nebo nerealizovaných přínosů datových skladů mohou jít do milionů. Pracnost dodatečného manuálního vykazování, dohledávání a změn také není zadarmo.

Bankovní puzzle představuje situaci, kdy si každá aplikace udržuje svou databázi zákazníků. Jde tedy o redundantní databáze. Tyto informační ostrovy znemožňují získání jednotného pohledu na zákazníka, omezují účinnost kampaní a příležitostí pro cross-selling, komplikují tvorbu datových skladů. Při změně dat, jako v našem Bankovním puzzlu, se často zapomene na některý produkt, takže výpisy, nabídky nebo faktury chodí dál na starou adresu.

V daném příkladu jsme si všimli plýtvání časem při oddělené aktualizaci základních dat u různých produktů jednoho klienta. Napadlo vás, kolik těch pár minut navíc stojí peněz? Řekněme, že organizace má 3 miliony klientů se záznamem ve více databázích. Každoročně 10 % klientů změní důležitý údaj jako adresu nebo příjmení. To je 300 000 změn ročně, a každá trvá o 15 minut déle, než je nezbytně nutné. Ztrácíte tedy 75 000 hodin neboli 9 375 člověkodnů za rok. Jen personální náklady, při skromném odhadu 2 000 Kč na člověkoden, budou skoro 19 milionů korun.

Řešení datové kvality

Jestliže vám při výčtu rizik a ztrát spojených s informacemi ve vaší organizaci připadá zaměstnání u ochranky v Kábulu jako bezpečné místečko, nezoufejte! Předně, je velmi pravděpodobné, že za ta data nezod­povídáte ani vy, ani nikdo jiný ve vaší organizaci! Mnohými metodikami doporučovaná praxe „data stewards“, tedy ustanovených správců či vlastníků okruhů dat, je u nás zatím raritou. Uplatnění některé z uznávaných metodik je dobrý začátek, především pro celofiremní iniciativy zaměřené na kvalitu dat.

Ale vy říkáte, že máte konkrétní problém, který musíte neodkladně řešit? Pak vám mohou pomoci nástroje zaměřené na datovou kvalitu. Ušetří čas, zvýší produktivitu a dodají potřebný know-how. Patří sem především nástroje pro profiling, cleansing a také pro správu metadat.








Komentáře