Jak se vyhnout datové džungli

Moderní informační systémy, produkující nepřeberné množství dat, vyžadují kvalitní řešení typu business intelligence. Gurmánskou metaforou lze říci, že takové řešení musí obsahovat všechny potřebné ingredience.

Jak se vyhnout datové džungli


Business intelligence (případně datový sklad, který je zpravidla nedílnou součástí) běžně zajišťuje i kvalitu zpracovávaných a prezentovaných dat. Ale jak zajistit toto „běžné“ očekávání?

Je třeba si uvědomit, že BI sama neopravuje, ale pouze pomáhá, informuje či radí. Výjimku tvoří jednoduché opravy popisných dat (formáty, doplnění chybějících atributů podle referenčních číselníků a obdobné úpravy – ty zajišťuje např. Master Data Management a další techniky a nástroje). Nás zajímají transakční data, vznikající a uchovávaná ve zdrojových systémech a sledující průběh vyhodnocovaných procesů.

Jedná se vždy o uzavřený kruh. Zdrojový systém poskytne data, datový sklad je přijme, provede jejich kontrolu a patřičným způsobem informuje zpět zdrojový systém o nalezených chybách. Zdrojový systém si pak provede patřičnou opravu a v následující dávce už datovému skladu poskytne vše správně a čistě. Je jisté, že ne všechny kroky tohoto procesu lze plně automatizovat. Vyhodnocení chybovosti dat může být prováděno ručně, například v rámci systematického testování řešení a jeho obsahu, nebo náhodně až při běžném provozu.

S růstem složitosti datové komunikace roste i riziko případných chyb – ať už lidských či technických. Datový sklad pak může snadno přijít k neúplným či poškozeným datům. U moderních sy­stémů je dále podporována primárně rychlost jejich nasazení a možnost uzpůsobení měnícím se uživatelským potřebám. V souvislosti s tím  může být podce­něna implementace kontroly správnosti po­řizovaných dat (úplnost, formáty, logický obsah, návaznost na související transakce v jiné aplikaci apod.). Datový sklad pak může konstatovat pouze neúplnost či chybnost dat, ale to znamená, že supluje zanedbanou kontrolu dat při jejich vzniku. Zdrojem problémů s kvalitou dat bývají i komplikovaná datová rozhraní, pomocí kterých aplikace zpřístupňují datovému skladu svá data. Ať už jde o chyby v návrhu či implementaci (dohodnuté atributy a elementy neobsahují to, co by měly podle předpokladů obsahovat), případně je vina na straně použité komunikační platformy. Ta může být nespolehlivá, nedostatečně dohlížena či poskytuje data v časovém nesouladu s potřebami koncových uživatelů business intelligence.

A jak může business intelligence/datový sklad pomoci? Předně, součástí analýzy a návrhu řešení BI musí být podrobný rozbor dostupných primárních dat. Podle výsledku je možné definovat a vyžadovat množství úprav ve zdrojích, které data poskytují (buď v rozhraní pro přístup k datům, či v datech samotných). Tato jednorázová kontrola a náprava dat často patří ke klíčovým přínosům implementace business intelligence. Jednorázové kontroly však nestačí. Kvalitní ETL nástroje, sloužící pro načítání dat, musí umožnit implementaci pravidelných automatických kontrolních mechanismů pro všechna přicházející data. Zároveň kontroly musí být dostatečně nastavitelné – správci by měli mít možnost vypnout např. ty již nepotřebné a naopak snadno doplnit kontroly nové. Významnou roli hraje také správné nastavení následného procesu zpracování identifikovaných problémů – v případě podezřelých záznamů je systém jednoduše označí a vyřadí z finální prezentace dat. Pokud se jedná o fatální chybu, pak celá načtená dávka dat musí být vrácena zpět.

Důvody nesprávnosti dat mohou být různé, ať už na straně jednotlivých vrstev vlastního IS/ICT, tak na straně lidského faktoru (dodavatelé systémů, uživatelé a správci). Existuje množství dalších postupů, pomocí kterých lze správnost dat kontrolovat a řídit. Hlavním účelem datového skladu a řešení business intelligence ale není automaticky opravovat nalezené chyby, nýbrž pouze celý proces oprav vhodnými prostředky a postupy podporovat. Vhodným místem pro opravu chybných dat je především primární informační systém, který zodpovídá za jejich pořízení. Na základě nalezených chyb musí být v informačním systému provedeny úpravy, které opakování obdobných problémů účinně zabrání.

Autor působí jako Team Leader oddělení BI a integrace ve společnosti Aquasoft.

 

Vyšlo v CIO Business World 9/2010





Komentáře