Neztraťte se v džungli dat

Neztraťte se v džungli dat


Kdybychom chtěli jednoduše charakterizovat data warehousing, business intelligence a spřízněné obory, mohli bychom říci, že se snaží z vlastnictví dat vytěžit nějakou novou hodnotu. Využít potenciál, který v datech dřímá, přeměnit datovou surovinu v novou energii. Je to podobné, jako když naši předkové zjistili, že uhlí lze proměnit na páru a posléze elektřinu. V tomto ohledu jsou cíle a snahy Master Data Managementu obdobné.

Jde o to využít data novým způsobem tak, aby nám přinesla větší užitek. Rozdíl je v tom, že MDM se mnohem více zabývá podstatou dat, jde až ke kořenům. Snaží se naše úsilí usměrnit tak, abychom dokázali ovlivnit základní vnitřní děje v datech a uvolnili z nich mnohem větší „energii“, podobně jako se to stalo rozbitím atomu.

HROMADĚNÍ A ZPRACOVÁVÁNÍ DAT

Ale vezměme to po pořádku. Když si začal člověk pomáhat automatizací některých činností pomocí počítačů, byl nadšen zejména množstvím práce, které tyto stroje dokázaly odvést, a rychlostí, s jakou to dokázaly udělat. A hledal způsoby jak zpracovat ještě více a ještě rychleji. Už v té době se začala hromadit data, která byla považována spíše za jakousi nutnost, aby skvělé algoritmy mohly fungovat, za jakýsi vedlejší produkt. A podle toho se s nimi zacházelo. Každý program pracoval s vlastními originálními strukturami, které optimálně podporovaly jeho funkci, avšak byly nepoužitelné pro cokoliv jiného.

Vývoj šel samozřejmě dál a postupně vznikaly rozsáhlé specializované systémy, které konsolidovaly velké objemy dat a vnášely do jejich zpracování řád. Obrovskou datovou variabilitu, která je od začátku charakterizovala, mají však ve svém genetickém kódu dodnes. Výsledkem je, že v dnešních informačních systémech je informace o jednom konkrétním subjektu (např. klientovi, produktu, partnerovi v oblasti komerčních firem či občanovi, podnikatelském subjektu a poskytované veřejné službě ve státní správě) roztroušena na mnoha místech, vyskytuje se v mnoha (a není známo kolika) podobách, a dokonce je často obtížné „pouhým okem“ rozeznat, zda se skutečně jedná o tutéž informaci. Ačkoliv jsou děje v datech v rámci jednotlivých agend řízeny, jako celek to může zvenku připomínat spíše Brownův pohyb.

Tyto skutečnosti si samozřejmě už nějakou dobu uvědomujeme. Brownův pohyb není efektivní, takovéto datové reje vyžadují mnoho energie, jež vyjde nazmar. Nehledě na to, že situace, kdy se obsah informace výrazně liší podle toho, odkud a jak ji ze systému vytáhneme, jistě nepřidá manažerům, kteří za chod organizace zodpovídají, na klidu. Takže se s tím snažíme něco dělat.

Jednou z možností je použít vzniklá data jako druhotnou surovinu a po náležitém zpracování, prosetí a zušlechtění z nich získat novou třídu informací, což se nazývá data warehousingem, business inteligencí, data miningem apod. a v podstatě nám to umožní více se z dat dovědět o naší činnosti (tedy o fungování a prosperitě podniku, úzkých místech systému, rizicích a příležitostech atd.).

INTEGRACE DAT

Také se snažíme něco dělat s fungováním systémů samotných. Chceme je propojit, aby už netvořily jenom samostatné ostrovy, které o sobě téměř nevědí. Snažíme se zařídit, aby byly procesy provázány a data sdílena. Zkrátka integrujeme. Integrace, vyskytující se v různých formách v posledních letech v plánech a koncepcích dodavatelů technologií i jejich uživatelů, je považována za cestu k ukončení chaosu. Očekává se, že automatizované propojení systémů zamezí zmatkům, vše bude provázané, jasné, korektní… Říká a píše se, že prožíváme v oboru informačních technologií „dekádu integrace“. Žonglujeme s pojmy jako podniková aplikační integrace, integrace byznys procesů, podniková integrace informací, integrace na bázi architektury orientované na služby, zabýváme se monitorováním byznys procesů atd.

Jenomže... Zdaleka tím nemáme po problémech. Sice integrujeme o sto šest, ale to samo nám pořádek do dat nevnese, jenom lépe vidíme, v jakém stavu je skutečně máme. Skrze integraci problémy nekonzistentních informací v pravém slova smyslu vybublají na povrch – a také začnou podstatně více vadit.

Co tedy s tím? O co bychom měli v prvé řadě usilovat?

  • Chtěli bychom, aby podoby a obsah klíčových podnikových dat byly jednotné – a aby tato jednotnost byla (nejlépe automaticky) udržována.
  • Chtěli bychom, aby tato správná, jednotná, udržovaná data byla k disposici vždy, když jsou potřeba (pro lidi, byznys/organizaci i pro IT aplikace).
  • A chtěli bychom, aby zdroj těchto správných, jednotných a udržovaných dat byl stabilní, ověřený a spolehlivý.

Oborem, který si vzal dosažení těchto cílů za svůj úkol, se říká Master Data Management (MDM). Základní myšlenou MDM je, že se v organizaci začneme zabývat tzv. master daty. MDM se stará o to, jak je vytvořit, udržovat, šířit a používat. Aby je všechny články IT i byznysu/organizace mohly využívat jako referenční ověřená data z ověřených zdrojů. A aby je současně všechny články IT, byznysu i veřejné sféry musely závazně respektovat.

CO JSOU MASTER DATA

Někdy se říká, že jsou to referenční data, tj. ta, která slouží jako číselníky či etalony. Zahrnují jednak definice byznys entit a vlastní vzorová data. Mluvíme-li o definicích, máme na mysli i jejich struktury a vztahy, technické i byznysové/procesní definice, synonyma, hierarchie, asociace atd. Tedy vše, co nám umožní mezi daty a různými formami jejich existence navigovat. Vlastní data pak mohou být buď popisná (jsou to nám dobře známé etalony, číselníky, dimenze…), ale i transakční data (konsolidované metriky, ověřené transakční hodnoty, nejlepší hodnoty konsolidované z více zdrojů…).

KDE SE MASTER DATA VEZMOU

Master data představují ideál (vzor), k němuž mají data v podnikových systémech většinou daleko. Abychom takový ideál měli, musíme ho vytvořit, a to pouze z reálných existujících dat, což je aspekt, který tu „ideálnost“ trochu narušuje. Abychom se k ideálu přiblížili, je třeba potřebnou informaci z podnikových systémů nejprve extrahovat, konsolidovat, náležitě popsat a bezpečně a spolehlivě uložit. Každý z těchto čtyř kroků je netriviální záležitostí, která sama o sobě představuje docela obsáhlou disciplínu.
  • První krok – extrakce – se může jevit nezkušenému oku jako relativně nejjednodušší, ale i zde je potřeba se vypořádat s mnohdy velkou variabilitou dat, jejich (ne)dostupností v prostoru a čase, technickými a organizačními překážkami. Jednoduchá není často ani identifikace potřebných dat (jejich vystopování v džungli informačních systémů).
  • Druhý krok – konsolidace – je stěžejní a funkčně nejkomplikovanější částí celého procesu. Během tohoto kroku je třeba všechny posbírané záznamy zkontrolovat, případně doplnit a opravit, a potom identifikovat všechny, které k sobě navzájem patří (tedy patří ke skutečnému člověku, firmě, službě, výrobku, adrese, automobilu, účtu, výpisu z registru…). A z nalezených skupin pak vytvořit jeden ideální – master – záznam, jenž bude nadále reprezentovat daný subjekt. To už je hodně složitá činnost – vždyť ideálně bychom měli vždy porovnávat každý záznam s každým. Aby to bylo možné, je třeba použít speciálních metod a speciálních nástrojů, které to zvládnou v konečném čase.
  • Třetím krokem už se přibližujeme směrem k využívání master dat. Abychom je mohli správně použít, je třeba, aby byla jasně popsána a bylo jasně specifikováno, kdy, za jakých okolností a jakým způsobem je lze použít, kdo k tomu má právo, jak se mají vyvíjet, archivovat, mazat atd. Pokud máme být schopni tohle vše říci, znamená to, že se musíme problematikou používání dat v organizaci velmi vážně zabývat, musíme být vybaveni řadou znalostí, nástrojů a exekutivních pravomocí, jinými slovy je nutno povýšit řízení dat na v pravém smyslu slova exekutivní činnost a vytvořit pro ni odpovídající podnikové procesy a organizační strukturu.
  • Na konec je třeba master data někam uložit a zpřístupnit. To je úloha vysoce technického charakteru. Protože vyžaduje, aby jednotně definovaná a konsolidovaná data byla přístupná v každé situaci všem systémům, službám a byznysům/organizacím, ze kterých vzešla ve vší jejich rozmanitosti, a aby byla jednoznačně navázána na původní roztříštěná, nekvalitní, neúplná a nejednoznačná data, aby bylo možno vždy „vystopovat“ původ každé jednotlivé, tj. datové položky.

Všechny tyto popsané činnosti nestačí provést jednou a mít navždy vyhráno. Tak, jak v organizaci neustále vznikají, mění se a zanikají vlastní data, stejně v každém okamžiku žijí i master data. Což znamená, že vše se musí dít stále, často v reálném čase. Realizace takového řešení už představuje skutečnou technickou výzvu.

CO DÁL S MASTER DATY

Získali jsme master data a nyní se pojďme podívat na to, jak je spravovat. Tento proces má dvě stejně důležité a navzájem propojené roviny: organizačně procesní a technickou.
Master Data Management je, podobně jako jiné nově rozvíjené obory a iniciativy v oblasti IT, disciplína, která vykazuje posun vnímání od tradičního formálně technicky zaměřeného přístupu směrem obsahově a procesně chápaným řešením. Zvyšuje se důležitost sémantiky, organizace, byznysu; technologie jsou stále více chápány pouze jako nástroje a infrastruktura pro řešení obecné povahy.

V praxi to znamená, že realizace MDM vyžaduje kromě vlastního technického řešení ustanovení samostatných řídicích struktur (např. Data Governance Committee, Data Quality Manager, datoví stewardi...), které nastavují pravidla a řeší koncepčně konkrétní požadavky za účasti technických i problémově orientovaných lidí s dostatečnou pravomocí pro jejich prosazení.
Jednou z nejdůležitějších úloh je rozhodnutí, zda a v jakém rozsahu iniciativu Master Data Management realizovat. Příkladem podmínek, které by měly být splněny, aby se mohlo mluvit o MDM, jsou následující dvě:

V organizaci musejí být sdílena data z více zdrojů a ke sdílení musí být vůle. Není-li sdílení, nemohou existovat v pravém slova smyslu master data a není co řídit a spravovat.
V organizaci musí existovat iniciativa Data Governance nebo podobná, která prosazuje vůli sdílet data a nastavuje pro ni „zákony“.

JAK MŮŽE VYPADAT TECHNICKÉ ŘEŠENÍ

Vlastní řešení může mít různé podoby. Pokud to však má být řešení pro správu master dat (MDM), mělo by mít vždy minimálně tři základní komponenty:
  • Nástroje pro ukládání a správu master definic (vlastně metadat master dat) – tyto nástroje musí být schopny ukládat a zpřístupňovat metadata a ideálně by měly být vybaveny funkcemi pro vyhledávání, vytváření hierarchií a asociací, dopadovou analýzu apod. Měly by být vybaveny rozhraními a nástroji pro import a export metadat a rozhraními pro přístup z aplikací, které metadata využívají.
  • Úložiště a správa master dat – typicky databáze s implementovaným speciálním datovým modelem (např. struktury zákaznická master data), obvykle i speciální aplikaci pro operace s master daty (ruční opravy a klasifikace, ověřování, identifikace…) a sadou rozhraní pro distribuci master dat.
  • Transportní mechanismus – master data (vč. metadat) mají především sloužit jiným aplikacím a byznysům – a k tomu potřebují mechanismus, který jim je dopraví. Může jít o „klasickou“ distribuci číselníků, ale třeba i on-line služby ověřování údajů o klientovi (právnické či fyzické osobě a občanovi), účtu, adrese atd. v reálném čase. Transportní mechanismus by rovněž měl respektovat další prvky IT architektury a infrastruktury podniku. Jeho součástí mohou být aplikační servery, messagingové systémy, samostatné standardizované komponenty aplikací apod.
  • Konsolidační mechanismus – jak naznačeno výše, konsolidace dat je stěžejním prvkem v architektuře řešení MDM. Je na něm postavena kvalita celého řešení. Musí být schopen (často v reálném čase se subsekundovými odezvami) zvládat zpracování velkých objemů dat pomocí komplexních postupů a algoritmů, takže věcně i technicky jde o kritické místo systému.
Součástí řešení může být celá řada dalších komponent, které se mohou lišit podle typu organizace a jejích hlavních priorit.

JAK MŮŽE VYPADAT KONKRÉTNÍ ŘEŠENÍ MDM

V konkrétních situacích může řešení správy master dat nabývat nejrůznějších podob. Představíme zde stručně dva „krajní koncepty“, skutečnost pak může být kdekoliv mezi nimi (nebo možná i za nimi).

MINIMALISTICKÉ ŘEŠENÍ

Toto řešení se vyznačuje tím, že vyžaduje minimum zásahů do existující technické infrastruktury. Na druhé straně se více spoléhá na organizaci, formální vyžadování dodržování pravidel, uživatelskou kázeň. Má následující hlavní rysy:

Primární systémy zůstanou technicky nedotčeny, respektování centrálních standardů zajištěno metodicky a organizačně.

Master databáze má spíše „evidenční charakter“, obsahuje konsolidovaná data (instanční záznamy, master záznamy, unifikovaná ID atd.).Generuje podklady (reporty) pro ruční procesy v primárních systémech, slouží jako zdroj pro systémy druhotného zpracování (DW/BI, BAM) – např. jako prvek „na trase ETL“. Synchronizace se provádí ručně směrem k primárním systémům, automaticky (ETL) směrem k sekundárním systémům.

IDEÁLNÍ ŘEŠENÍ

Představuje plně automatizovanou variantu s maximální možnou mírou integrace podnikových systémů. Může mít technicky různé podoby, zde je naznačena pouze jedna z nich:
  • Primární systémy při každé změně dat volají službu MDM, dostanou se do nich pouze ověřená data. Při změně primárních systémů se vždy vychází z centrálních master definic.
  • Master databáze je vždy (v každém okamžiku) aktuální. Automaticky vytváří nové master záznamy pro nové subjekty.
  • Synchronizaci technicky řeší MDM hub – speciální technologie vybavená on-line i dávkovým rozhraním pro komunikaci s aplikacemi, aplikačními a integračními platformami, která na základě vestavěné logiky pro konsolidaci a synchronizaci dat poskytuje automatizované služby MDM.
Transportní mechanismus nemusí být součástí vlastního MDM řešení. Předpokládá se, že existuje funkční integrační platforma.

ZÁVĚR

Vývoj počítačové vědy a počítačových systémů zaznamenal spoustu kampaní, iniciativ a koncepcí, o kterých se tvrdilo, že představují zásadní obrat a fenomenální přískok ke světlým zítřkům. Protagonisté každé takové nově vzniklé disciplíny mají tendenci její význam samozřejmě přeceňovat. Master Data Management se z tohoto schématu poněkud vymyká. Není to obor, který vznikl „velkým třeskem“, krystalizuje se postupně tím, jak jsou explicitně a stále přesněji formulovány jevy a zásady, které dnešní praxe zpracování dat přináší. A co je možná nejdůležitější, i když ne na první pohled tak jasně viditelné, je zřetelný praktický posun od technologických řešení k řešení problémů skutečného života skutečných lidí ve skutečném byznysu.

Autor je ředitelem oddělení implementace MDM ve společnosti Adastra Corporation.




Komentáře