Postavte datový sklad I.

Mezi klasickým a datovým skladem příliš mnoho analogií nenajdeme.

Postavte datový sklad I.


V klasickém skladu se ukládají materiály, součástky a polotovary, které vstupují do výrobního procesu, nebo naopak, shromažďují se tam výrobky předtím, než se budou expedovat. Nikdo ale nemá zájem skladovat dlouhou dobu polotovary, a už vůbec ne hotové výrobky.

Čím rychleji je dokáže firma vyexpedovat a prodat, tím lépe pro její ekonomiku. V datovém skladu je naproti tomu snaha shromažďovat a uchovávat informační bohatství firmy za co nejdelší období. Než ke klasickým skladům je tedy datové sklady možné přirovnat k depozitářům muzeí. I v tomto případě se muzeum, přesněji instituce, která ho spravuje, snaží shromažďovat exponáty, třídit je jednak časově, geograficky, podle druhů a podobně.

Údaje se získávají a ukládají do produkčních (operačních) databází, které mohou být v různých odděleních firem, nebo dokonce v rozličných geografických lokalitách. Tyto údaje v pravidelných intervalech sklidíme, předzpracujeme a zavedeme do datového skladu. Po vhodném předzpracování se do datového skladu ukládají údaje z nestrukturovaných databází a jiných heterogenních zdrojů.

Snad nejznámější definice datového skladu pochází od Billa Inmona: Datový sklad je podnikově strukturovaný depozitář subjektově orientovaných, integrovaných, časově proměnných, historických dat použitých k získávání informací a na podporu rozhodování. V datovém skladu jsou uložena atomická a sumární data.

Definice DWH

Definice podle Billa Inmona je velmi stručná a výstižná. Každá část má hlubší význam:
subjektová orientace: Údaje se do datového skladu zapisují podle předmětu zájmu, ne podle aplikace, ve které byly vytvořeny. Při orientaci na subjekt jsou data v datovém skladu kategorizována podle subjektu, kterým mohou být např. zákazník, dodavatel, zaměstnanec, výrobek a podobně.
integrovanost: Datový sklad musí být jednotný a integrovaný. To znamená, že údaje týkající se konkrétního předmětu se do datového skladu ukládají pouze jednou.

Není to úkol jednoduchý, protože údaje přicházejí do datového skladu z nekonzistentního a neintegrovaného operačního prostředí. Proto musejí být údaje v etapě přípravy a zavedení upravené, vyčištěné a sjednocené. Pokud údaje nejsou konzistentní a důvěryhodné, datový sklad ztrácí význam.

Časová variabilita: Údaje se ukládají do datového skladu jako série snímků, z nichž každá reprezentuje určitý časový úsek. Na rozdíl od operačního prostředí, kde jsou údaje platné v okamžiku přístupu, v datových skladech jsou údaje relevantní pro určitý časový moment, časový snímek. Zatímco v operačním databázovém prostředí se údaje ukládají za kratší časové období dnů, maximálně měsíců, v datovém skladu jsou údaje za delší časové období, typicky několik let.

Neměnnost: V operačních transakčních databázích jsou údaje do databáze jednak vkládány, jednak modifikovány a i mazány. Údaje v datovém skladu se obvykle nemění ani neodstraňují, jen se v pravidelných intervalech přidávají nové údaje. Proto je manipulace s údaji daleko jednodušší v datových skladech. V zásadě můžeme připustit pouze dva typy operací. Zavedení dat do datového skladu a přístup k těmto údajům. Žádné změny údajů nejsou přípustné.

Datový sklad jako jediný zdroj datové pravdy

Redundance a s ní související nejednoznačnost údajů se nejlépe eliminují tak, že datový sklad bude trochu nadneseně řečeno jediným zdrojem datové pravdy v informačním systému a uživatelé by na všech úrovních kromě operační, kde data vznikají, měli vidět jen data z datového skladu. Samozřejmě různí uživatelé budou mít různý úhel pohledu a různý způsob výběru a formátování dat v reportech, ale všechny reporty budou vytvořeny nad společnými a obecně platnými, čistými a konzistentními údaji.


Úvodní foto: © vege - Fotolia.com




Komentáře