Jak zpracovat petabajty dat: Vědecké sítě příští generace - 2

Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejich skladování, distribuce i zpracování si vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN. V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.

Jak zpracovat petabajty dat: Vědecké sítě příští generace


Expertní obsazení
Tým GriPhyN je tvořen sedmi výzkumnými skupinami a členy všech čtyř rozsáhlých experimentů. Analýza dat z těchto experimentů představuje obrovskou výzvu. Tisíce vědců roztroušených po celém světě a spojených sítěmi s přenosovou kapacitou lišící se o celé řády musejí totiž být schopny získávat velmi slabé signály z extrémního pozadí. Požadavky na výpočetní výkon během následujícího desetiletí vzrostou řádově ze stovek terabytů na stovky petabytů. Výpočetní i skladovací kapacity musí být z technických i strategických důvodů geograficky rozloženy mezi národní, regionální a universitní centra i individuální počítače. Rozsah tohoto úkolu zdaleka přesahuje současné možnosti řízení a zpracování dat.
Základem koncepce budoucího systému je proto představa tzv. virtuálních dat (Virtual Data), která zahrnuje definici a dodání potenciálně neomezeného virtuálního prostoru. V tomto virtuálním datovém prostoru bude každý požadavek uspokojen buď přímým přístupem k datům, nebo výpočtem. Užitá strategie při řešení každého požadavku bude záviset na lokálních i globálních zdrojích a bezpečnostních omezeních.
Ačkoliv hlavním cílem projektu GriPhyN je základní výzkum v oblasti virtuálních datových sítí, budou zároveň vytvářeny i softwarové systémy a aplikovány technologie umožňující analýzu dat. Vzniklé výpočetní kapacity najdou své uplatnění například i v biologii (projekt čtení lidského genomu), medicíně (projekt mapování lidského mozku), studiu životního prostředí (dálkový průzkum Země), rentgenové krystalografii (databáze molekulárních struktur), geofyzice (časové řady seizmických dat), meteorologii (analýza satelitních snímků) a řadě dalších oborů.

Virtuální datová síť
Ve zmíněných experimentech se objevují problémy, lišící se v následujících aspektech od v současné době vyřešených úkolů:
- analýza dat je nejen výpočtově, ale i datově intenzivní a může zahrnovat tisíce počítačů a dalších síťových zdrojů. Problémem není jenom přenos velkého množství dat, ale též koordinované řízení jejich zpracování.
- potřebná koordinace se přitom týká velkého počtu zdrojů, které jsou ze strategických a technických důvodů geograficky značně distribuované a nejsou ani centrálně řízené.
- rozsah uživatelských požadavků a možností jednotlivých zdrojů je obrovský - od komplexních problémů jednotlivých experimentů po individuálních požadavky jednotlivých účastníků.

Virtuální datová sít má proto následující charakteristiky:
- velký rozsah (národní, celosvětový), zahrnuje velké množství zdrojů
- je to víc než "jenom" síť v podobě jakou má například dnešní internet; poskytuje nové sofistikované služby, mechanismy a rozhraní, které dohromady umožní, aby vzdálené zdroje byly využity při koordinovaném úsilí
- poskytuje nový stupeň průhlednosti v tom, jak jsou integrovány manipulace s daty dat a zpracovací kapacity. Tato průhlednost je nezbytná z toho důvodu, aby síť využívající mnohaúrovňové a rozptýlené zdroje bylo možno nějak optimalizovat.

Představa virtuálních dat znamená, že všechna data - s výjimkou dat experimentálních - mohou existovat pouze jako specifikace postupu jejich odvození z experimentálních dat. To znamená, že Grid může obsahovat nula, jednu či hned několik kopií odvozených dat v závislosti na pravděpodobnosti požadavků na ně a na relativních nákladech jejich výpočtu, skladování a přenosu.
Konkrétní příklad může vypadat následujícím způsobem (viz také schéma). Astronom se zabývá souvislostmi mezi orientací galaxií a efektem gravitační čočky vytvořené temnou mezigalaktickou hmotou. Ke svému výzkumu využije data pocházející ze SDSS. Potřebuje přitom analyzovat řádově desítky miliónů galaxií. Pro každou z nich musí nejdříve získat její snímek, zpracovat jej a uložit výsledek. Vykonání tohoto požadavku znamená několikanásobný přístup do katalogu virtuálních dat. Nejdříve je zjištěno, zda už podobná analýza nebyla provedena. Pokud ne, jsou vyhledány aplikace potřebné pro transformaci hrubých dat a k určení místa jejich uložení. Může se jednat o síťovou cache, vzdálené diskové systémy či "hluboký" archív. Dále jsou zjištěny možnosti zapojení jednotlivých počítačů a sítí, kterou budou schopny požadované operace provést. Tento jednotlivý požadavek tak může zahrnovat využití tisíců procesorů a přesun terabytů dat po celé síti.
Cílem projektu přitom samozřejmě není jen teoretický výzkum v dané oblasti, ale rovněž aplikace získaných poznatků při vývoji výpočetních nástrojů. Postupně by měla být vyvinuta celá komplexní sada nástrojů virtuální sítě (Virtual Data Toolkit, VDT).

IT pro virtuální data
Realizace pojmu virtuálních dat v sobě zahrnuje nutný výzkum ve třech hlavních směrech.
- technologie virtuálních dat. Budou vyžadovány nové metody katalogizace, charakterizace, ověřování a archivace softwarových produktů, které budou sloužit k integraci manipulace s virtuálními daty s existujícími informačními modely a přenosovými protokoly. Tyto metody musejí být aplikovány v prostředí, ve kterém jsou jednotlivé softwarové komponenty, data a výpočetní kapacity distribuovány, pod lokální kontrolou a s možností updatu. Katalog virtuálních dat je zdrojem mnoha typů informací, například metadata, procedury, reprodukce dat či informace o samotném gridu. Ačkoliv obsahuje různé typy dat s různými charakteristikami, jednotná reprezentace a přístupové metody zjednoduší plánování požadavků. Výzkum koordinuje Reagan W. Moore a podílí se na něm odborníci ze San Diego Supercomputer Center a University of California (Berkeley).

- plánování síťových dat a výpočetních zdrojů. Faktory, které ovlivňují vývoj plánu, zahrnují požadavek uživatele, plánování na globální i lokální úrovni a celkový stav systému. Požadavek nemusí znamenat pouze samotnou žádost o splnění určitého úkolu, ale může zároveň obsahovat optimalizační kritéria, jako je zpracování v nejkratším možném čase či využití co nejmenšího množství síťových zdrojů. Jakýkoliv plán je samozřejmě omezen dostupností zdrojů a to znamená nutnost získání informací o systému. To ovšem komplikuje plánování kvůli rozsáhlosti systému a obtížnosti stanovení budoucího stavu systému. Výzkum v této oblasti, který vychází ze zkušeností už zmíněného projektu Monarc, vede Ian Foster. Jeho tým zahrnuje vědce z University of Chicago, Florida, Indiana a Southern California.

- řízení výměny dat a prováděných úkolů mezi jednotlivými centry a organizacemi. Poté, co je vyvinut plán pro vyřešení daného požadavku, vyvstane potřeba mechanismu, který bude řídit provedení tohoto plánu v rámci virtuální datové sítě. V souladu s představou nástrojů virtuálních dat mají i výkonné mechanismy splňovat vrstevnatou strukturu. Budou založeny na existenci agentů různých úrovní, kteří budou řídit distribuované výpočty, lokalizaci a následné zapojení zdrojů, detekci chyb a interakci mezi plánem a jeho provedením. Simulace chování Gridu budou velmi důležitým vývojovým nástrojem. Výzkum naváže na výsledky experimentů Condor, Globus a dalších, vede jej Miron Livny a dále na něm spolupracují University of Florida, Wisconsin a California, San Diego.

Budoucnost
Vysoce decentralizovaná síť umožní uživatelům nacházejícím se kdekoliv na světě efektivní přístup ke špičkovým datům z jednotlivých fyzikálních oborů. Co je ještě důležitější, Grid zcela převrátí celosvětově zažitou představu jednotlivých pracovišť soustředěných do center. Namísto přesunu lidí a zdrojů z různých míst do těchto laboratorních center umožní přesun dat k lidem na různých místech.
Využití ve vědeckém výzkumu je zřejmé. Ale i komerční společnosti by mohly možností těžit z možností nové sítě. Pokud by tato myšlenka přilákala soukromé investory, mohl by Grid velmi rychle následovat bouřlivý rozvoj internetu, který následoval po jeho otevření komerčnímu světu.








Komentáře