Jak zpracovat petabajty dat: Vědecké sítě příští generace

Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejich skladování, distribuce i zpracování si vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN. V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.

Jak zpracovat petabajty dat: Vědecké sítě příští generace


Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejich skladování, distribuce i zpracování si vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN. V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.

Do projektu GriPhyN (Grid Physics Network) se přitom zapojí také university z USA a americká National Science Foundation (NSF) již oznámila udělení grantu ve výši téměř 12 miliónů dolarů.

V CERNu se na urychlovači částic LHC (Large Hadron Collider) připravují experimenty, které by měly umožnit nahlédnout do úplných základů struktury hmoty. Cílem je zodpovědět otázky typu "proč proton váží 2000krát více než elektron". Každý z experimentů zaměstná řádově tisíce vědců z celého světa. A každý z nich bude produkovat petabyty dat (peta = 10^15) ročně.
Již v loňském roce byl přitom zahájen další velmi ambiciózní projekt - pátrání po gravitačních vlnách produkovaných pulzary, supernovami a dalšími exotickými vesmírnými objekty. Už nyní je v provozu také automatická prohlídka oblohy (SDSS - Sloan Digital Sky Survey), jejímž cílem je pořízení dosud nejobsáhlejšího astronomického katalogu v digitální podobě.

Grid pro fyziky
Enormní množství dat, jejich skladování, zpracování a zpřístupnění tisícům vědců z celého světa, to všechno jsou faktory dosud bezprecedentní. Žádný počítač není dostatečně výkonný, aby všechny tyto funkce zvládl. Koncepce GriPhyN proto přináší řešení v podobě propojení universit, superpočítačových center, výzkumných laboratoří a dalších zdrojů do jediného obřího počítače virtuálního. Jeden z vedoucích celého projektu, profesor Ian Foster z University of Chicago, přirovnal GriPhyN k jakémusi Napsteru pro vědce.
Pojmenování Grid ukazuje na analogii s elektrickou rozvodnou sítí. Kdykoliv připojíte spotřebič k této síti, nevíte zda odebíranou energii vyrobila tepelná elektrárna nacházející se v severních Čechách, vodní elektrárna na Vltavě či jedna z jaderných elektráren - pouze očekáváte její dodávku. Princip Gridu je podobný. Po zadání úlohy do celosvětové sítě daný vědec nebude vědět, zda jeho úlohu zrovna řeší Národní počítačové centrum v Indianě či PC na některé universitě. Síť automaticky tuto úlohu zadala některému v daný okamžik zrovna nevyužitému zdroji.
Aby bylo možno uvést myšlenku Gridu do praxe, musí informační technologie překonat řadu doposud neřešených problémů:
- rychlý a jednoduchý přístup k datovým souborům z databází, jejichž velikost vzroste v následujícím desetiletí ze 100 TB na 100 PT.
- jednoduchý přístup k distribuovaným výpočetním zdrojům, jejichž výkon během následujících deseti let vzroste z teraflopů na petaflopy.
- spojení řádově tisíců pracovišť, přičemž šířka přenosového pásma jednotlivých z nich se může lišit o celé řády.

Cílů projektu přitom nelze dosáhnout pouhým přidáním výpočetních zdrojů. Realizace myšlenky bude vyžadovat řadu nových řešení, například algoritmy distribuovaného počítání, vysokorychlostní sítě, uchování rozsáhlého množství dat a prostředky pro jeho řízení a kontrolu.
Mezi jednotlivými experimenty, pro jejichž řešení GriPhyN vzniká, existuje navíc řada odlišností. Hledání velmi slabých signálů v rámci projektu LIGO bude vyžadovat velký výpočetní výkon, řádově až petaflopy, což je nesrovnatelně více než oba experimenty na LHC. Tyto pokusy budou na druhé straně ale produkovat o dva řády více dat než LIGO, jehož množství výstupních dat je zase mnohem větší než u SDSS. Rovněž rozsah vědecké komunity u jednotlivých experimentů je různý. Zatímco data LHC budou očekávat tisíce vědců, u zbývajících projektů to budou stovky.

Vrstevnatá struktura
Navrhované řešení předpokládá propojení výpočetních zdrojů CERNu, univerzit a výzkumných laboratoří do víceúrovňové hierarchické počítačové sítě, jež by byla mezikontinentální co se týká geografického rozložení. Tato síť by měla mít pět vrstev:

- Vrstva 0 - CERN, experimenty ATLAS a CMS
- Vrstva 1 - americké národní centrum pro experimenty ATLAS, CMS, LIGO a SDSS
- Vrstva 2 - regionální centra umístěná na universitách (malé země, státy USA)
- Vrstva 3 - výpočetní zdroje výzkumných skupin na jednotlivých univerzitách
- Vrstva 4 - individuální pracovní stanice (tisíce)

Každá vrstva je definována kapacitou dat, které je schopna ukládat a poskytovat na vstupu/výstupu. V rámci grantu americké Národní vědecké nadace bude financována vrstva 2, zatímco vrstvu 1 by mělo vybudovat americké Ministerstvo energetiky (DoE), neboť právě v jeho národních laboratořích budou centra pro ATLAS a CMS. Vrstvu nula má na starosti samozřejmě CERN. A zbývající dvě vrstvy jsou úkolem jednotlivých pracovišť, která budou do Gridu zapojena.
Zatímco vrstvy 3 a 4 vzniknou v podstatě "jenom" rozšířením současných kapacit a zdrojů, u vrstvy 2 se bude jednat o zcela nový výpočetní zdroj. Multigigabitová páteřní síť propojí jednotlivá pracoviště 2. vrstvy s centry vrstvy 1 a s CERNem. K této síti budou připojena pracoviště nižších vrstev pomocí v té době již existujícího internetu nové generace. Předpokládá se existence 19-20 center 2. úrovně. Zatím nejsou pevně stanovena kritéria pro jejich výběr, ale předpokládá se jejich geografická rozptýlenost, možnost co nejsnazšího připojení k vysokorychlostní páteřní síti a také poloha v oblastech se zastoupením kvalifikovaného personálu. Odhadované náklady na jejich zřízení jsou 85-90 miliónů dolarů investovaných v průběhu 5 let.
Komentáře