Data mining by mohl předcházet teroristickým útokům

Data mining by mohl předcházet teroristickým útokům


V rámci počítačové vědy je data mining relativně novým oborem. V nejširším smyslu jde o kombinaci statistických modelů, výkonných procesorů a umělé inteligence s cílem nalézt a vyhledat cenné informace, které by jinak mohly zůstat skryty v obrovských objemech dat. Obchodníci jej využívají k předvídání spotřebitelských vzorců chování zákazníků a společnosti podnikající v oblasti kreditních karet k odhalování podvodů. Po 11. září 2001 americká vláda dospěla k závěru, že data mining by se mohl osvědčit i při předcházení budoucím teroristickým útokům.

Odborníci říkají, že vláda a zejména zpravodajské služby začaly data miningu silně využívat. Zpráva GAO (Government Accountability Office, která je americkou obdobou našeho NKÚ) z roku 2004 uvádí, že federální agentury aktivně využívaly nebo plánovaly 199 projektů v oblasti data miningu. Čtrnáct z nich bylo vysloveně zaměřeno na dopadání teroristů a prevenci útoků. Do tohoto počtu ale nespadají projekty dalších sedmi agentur (jako CIA nebo NSA, Národní bezpečnostní agentura), které na dotazník GAO neodpověděly. Během uplynulého roku periodika jako The New York Times, USA Today a další noviny odhalily několik přísně tajných programů v rámci těchto vládních agentur, které shromažďují a hledají určité vzorce v záznamech telefonických hovorů, v záhlaví e-mailových zpráv a v dalších zdrojích soukromých informacích. Když existence těchto programů vyšla najevo, prezident Bush a další členové jeho administrativy je obhajovali jako zásadně nezbytný nástroj ve válce proti terorismu.

Vzhledem k tomu, nakolik americká administrativa sází na programy využívající nástroje data miningu, a vzhledem k všeobecnému tlaku, že je třeba udělat vše, aby se zabránilo dalším útokům, není nijak překvapivé, že šéfové agentur tyto projekty schvalují tak rychle, jak vznikají. „Převládá tady strach, že se něco prošvihne, když se to neudělá, protože pokud na tom něco je, nikdo nechce být považován za někoho, kdo je proti,“ říká Robert Popp, který pracoval jako náměstek ředitele Information Awareness Office (IAO) agentury DARPA (Defense Advanced Research Projects Agency). Vládní představitelé samozřejmě mají také bezprostřední důvod, proč podporovat projekty z oblasti data miningu, alespoň to tvrdí Robert Gourley, CTO zpravodajské agentury DIA (Defence Intelligence Agency): „Chceme chránit naši vlast a náš způsob života.“

Žádné vymezení, žádný rozpočet, žádný cíl

Někteří odborníci ale začínají pochybovat, zda IT strategie bez jakéhokoliv vymezení, rozpočtu a harmonogramu je pro tento účel to nejlepší. Je to prostě klasický příklad hlavolamu, se kterým se CIO setkávají dnes a denně. IT projekty, bez ohledu na to, jak jsou důležité, často selhávají, pokud neexistuje kontrola nebo tato kontrola jde stranou vzhledem k časové tísni nebo krizi. Absence dohledu je hlavním důvodem selhání projektů, uvádí Standish Group, analytická firma, která sleduje míru úspěšnosti IT. Výsledkem jsou nezřízeně ambiciózní projekty, neochota měnit původní vizi a věnovat pozornost známkám toho, že něco nefunguje. „Je lhostejné, zda jde o projekt dodavatelsko-odběratelského řetězce, ERP systém nebo data mining – tyto věci prostě je třeba brát v úvahu,“ tvrdí Jim Johnson, předseda Standish Group.

„Nikdo ve vládě se nepodíval na data mining z pohledu hodnoty IT,“ říká Steve Cooper, bývalý CIO nově zřízeného ministerstva pro domácí bezpečnost (Department of Homeland Security, DHS). „Nedokázal jsem odhadnout význam data minigu, když jsem byl na ministerstvu, a nedokážu to ani teď. Ale to nám nezabránilo, abychom jej nepoužívali.“.

Cooper jinými slovy tvrdí, že nikdo neudělal analýzu obchodního případu, aby se zjistilo, zda se vládě její investice vrací. Místo toho obvykle postačí racionalizace: Jestli projekt má šanci, že se díky němu podaří chytit aspoň jednoho teroristu, pak stojí za to.

Vzhledem k tomu, že výkony vlády v oblasti řízení IT projektů jsou obzvláště slabé, absence obvyklé analýzy IT projektu, definování priorit a manažerské kontroly se může vymstít. Těžce. Experti se obávají, že projekty by se mohly vléct celá léta, přičemž dobré projekty by se nakonec svezly s těmi špatnými a ztroskotaly by na ochraně osobních dat a občanských práv. (Kongres skutečně již řadu projektů v oblasti data miningu pozastavil, a to včetně plánu ministerstva obrany nazvaného Total Information Awareness Project z roku 2003, což byl ambiciózní pokus o vytvoření obrovské databáze obsahující prakticky všechno, co by mohlo být použito k identifikaci možných teroristů.)

Odborníci také mají obavy, že by vláda ve svém svatém nadšení pro uplatnění moderních technologií v boji proti terorismu mohla narušit fungování agentur bojujících proti zločinu, které mají v popisu práce hledat teroristy a zastavit je ještě před tím, než se něčeho dopustí. Jak ví každý dobrý CIO, jestliže uživatel považuje systém za překážku toho, aby mohl efektivně dělat svoji práci, vzepře se nebo jej prostě bude ignorovat – v tomto případě s potenciálně katastrofálními následky.

V řadách odborníků na data mining roste pocit, že je třeba, aby vláda při vytváření svých protiteroristických strategií uplatnila stejný druh analýz, jaké používají CIO v soukromém sektoru, když chtějí zabránit tomu, aby se jim jejich projekty vymkly zpod kontroly. „Tyto projekty mají naprosto rozumné cíle,“ říká Fred Cate, ředitel Střediska pro aplikovaný výzkum v oblasti počítačové bezpečnosti na University of Indiana. (Cate působil jako konzultant Poradního výboru pro technologie a ochranu dat, který v roce 2003 vytvořil ministr obrany Donald Rumsfeld, aby zjistil, jak jeho organizace využívá data mining.) „Neexistuje tady ale žádný dohled,“ konstatuje.

Data mining: Aktuální stav

Vládní projekty v oblasti data miningu lze rozdělit do dvou velkých kategorií: systémy založené na předmětu (subjektu), jež vyhledávají data, která by mohla analytikovi pomoci sledovat stopu, a systémy založené na vzorcích či modelech chování, které hledají podezřelé vzorce chování v širokém spektru aktivit. Většina odborníků na data mining považuje ten první způsob za určitou modifikaci klasické policejní práce – hledání stop – jenom místo toho, aby seznam telefonních čísel, na která podezřelý volal, studoval policista, dělá to počítač.

Jedna z technik předmětového data miningu, která si získává oblibu u státních úředníků i v akademických kruzích, se označuje jako link analysis (analýza vazeb). Tato analýza používá data k vytváření spojů mezi lidmi či událostmi, jež zdánlivě nemají nic společného. Pokud o někom víte, že je terorista, můžete použít software pro link analysis ke zjištění dalších lidí, se kterými onen podezřelý může být ve spojení. Podezřelým článkem by například mohl být nezvyklý počet e-mailů, které si sledovaná osoba vymění s někým dalším, šeky napsané různými lidmi stejnému příjemci nebo letenky zakoupené do stejného cíle se stejným datem odletu. Řada odborníků se domnívá, že projekt NSA, který analyzuje miliony záznamů domácích telefonických rozhovorů, představuje právě tento typ systému analýzy vazeb.

Hledání skrytých vazeb

Projekty analýzy vazeb ale mají význam jen tehdy, pokud mají úzce vymezený rozsah,“ tvrdí Valdis Krebs, IT konzultant, který se proslavil tím, že vytvořil mapu naznačující spojitosti mezi únosci z 11. září – tedy až po činu. Úspěšná analýza vazeb vyžaduje spolehlivý výchozí bod – například známého teroristu nebo telefonní číslo, které je s ním spojeno. Analýza vazeb je méně účinná, pokud se jejím prostřednictvím snažíme odhalit anomálii v chování. „Pokud se jenom díváte na oceán, najdete tam spoustu ryb, které vypadají jinak,“ přibližuje Krebs. „Jsou to teroristé nebo jenom nějaký druh, o kterém nevíte? Jestliže by vláda hledala jen výše zmíněné aktivity – e-maily, šeky, letenky – aniž by byla vložena podstatná informace, že jeden z členů sítě je terorista, vyšetřovatelé by se pravděpodobně dobrali spíše k odhalení příprav nějakého abiturientského večírku než teroristického spiknutí,“ říká Krebs. Pokud podle něj vláda rozhodí sítě příliš doširoka, projekty by mohly být dražší, trvat déle a nést s sebou riziko „falešných pozitivních výsledků“, jako je třeba ten zmíněný abiturientský večírek.

Příkladem uplatnění realističtějšího měřítka na projekt data miningu je systém, jenž momentálně testuje ministerstvo obrany a který prosévá data, jež tato organizace má o každé osobě s bezpečnostní prověrkou, přičemž se hledají vzorce, které by byly schopné upozornit na možnou špionáž. „Tyto vzorce by mohly zahrnovat nákupy a životní styl, jež nejsou v souladu s něčí platovou třídou, neohlášené cesty do zahraničí nebo e-mailovou korespondenci s osobou, o níž je známo, že pracuje pro cizí vládu,“ říká pracovník kontrarozvědky, který se na projektu podílí a který si přál zůstat v anonymitě. Parametry tohoto vyhledávání vypracovávají důstojníci kontrarozvědky na základě svých zkušeností s tím, jak vypadají podezřelé aktivity. Lze předpokládat, že tyto technologie se budou postupně zdokonalovat. Ministerstvo obrany si od toho slibuje, že se bude moci více opírat o umělou inteligenci, jež pomůže v rozhodování, které vzorce zasluhují, aby se jim věnovala další pozornost, a které ne.

Nicméně i systémy s omezenějším rozsahem, jako tento systém bezpečnostních prověrek na ministerstvu obrany, vysílají smíšené signály. „Právě teď je to zahlcení informacemi,“ říká pracovník kontrarozvědky. „Při těch pravidlech, která máme nyní, bychom ve výsledku měli asi tunu falešných pozitivních odhalení.“ Jeho cílem je zpřesnit celý systém a nakonec dokázat, že tato koncepce funguje. To snad podle jeho slov povzbudí účastníky ke sdílení většího množství dat.

Jeho projekt zatím není vyloženě úspěšný, ale nebyl ani prohlášen za debakl. Neočekává, že by měl použitelné výsledky dříve než za tři čtyři roky. Faktory, které rozhodnou o jeho budoucnosti, jsou stejné jako u kteréhokoliv jiného IT projektu: jak bude fungovat technologie, k řešení jakých problémů bude ministerstvo obrany systém využívat a jak naloží s výsledky, které dostane.








Komentáře