Big data: otázky bezpečnosti a soukromí stále nezodpovězeny

Přístupy k ukládání, správě, analýze a sběru big dat jsou nové, což s sebou samozřejmě přináší i četné výzvy v oblasti bezpečnosti a soukromí.

Big data: otázky bezpečnosti a soukromí stále nezodpovězeny


Big data přenášejí a zpracovávají osobní identifikační údaje jednotlivce jakožto součást masy dat – milionů až bilionů záznamů – rychle tak proplouvají novými uzly, z nichž každý má své vlastní zranitelnosti. Deidentifikace maskuje osobní identifikační údaje a odděluje informace, které určují konkrétního jednotlivce od zbytku jeho či jejích dat. Všeobecně se doufá, že tento proces chrání soukromí lidí a udržuje pod pokličkou informace, které by mohly roznítit předpojatost a další druhy zneužití. Existuje však tzv. reidentifikace, jež osobní identifikační údaje skládá zpět opětovným spojováním, čímž maří přístupy deidentifikace. Proto není realistické věřit, že by deidentifikace opravdu mohla dosáhnout 100% bezpečnosti a soukromí osobních informací ve scénářích big dat.

Zranitelnosti, odhalení a deidentifikace

Podniky spravují big data za pomoci velkých, komplexních systémů. „Běžně jde o ETL proceduru (extrahovat, přenést, nahrát), která nahraje big data z tradičního RDBMS datového skladu na cluster Hadoop. Protože je většina dat nestrukturovaných, systém uskuteční operaci, jejímž účelem je data strukturovat,“ vysvětluje Brian Christian, CTO společnosti Zettaset. Během těchto transakcí jsou však data velmi zranitelná.

Tvůrci řešení pro big data nikdy nepřemýšleli nad všemi možnými důsledky. Vezměte si například „map reduce“. „Google vyvinul map reduce pro ukládání veřejných odkazů, tak aby je lidé mohli hledat,“ říká Christian. Nikdo si nelámal hlavu s bezpečností, protože šlo o veřejné odkazy. Dnes podniky využívají map reduce a NoSQL systémy pro zdravotní a finanční záznamy, které by měly zůstat soukromé. Protože zde není přítomno zabezpečení, musejí podniky a výrobci tyto systémy zabezpečením dovybavit. „To znamená velký problém,“ říká Christian, „výrobci nenavrhli firewally a systémy detekce narušení (IDS) pro distribuované výpočetní architektury.“ Tyto architektury mají tendenci se škálovat až do extrémů, kam tradiční firewally a IDS nativně nedosáhnou.

Podle článku ve Stanford Law Review dostávají zranitelnosti odhalující osobní identifikační údaje lidi pod drobnohled, což vyvolává obavy z případného profilování, diskriminace a vyčleňování na základě demografických údajů jednotlivce. Přestože firmy využívají osobní identifikační údaje primárně k marketingu, z čehož mají zákazníci často spíše výhody, mohli by titíž výrobci, ale i vládní úřady a další třetí strany jednat i ke škodě jednotlivce.

Aby se tomu vyhnuly, používají metody deidentifikace – anonymizaci, pseudonymizaci, šifrování, kódování a tříštění dat – aby osobní identifikační údaje oddělily od reálných identit. Zatímco anonymizace chrání soukromí odstraňováním jmen, adres a čísel sociálního zabezpečení, pseudonimizace tyto informace nahrazuje přezdívkami, pseudonymy a umělými identifikátory. Kódování osobní informace zakóduje a vytvoří klíč k jejich dekódování. A tříštění dat rozdělí data na částečky v horizontálním dělení, což poskytuje dostatek dat pro práci, ale zase ne tolik, aby se dal identifikovat jednotlivec.

Opětovné vytváření identit

Nicméně počítačoví vědci ukázali, že dokážou využít data, která nejsou osobně identifikovatelnými informacemi, aby opětovně vytvořili identitu související osoby. „Existuje mnoho způsobů, jak data spojit znovu dohromady, a to dokonce i tehdy, máte-li k dispozici pouze jeden typ dat,“ říká Keith Carter, který vyučuje na Ekonomické škole Národní singapurské univerzity. Pokud by nějaká firma či vláda získala seznam GPS záznamů za poslední rok, mohla by je využít k tomu, aby zjistila mnohem více o osobě či osobách, od nichž záznamy pocházejí, včetně jejich identit.

Čtěte také:
→ Big Data Suite pro efektivní práci s velkými objemy dat
První „mega sada“ nástrojů pro zpracování velkých objemů dat usnadňuje a zjednodušuje používání datové platformy Pivotal Hadoop, relační databáze MPP a transakční databáze v paměti.
→ Stanou se big data zlatým dolem?
Trh velkých dat by měl v následujících pěti letech zažít exponenciální růst, a to jak z hlediska objemu zpracovávaných dat, tak z hlediska generovaných příjmů. Zatím má ale 85 procent firem problémy s analýzou svých dat.





Úvodní foto: © reborn55 - Fotolia.com

Vyšlo v CIO Business World 1/2014
Časopis lze koupit se slevou 20 %





Komentáře