Vhodným řešením je analytická platforma, která „poroste“ s požadavky zákazníka a nebude vyžadovat za dobu své existence významnou investici. Může jí být populární Hadoop, který dovoluje extrémně levné uložení všech dat, a stává se tak přitažlivým pro širší spektrum analytických nástrojů. Jako příklad kvalitních open source analytických nástrojů, které umějí analýzu nad Hadoopem, lze uvést Radoop (vzniklý klonem nástroje RapidMiner). K přípravě dat jsou k dispozici také ETL nástroje, jež využívají pro transformaci přímo Hadoop. Pro tuto platformu existuje i mnoho databází.
Hadoop je vysoce škálovatelný. Může existovat jako jediný počítač – kde analytik například na vzorku zjišťuje potenciál skrytý v datech – ale i jako cluster s mnoha jádry, kde se cena například za 20 jader (tedy asi 40 TB) a za další hardware i software odhadem pohybuje kolem 300 tisíc korun. Lze si jej pronajmout i formou cloudu pro potřeby specifického výpočtu.
Hadoop není všelékem na problémy současného IT světa, ale je pro určité problémy vhodnou platformou, u jiných stojí alespoň za sledování. Takovou oblastí může být například schopnost zpracování velkého objemu dat v real-time módu, kde vznikají řešení jako HStream nebo Storm.
Dnes již lze s jistotou říct, že exploze dat okolo nás hned tak neustane, naopak. Platforma Hadoop doplněná o analytické nástroje může být komplexním a překvapivě levným řešením současných (i budoucích) potřeb na efektivní zpracování dat.
Autor působí jako principal consultant ve společnosti Profinit
Komentáře