* 사업 등 관련 문의: T) 02-322-4688, F) 02-322-4646, E) info@wikisecurity.net
Big Data 기술의 성공적인 실체로 잘 알려진 Hadoop 과 NoSQL은 현재 산업계표준으로 자리잡고 있는듯하다.
Hadoop 자체는 파일시스템과 분산처리 플랫폼이지만 Hadoop을 중심으로 다양한 구성요소들을 결합함으로써 Big Data의 중심이 되고 있다.
Hadoop을 기반으로 다양한 기술요소들을 결합한 집합체를 Hadoop ECOsystem이라고 하는데, 다양한 Open Source 들이 계속적으로 만들어지고 있어서 Hadoop ECOsystem은 계속해서 그 지도가 바뀌고 있다.
Hadoop 관련 프로젝트 현황은 http://hadoopecosystemtable.github.io/ 에서 자세한 내용들을 확인할 수 있다.
(*) 출처: 미래사회와 Big Data기술-정보통신산업진흥원, 2012.04.11
(*) 출처: http://www.adastra.cz
아래의 사용예는 통신사의 사례로써, 기존의 DWH 플랫폼은 표준 리포팅으로 존재하고, Hadoop 플랫폼은 상당히 큰 데이터의 처리와 아카이빙과 분석의 용도로 특별히 사용되는 Hadoop ECOsystem의 구성사례이다.(*) 출처: http://www.adastra.cz
1. Enterprise DWH는 운영시스템들의 데이터을 저장하고, 저장된 데이터는 Data Storage에서 분석과 리포팅 등의 기초자료로 제공된다.
2. Network Monitoring, Web log, Social network data 들은 hadoop에 저장되고 Hadoop Library 들이 그 데이터들을 처리하고 분석한다.
3. CDR(통화상세기록, Call Detail Record)들은 필요한 경우 DWH에 저장된 후에 Hadoop으로 옮겨지며 거기에서 분석을 위해 사용될 수 있다.
4. 그 분석결과와 종합통계는 데이터 마이닝 모델 또는 리포팅을 위해 필요하게 되고 그 이후에 Hadoop에서 DWH로 옮겨진다.
5. Business Intelligence에서는 DWH와 Hadoop의 데이터를 모두 사용할 수 있으며, 두개의 플랫폼을 조인해서 단일 리포팅이나 분석을 위해 사용될 수 있다. 이 기능은 데이터분석에 많은 시간이 소요되거나 가설을 테스트하거나 에측모델을 생성하는 고급유저에게 특히 유용하다.