
하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 이용하여 여러대의 컴퓨터 클러스터에서 대규모의 데이터를 분산 처리 할 수 있게 해주는 프레임 워키입니다.
단일 서버에서는 수천대의 머신으로 확장 할 수 있도록 설계가 되었습니다. 일반적으로 하둡파일시스템(HDFS)와 맵리듀스(MapReduce)프레임워크로 시작되었으나, 여러 데이터 저장 및 실행엔진, 프로그래밍 등 데이터처리와 같은 하둡 생태계 전반을 포함하는 의미로 확장하고 발전하게 되었습니다.
분산 코디네이터 – Zookeeper
분산 리소스 관리 – YARN, Mesos
데이터저장 – HBase, HDFS, Kudu
데이터 수집 – Chukwa, Flume, Scribe, Kafka
데이터처리 – Pig, Mahout, Spark, Impale, Hive, MapReduce