작성일 댓글 남기기

[Hadoop] 하둡이란?

클라우데라(하둡 생태계)

하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 이용하여 여러대의 컴퓨터 클러스터에서 대규모의 데이터를 분산 처리 할 수 있게 해주는 프레임 워키입니다.

단일 서버에서는 수천대의 머신으로 확장 할 수 있도록 설계가 되었습니다. 일반적으로 하둡파일시스템(HDFS)와 맵리듀스(MapReduce)프레임워크로 시작되었으나, 여러 데이터 저장 및 실행엔진, 프로그래밍 등 데이터처리와 같은 하둡 생태계 전반을 포함하는 의미로 확장하고 발전하게 되었습니다.

분산 코디네이터 – Zookeeper

분산 리소스 관리 – YARN, Mesos

데이터저장 – HBase, HDFS, Kudu

데이터 수집 – Chukwa, Flume, Scribe, Kafka

데이터처리 – Pig, Mahout, Spark, Impale, Hive, MapReduce

답글 남기기