(주)케이비아이

정보시스템구축을 통한 가치창출

모든분야에서 최대의 경쟁우위를 확보할 수 있는 시스템 구축

빅데이터 솔루션

Hadoop (빅데이터 플랫폼)

본문

 


하둡(Hadoop) 빅데이터 플랫폼은 
방대한 양의 데이터 및 계산과 관련된 문제를 해결하기 위해 많은 컴퓨터의 네트워크를 사용하는 것을 용이하게 하는 오픈 소스 소프트웨어 유틸리티 모음입니다. MapReduce 분산 병렬처리 프로그래밍 모델을 사용하여 빅데이터의 분산 저장 및 처리를 위한 소프트웨어 프레임워크를 제공합니다.




케이비아이는 오픈소스 하둡 기반에 빅데이터 플랫폼 구축, 빅데이터 수집 저장, 빅데이터 분석 시각화를 제공합니다. 
상용 제품이 아닌 오픈소스 하둡 솔루션을 사용하여 저렴하고 빠르게 빅데이터 사업이 가능하도록 도와드립니다.




90d3058163bac1a8d40726a3b5f14521_1703051396_667.jpg


 

 


오픈소스 하둡 플랫폼 

 
오픈소스 하둡(Hadoop) 빅데이터 플랫폼은 다양한 비정형, 반정형, 정형 빅데이터들을 수집 저장할 수 있습니다.



90d3058163bac1a8d40726a3b5f14521_1703051407_6277.jpg

 

 
 

오픈소스 하둡 에코시스템 소개
Sqoop Apache Sqoop은 RDBMS와 HDFS간의 데이터 교환을 배치 형태로 지원하는 에코 솔루션으로 Oozie 작업과 연계하여 워크플로우 및 스케줄링 연동을 지원합니다. MapReduce 엔진을 사용하기 때문에 장애 상황에도 안정적인 추출/적재 작업 진행 가능합니다.
Flume Apache Flume은 이벤트성으로 발생하는 스트림 데이터를 Agent 기반으로 수집을 지원하는 에코 솔루션으로 다수의 Flume Agent가 하나 또는 다수의 Flume Collector로 Sync하여 운영을 지원합니다. Logger, Avro, HDFS, HBase 등의 다양한 Sync 기능을 지원하며 커스터마이징이 가능하며 여러 스트리밍 처리 에코시스템과 연계하여 구성 가능합니다.
Kafka 대용량의 실시간 로그 처리에 특화되어 설계된 메시징 시스템으로써 기존 범용 메시징 시스템대비 TPS가 매우 우수하며 분산 시스템을 기본으로 설계되었기 때문에, 기존 메시징 시스템에 비해 분산 및 복제 구성을 손쉽게 할 수 있습니다.
Hive Apache Hive는 대표적인 SQL on Hadoop 기술로 작성하기 어려운 MapReduce 코드를 SQL 로 인터페이스 가능하게 지원하는 에코 솔루션입니다. Hive용 SQL 언어인 HiveQL을 사용하여 다양한 함수를 활용가능합니다.
Spark SQL Apache Spark SQL은 인메모리 엔진인 Spark의 데이터를 익숙한 SQL 기반으로 처리할 수 있도록 지원하는 에코 솔루션 입니다. BI 연동이 용이하고 Spark Context에 Embeding이 용이합니다.
Spark
Streaming
Apache Spark Streaming은 스트림 데이터를 Spark 인메모리 분산 환경에서 실시간으로 분석을 지원하는 에코 솔루션으로 상태(Stateful) 분석에 사용됩니다.
Hue Hue(Hadoop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스입니다. Hive 작업 및 Pig 스크립트 등을 실행할 수 있으며 Oozie 작업 모니터링 및 스케줄링을 지원합니다.
Oozie Oozie는 Hadoop 작업을 관리하는 워크플로 및 코디네이션 시스템으로 DAG(Directed Acyclic Graph, 방향성 비순환 그래프)를 지원합니다.
Ambari 하둡 클러스터에서 각 시스템 리소스를 관리하고 모니터하는 운영 프레임워크(Framework)로써, 사용하기 쉬운 웹 UI를 제공하며 Hadoop관리를 단순화 시켜줍니다.








90d3058163bac1a8d40726a3b5f14521_1703051418_3087.jpg





  

댓글목록

등록된 댓글이 없습니다.