inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

15일간의 빅데이터 파일럿 프로젝트

6.분석 파일럿 실행 4단계 - 01. 제플린으로 실시간 분석

인메모리 방식의 궁금증

357

고준호

작성한 질문수 9

0

안녕하세요 평소 인메모리 방식에 대해 궁금증이 많은데요...
제플린에서 분석하기 위해 hdfs 파일을 업로드 하는데...
 
만약 대용량의 데이터를 olap 처럼 활용하기 위해 사용한다면.,..
어떤 식으로 데이터를 메모리에 보존하게 되나요?
 
사전에 적재해놓는 건인가요?
 
예를 들어 ms의 analysis service는 메모리에 대규모 데이터를 적재합니다. spark도 그런 형식으로 하는 것인지 아니면 hadoop file system을 메모리상에 올린뒤 그 뒤에 계속 작업을 진행 하는 것인지 문의드립니다.

bigdata Hadoop ZooKeeper redis Impala Flume Kafka 데이터 엔지니어링

답변 1

0

Big.D

안녕하세요! 고준호님!

주신 질문을 보면 이미 정답의 반은 알고 계시네요...^^

Q. ms의 analysis service는 메모리에 대규모 데이터를 적재합니다. spark도 그런 형식으로 하는 것인지 아니면 hadoop file system을 메모리상에 올린뒤 그 뒤에 계속 작업을 진행 하는 것인지 문의드립니다.

A. 후자입니다. 

- 빅디 드림

0

고준호

그럼 최근에는 데이터 전처리를 스파크로도 많이 하는데 데이터 레이크 상의 빅데이터 처리 작업을 디스크에 적재하는 중간과정 없이 메모리에서 모두 작업한다는 말씀이시죠?

 

그러면 대규모 데이터 전처리 작업에서 얼마나 메모리가 필요한지는 어떤식으로 이해해야 할까요?

 

만약 온라인쇼핑몰에서 매일 10테라의 빅데이터가 쏟아지고 이걸 수파크로 전처리 한다고 생각했을 때 이 10테라의 데이터가 메모리에 어떤식으로 계산되고 적재될지.  .... 궁급합니다

0

Big.D

네~ 10TB 파일로 어떤 전처리 작업을 하냐에 달려 있습니다.

예를들어 하둡의 얀위에서 실행되는 스파크를 가정 하고, 문제를 좀 단순화 해서 설명 드리자면..

 

데이터 노드가 10대이고, 1대당 128GB의 메모리가 장착 되어 있고,

이중 100GB 정도를 스파크가 사용 가능 하다고 할때, 총 1000GB(1TB)를 사용할 수 있고,

10TB의 파일은 10대의 데이터노드에 블럭 크기로 골고루 분산 저장 되어 있을테고,

10TB의 파일에서 VIP 고객만 추출 하는 작업이라면,

동시에 처리할 수 있는 컴퓨팅 파워는 오롯이 가용 메모리 1TB가 됨,

대략... 10대의 데이터 노드가 각각 100GB씩 처리하며 동시에 1TB를 처리하면서,

VIP 고객을 추출 하는 위 단계를 10번을 진행 하게 됩니다.

이때 추출된 VIP 고객 정보는 아주 작은 크기로 메모리에 올라 올테고 문제없이 완료 될 겁니다.

하지만 문제를 바꿔서 10TB 고객정보에서, 지역별로 그룹바이를 하고,

소득순위별로 정렬하는 작업이라면...최종 결과 데이터 크기도 줄지 않을 테고,

결국 10대의 데이터 노드가 시작과 동시에 1TB를 처리 하는데, 그룹바이/정렬 결과는 그대로 1TB가 되어 메모리에 올라오고, 가용 메모리 1TB를 모두 사용한 상태가 되어, 다음 작업을 진행 하기 위한 메모리 부족으로 실패하게 됩니다.

대규모 분산 병렬처리는 실행 환경에 따라 보다많은 복잡도와 변수들이 발생 하게 됩니다. 그래서 여러 시행 착오를 거치기도 합니다. ^^;;


- 빅디 드림

주제영역3 데이타 조회 문의

0

59

2

환경 세팅 후 클라우데라매니저 삭제시

0

84

2

수강 기간 연장 부탁드립니다ㅠ

0

79

2

클라우데라 매니저 접속 불가 및 로그인 정보 문의

0

103

2

gcc 설치 에러

0

141

3

클러스터 설정 오류

0

110

2

클라우데라 클러스터 설치로 안넘어가짐

0

127

2

버추어박스 5.0 설치

0

158

2

워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.

0

92

2

Hue 500 Error 어떻게 해결할 수 있나요?

0

162

3

환경세팅 질문있습니다.

0

114

2

버쥬얼박스

0

85

2

호스트 불량 문제에 관하여

0

113

2

하이브쿼리에서 에러가 나요...

0

187

3

하이브쿼리에서 에러

0

129

1

Hbase에 적재된 데이터 확인시 에러

0

159

2

파이썬 설치 시 에러

0

175

2

redis-cli 데이터 적재 확인

0

147

2

카프카 토픽 생성에서 에러

0

150

2

HDFS 명령어를 치는데 오류가 납니다

0

142

2

가상환경 내보내기

0

116

1

SpoolDIR 폴더로 옮기

0

115

2

cpu usage 에러

0

115

2

쿼리 실행시 10000 에러

0

131

2