임팔라가 빠른 이유
697
작성한 질문수 9
안녕하세요.
보통 스파크나 인 메모리 기반 시스템은 메모리 엔진에 저장하는 과정이 필요한데, 임팔라는 데이터를 별도의 적재 과정이 없는 것 같습니다. 그럼 이미 hive를 통해 처리된 데이터가 메모리에 동시에 적재된 건가요 ?
답변 1
0
안녕하세요! 고준호님!
아래 답변 드립니다.
Q. Impala가 Hive보다 빠른 이유는???
A. Hive 쿼리는 MapReduce로 전환 되서, 여러 데이터노드에 분산 되어 있는 HDFS 파일을 읽어 쿼리 조건에 맞는 작업을 수행 하게 됩니다. 이때 분산 되어 있는 파일들을 각각의 데이터 노드에서 합치고/쪼개고/추출하는 등의 작업이 여러 노드들에서 반복 진행 되는데요.. 이때 핵심은 각각 노드들이 처리(이때는 메모리)한 결과를 디스크에 저장하고, 이를 다시 특정 노드로 보내서 합치는 작업들이 파일의 크기에 따라 여러차례 반복 됩니다. 앞의 디스크에 저장된 파일을 맵리듀스의 중간파일이라고 부르는데요, Impala는 이 중간파일을 메모리에 생성 한다는 큰 차이가 있고, 오버헤드가 큰 Disk IO를 피할수 있어서 Hive보다 빠른 응답속도를 만들어 냅니다.
Q. 이미 hive를 통해 처리된 데이터가 메모리에 동시에 적재된 건가요 ?
A. Impala는 하이브와 의존성 없이 작동합니다.
- 빅디 드림
주제영역3 데이타 조회 문의
0
59
2
환경 세팅 후 클라우데라매니저 삭제시
0
84
2
수강 기간 연장 부탁드립니다ㅠ
0
79
2
클라우데라 매니저 접속 불가 및 로그인 정보 문의
0
103
2
gcc 설치 에러
0
141
3
클러스터 설정 오류
0
110
2
클라우데라 클러스터 설치로 안넘어가짐
0
127
2
버추어박스 5.0 설치
0
158
2
워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.
0
92
2
Hue 500 Error 어떻게 해결할 수 있나요?
0
162
3
환경세팅 질문있습니다.
0
114
2
버쥬얼박스
0
85
2
호스트 불량 문제에 관하여
0
113
2
하이브쿼리에서 에러가 나요...
0
187
3
하이브쿼리에서 에러
0
129
1
Hbase에 적재된 데이터 확인시 에러
0
159
2
파이썬 설치 시 에러
0
175
2
redis-cli 데이터 적재 확인
0
147
2
카프카 토픽 생성에서 에러
0
150
2
HDFS 명령어를 치는데 오류가 납니다
0
142
2
가상환경 내보내기
0
116
1
SpoolDIR 폴더로 옮기
0
115
2
cpu usage 에러
0
115
2
쿼리 실행시 10000 에러
0
131
2





