inflearn logo
강의

講義

知識共有

15日間のビッグデータパイロットプロジェクト

7.分析パイロット実行 5段階 - 02. スマートカー状態情報予測 (下)

hive로 파일을 만들고 다시 hdfs에 넣는 과정에 대해 궁금합니다.

424

e7217

投稿した質問数 4

0

안녕하세요~ 

좋은 강의 너무 잘 듣고 있습니다. 

 

다 이해하진 못한 상태라 기본적인 질문이어도 이해해주시길 바랍니다. 

처음 과정 중에 hive로 데이터를 불러와서 local에 저장 후 이를 다시 hdfs 에 넣는 hive->local->hdfs 부분에 대해 궁금합니다. 

hive -> hdfs로 넣으면 문제가 있나요?? local에 만든 후 다시 hdfs로 넣는 과정이 어째서 필요한지 궁금합니다. 

Hadoop bigdata 데이터 엔지니어링 Impala redis Flume Kafka ZooKeeper

回答 2

0

e7217

아하~ 혼자서 이 과정들을 하다보니 조직 내 프로세스를 생각해보지 못했었군요!

조직 내 업무 파이프라인까지 고려해서 강의를 만들어주신 점 너무 감사드립니다!!

이해가 됩니다. 저 과정은 업무 형태나 조직 구조가 어떻게 되어있느냐에 따라 달라질 수 있는거네요

상세한 답변 정말 감사드립니다

0

빅디

안녕하세요! 엄창용님!

오늘도 역쉬! 좋은 질문 입니다. ㅎㅎ

하이브와 HDFS의 기술적 역할이 다른거는 잘 아실테고요,,, 그러다 보니 사용자/부서/개발자/분석가 등등등 조직의 거버넌스 정책에 따라서 하이브와 HDFS를 사용하는 역할과 권한이 다릅니다.

단순화 하면은요...

* Hive - 데이터 엔지니어

* Local Disk/HDFS - 연동(I/F) 엔지니어

* Python/R - 분석가/모델러

 

위 상황에서 예를들면요..

1. 데이터 엔지니어가 Hive로 데이터 가공 및 전처리해서 Local 디스크에 생성

2. 연동 엔지니어가 Local 데이터를 읽어서 HDFS의 분석파일 경로로 이동

3. 분석가/모델러가 HDFS의 분석파일을 로드해서 Python/R 환경에서 분석 수행

 

이런걸 데이터 파이프라인이라 하고, 정확한 정답은 없습니다. 각자의 역할과 상황에서 담당하는 시스템을 이용해 최적의 파이프라인으로 구성 하게 됩니다.

- 빅디 드림

주제영역3 데이타 조회 문의

0

37

2

환경 세팅 후 클라우데라매니저 삭제시

0

64

2

수강 기간 연장 부탁드립니다ㅠ

0

59

2

클라우데라 매니저 접속 불가 및 로그인 정보 문의

0

86

2

gcc 설치 에러

0

117

3

클러스터 설정 오류

0

87

2

클라우데라 클러스터 설치로 안넘어가짐

0

118

2

버추어박스 5.0 설치

0

141

2

워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.

0

78

2

Hue 500 Error 어떻게 해결할 수 있나요?

0

148

3

환경세팅 질문있습니다.

0

105

2

버쥬얼박스

0

74

2

호스트 불량 문제에 관하여

0

108

2

하이브쿼리에서 에러가 나요...

0

168

3

하이브쿼리에서 에러

0

119

1

Hbase에 적재된 데이터 확인시 에러

0

145

2

파이썬 설치 시 에러

0

159

2

redis-cli 데이터 적재 확인

0

142

2

카프카 토픽 생성에서 에러

0

137

2

HDFS 명령어를 치는데 오류가 납니다

0

133

2

가상환경 내보내기

0

109

1

SpoolDIR 폴더로 옮기

0

102

2

cpu usage 에러

0

114

2

쿼리 실행시 10000 에러

0

121

2