hive로 파일을 만들고 다시 hdfs에 넣는 과정에 대해 궁금합니다.
424
投稿した質問数 4
안녕하세요~
좋은 강의 너무 잘 듣고 있습니다.
다 이해하진 못한 상태라 기본적인 질문이어도 이해해주시길 바랍니다.
처음 과정 중에 hive로 데이터를 불러와서 local에 저장 후 이를 다시 hdfs 에 넣는 hive->local->hdfs 부분에 대해 궁금합니다.
hive -> hdfs로 넣으면 문제가 있나요?? local에 만든 후 다시 hdfs로 넣는 과정이 어째서 필요한지 궁금합니다.
回答 2
0
아하~ 혼자서 이 과정들을 하다보니 조직 내 프로세스를 생각해보지 못했었군요!
조직 내 업무 파이프라인까지 고려해서 강의를 만들어주신 점 너무 감사드립니다!!
이해가 됩니다. 저 과정은 업무 형태나 조직 구조가 어떻게 되어있느냐에 따라 달라질 수 있는거네요
상세한 답변 정말 감사드립니다
0
안녕하세요! 엄창용님!
오늘도 역쉬! 좋은 질문 입니다. ㅎㅎ
하이브와 HDFS의 기술적 역할이 다른거는 잘 아실테고요,,, 그러다 보니 사용자/부서/개발자/분석가 등등등 조직의 거버넌스 정책에 따라서 하이브와 HDFS를 사용하는 역할과 권한이 다릅니다.
단순화 하면은요...
* Hive - 데이터 엔지니어
* Local Disk/HDFS - 연동(I/F) 엔지니어
* Python/R - 분석가/모델러
위 상황에서 예를들면요..
1. 데이터 엔지니어가 Hive로 데이터 가공 및 전처리해서 Local 디스크에 생성
2. 연동 엔지니어가 Local 데이터를 읽어서 HDFS의 분석파일 경로로 이동
3. 분석가/모델러가 HDFS의 분석파일을 로드해서 Python/R 환경에서 분석 수행
이런걸 데이터 파이프라인이라 하고, 정확한 정답은 없습니다. 각자의 역할과 상황에서 담당하는 시스템을 이용해 최적의 파이프라인으로 구성 하게 됩니다.
- 빅디 드림
주제영역3 데이타 조회 문의
0
37
2
환경 세팅 후 클라우데라매니저 삭제시
0
64
2
수강 기간 연장 부탁드립니다ㅠ
0
59
2
클라우데라 매니저 접속 불가 및 로그인 정보 문의
0
86
2
gcc 설치 에러
0
117
3
클러스터 설정 오류
0
87
2
클라우데라 클러스터 설치로 안넘어가짐
0
118
2
버추어박스 5.0 설치
0
141
2
워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.
0
78
2
Hue 500 Error 어떻게 해결할 수 있나요?
0
148
3
환경세팅 질문있습니다.
0
105
2
버쥬얼박스
0
74
2
호스트 불량 문제에 관하여
0
108
2
하이브쿼리에서 에러가 나요...
0
168
3
하이브쿼리에서 에러
0
119
1
Hbase에 적재된 데이터 확인시 에러
0
145
2
파이썬 설치 시 에러
0
159
2
redis-cli 데이터 적재 확인
0
142
2
카프카 토픽 생성에서 에러
0
137
2
HDFS 명령어를 치는데 오류가 납니다
0
133
2
가상환경 내보내기
0
109
1
SpoolDIR 폴더로 옮기
0
102
2
cpu usage 에러
0
114
2
쿼리 실행시 10000 에러
0
121
2

