hive로 파일을 만들고 다시 hdfs에 넣는 과정에 대해 궁금합니다.

Question

안녕하세요~

좋은 강의 너무 잘 듣고 있습니다.

다 이해하진 못한 상태라 기본적인 질문이어도 이해해주시길 바랍니다.

처음 과정 중에 hive로 데이터를 불러와서 local에 저장 후 이를 다시 hdfs 에 넣는 hive->local->hdfs 부분에 대해 궁금합니다.

hive -> hdfs로 넣으면 문제가 있나요?? local에 만든 후 다시 hdfs로 넣는 과정이 어째서 필요한지 궁금합니다.

Answer

아하~ 혼자서 이 과정들을 하다보니 조직 내 프로세스를 생각해보지 못했었군요!

조직 내 업무 파이프라인까지 고려해서 강의를 만들어주신 점 너무 감사드립니다!!

이해가 됩니다. 저 과정은 업무 형태나 조직 구조가 어떻게 되어있느냐에 따라 달라질 수 있는거네요

상세한 답변 정말 감사드립니다

Answer

안녕하세요! 엄창용님!

오늘도 역쉬! 좋은 질문 입니다. ㅎㅎ

하이브와 HDFS의 기술적 역할이 다른거는 잘 아실테고요,,, 그러다 보니 사용자/부서/개발자/분석가 등등등 조직의 거버넌스 정책에 따라서 하이브와 HDFS를 사용하는 역할과 권한이 다릅니다.

단순화 하면은요...

* Hive - 데이터 엔지니어

* Local Disk/HDFS - 연동(I/F) 엔지니어

* Python/R - 분석가/모델러

위 상황에서 예를들면요..

1. 데이터 엔지니어가 Hive로 데이터 가공 및 전처리해서 Local 디스크에 생성

2. 연동 엔지니어가 Local 데이터를 읽어서 HDFS의 분석파일 경로로 이동

3. 분석가/모델러가 HDFS의 분석파일을 로드해서 Python/R 환경에서 분석 수행

이런걸 데이터 파이프라인이라 하고, 정확한 정답은 없습니다. 각자의 역할과 상황에서 담당하는 시스템을 이용해 최적의 파이프라인으로 구성 하게 됩니다.

- 빅디 드림