hive로 파일을 만들고 다시 hdfs에 넣는 과정에 대해 궁금합니다.

Question

안녕하세요~  좋은 강의 너무 잘 듣고 있습니다.    다 이해하진 못한 상태라 기본적인 질문이어도 이해해주시길 바랍니다.  처음 과정 중에 hive로 데이터를 불러와서 local에 저장 후 이를 다시 hdfs 에 넣는 hive->local->hdfs 부분에 대해 궁금합니다.  hive -> hdfs로 넣으면 문제가 있나요?? local에 만든 후 다시 hdfs로 넣는 과정이 어째서 필요한지 궁금합니다.

e7217 · Answer

아하~ 혼자서 이 과정들을 하다보니 조직 내 프로세스를 생각해보지 못했었군요! 조직 내 업무 파이프라인까지 고려해서 강의를 만들어주신 점 너무 감사드립니다!! 이해가 됩니다. 저 과정은 업무 형태나 조직 구조가 어떻게 되어있느냐에 따라 달라질 수 있는거네요 상세한 답변 정말 감사드립니다

빅디 · Answer

안녕하세요! 엄창용님! 오늘도 역쉬! 좋은 질문 입니다. ㅎㅎ 하이브와 HDFS의 기술적 역할이 다른거는 잘 아실테고요,,, 그러다 보니 사용자/부서/개발자/분석가 등등등 조직의 거버넌스 정책에 따라서 하이브와 HDFS를 사용하는 역할과 권한이 다릅니다. 단순화 하면은요... * Hive - 데이터 엔지니어 * Local Disk/HDFS - 연동(I/F) 엔지니어 * Python/R - 분석가/모델러   위 상황에서 예를들면요.. 1. 데이터 엔지니어가 Hive로 데이터 가공 및 전처리해서 Local 디스크에 생성 2. 연동 엔지니어가 Local 데이터를 읽어서 HDFS의 분석파일 경로로 이동 3. 분석가/모델러가 HDFS의 분석파일을 로드해서 Python/R 환경에서 분석 수행   이런걸 데이터 파이프라인이라 하고, 정확한 정답은 없습니다. 각자의 역할과 상황에서 담당하는 시스템을 이용해 최적의 파이프라인으로 구성 하게 됩니다. - 빅디 드림