• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

갑자기 왜 hadoop-streaming.jar

21.07.22 18:08 작성 조회수 79

0

열심히 mapper.py , reduce.py 파일 만들어놓고
느닺없이 왜 hadoop-streaming.jar를 이용하신건가요?
저건 갑지기 왜나온거지요???

답변 1

답변을 작성해보세요.

0

odark 님에게

다양한 질문 감사합니다. 

스트리밍이란 것에 대한 이해부터 시작하죠. 흐름이라는 단어를 떠올릴 수 있으며 빅데이터는 배치 프로세스 혹은 배치 메커니즘이라는 말과 연관이 있습니다. 흐름을 말할 때는 일괄 처리 기술이 중요합니다. 

다시 말씀드리면 과거에 대량의 데이터를 스트리밍하지 않았다는 것은 거짓말입니다. 대기업의 데이터는 10년 전이나 20년 전에도 빅데이터 그 자체였다는 말로 보아도 무방합니다. 구글, 야후, 페이스북 덕분에 용량이 페타바이트로 진화 혹은 진전했을 뿐입니다. 

자바의 람다 형식처럼 데이터셋이 젯타 바이트(Zetta byte) 형식으로 처리하려면 스트리밍 기술로 처리 방식을 효과적으로 처리하게 됩니다. 그 사이 하둡은 다양한 고객들을 두루 받아들이고자 파이선, 루비, 셀스크립트 형식의 스크립트 언어를 구사하고 구현하여 동일한 결과값들 구현하는 목적이 있는 것이죠.

하둡 스트리밍이 바로 그런 역할을 합니다. 그래서 파이선 맵 구현과 리듀스 구현을 하기 위해 파이선 파일을 사용하여 하둡 스트리밍은 바로 맵리듀스 어플리케이션을 구현하여 맵리듀스를 성공적으로 이끌게 됩니다.

질문에 답이 되었는지요? 그렇다면 수강평 부탁드립니다.

토론토에서 빌리 올림