강의

멘토링

로드맵

Inflearn Community Q&A

gyungyoonpark9378's profile image
gyungyoonpark9378

asked

The Complete Guide to Spark Machine Learning - Part 1

RDD 와 실제업무의 연관성?

Written on

·

209

0

선생님 안녕하세요?

먼저 좋은 강의 감사드립니다.

 

선생님 강의를 들으면서 Spark The Definitive Guide 라는 책을 같이 보고 있는데요.

이 책에 보면 RDD에 관련된 내용이 조금 나오더라고요. 물론 이 책에서도 RDD 같은 low level 보다는 structured API가 훨씬 많이 쓰이고 현업에서도 대부분의 작업은 structured API로 해결이 가능하다고 강조를 하고 있지만, 데이터프레임 형식이 아닌 작업(예 : 자연어 처리 등)은 아무래도 structured API로 처리하기에는 좀 한계가 있다는 생각이 들기도 합니다.

그래서 질문은 다음과 같습니다 ㅎㅎ

현업에서 RDD를 실제로 쓸 일이 많나요? 저 책에서 PairRDD, key-value 형태의 데이터 처리, flatmap  등이 나왔습니다.

물론 어떤 작업을 하느냐에 따라 달라지겠지만 일반론적으로, 그리고 생각나시는 케이스가 있으면 같이 답변해주시면 정말 감사하겠습니다.

 

감사합니다

 

데이터 엔지니어링apache-sparkbigdata머신러닝 배워볼래요?

Answer 1

1

dooleyz3525님의 프로필 이미지
dooleyz3525
Instructor

안녕하십니까, 

잘 듣고 계시다니 저도 기분이 좋습니다. 

Spark가 처음 나왔을 때는 RDD를 썼지만, 지금은 거의 기업에서 사용되지 않습니다. 

물론 특정 기업에서는 초기에 Spark를 사용한 고수(?)들이 있을 경우 RDD를 이용하기도 합니다만, 현실적으로는 RDD를 이용하여 기업의 복잡한 데이터 가공이나 분석을 수행하기는 어렵습니다. 

물론 데이터 처리시 속도가 확실히 필요한 부분에 있어서는 RDD를 사용하기도 합니다. 그러나 그건 제약적인 사례이고, 이제는 Spark가 더 이상 RDD를 강조하지 않습니다. 몇년전부터 확실히 SQL과 DataFrame을 데이터 처리에 강조 하고 있습니다. 

때문에 Spark를 사용하는 많은 기업들도 SQL과 DataFrame을 기본으로 사용하고 있습니다. 

RDD를 배우면 좋지만, 학습난이도가 높아서 실제 사용을 해보지 않으면 금방 까먹게 되는 부작용도 있습니다. 

nathan님의 프로필 이미지
nathan
Questioner

자세한 답변 정말 감사합니다 :)

gyungyoonpark9378's profile image
gyungyoonpark9378

asked

Ask a question