pyspark / spark 차이점 질문드립니다.

Question

안녕하세요 선생님 🙂강의 초반부를 듣다가 궁금증이 생겨서 질문드립니다.pyspark의 경우 pandas와 거의 동일한 패키지 함수(? 함수라고 설명하는게 맞는지 모르겠네요..ㅎㅎ) 방식으로 구동되는 것으로 보이는데요.scalar를 기반으로한 spark도 pyspark와 유사하게 패키지의 함수를 사용하나요?스칼라 도큐먼트를 봐도 spark에서는 어떻게 사용하는것인지 감이 안와서 질문드립니다. ㅎㅎ (https://docs.scala-lang.org/ko/tour/tour-of-scala.html)오늘도 행복한 하루되세요!감사합니다.

Answer

안녕하세요!일단 PySpark의 Dataframe API 자체가 디자인할 때부터, Pandas Dataframe의 영향을 많이 받아서 그렇습니다. 일단 Pandas가 워낙 유명하고 데이타를 관리하거나 분석할때 많이 사용했기 때문에 그 당시에 꽤 비슷하게 만든 것으로 알고 있습니다. 그리고 판다스를 사용해서 하나의 서버에서 작동하는 문법을 그대로 PySpark에 적용할 수 있도록 하기 위함도 그 이유가 될 수 있습니다. 반면에, Scala로 만든 Spark는 태생적으로 파이썬 언어와 많이 다르기 때문에 문법이 많이 다르고 Pandas와는 전혀 다릅니다.덧붙이자면 Scala는 Spark에서 퍼포먼스를 내기 위해서 많이 사용했지만, 이제는 Data Science와의 연계를 위해 PySpark를 많이 사용합니다. Scala 문법의 스파크도 내년에 시간이 되면 올리기 시작하겠습니다.

JP

pyspark / spark 차이점 질문드립니다.

이 글과 비슷한 Q&A

파일질라 다운로드 오류

데이터 전처리(결측치 채울때 궁금한점)

sum(), len(), count() 각각 언제 사용되는지 차이가 궁금합니다

섹션3-3 문제 8번에서