pyspark / spark 차이점 질문드립니다.
안녕하세요 선생님 🙂
강의 초반부를 듣다가 궁금증이 생겨서 질문드립니다.
pyspark의 경우 pandas와 거의 동일한 패키지 함수(? 함수라고 설명하는게 맞는지 모르겠네요..ㅎㅎ) 방식으로 구동되는 것으로 보이는데요.
scalar를 기반으로한 spark도 pyspark와 유사하게 패키지의 함수를 사용하나요?스칼라 도큐먼트를 봐도 spark에서는 어떻게 사용하는것인지 감이 안와서 질문드립니다. ㅎㅎ (https://docs.scala-lang.org/ko/tour/tour-of-scala.html)
오늘도 행복한 하루되세요!
감사합니다.
Câu trả lời 1
1
안녕하세요!
일단 PySpark의 Dataframe API 자체가 디자인할 때부터, Pandas Dataframe의 영향을 많이 받아서 그렇습니다. 일단 Pandas가 워낙 유명하고 데이타를 관리하거나 분석할때 많이 사용했기 때문에 그 당시에 꽤 비슷하게 만든 것으로 알고 있습니다. 그리고 판다스를 사용해서 하나의 서버에서 작동하는 문법을 그대로 PySpark에 적용할 수 있도록 하기 위함도 그 이유가 될 수 있습니다.
반면에, Scala로 만든 Spark는 태생적으로 파이썬 언어와 많이 다르기 때문에 문법이 많이 다르고 Pandas와는 전혀 다릅니다.
덧붙이자면 Scala는 Spark에서 퍼포먼스를 내기 위해서 많이 사용했지만, 이제는 Data Science와의 연계를 위해 PySpark를 많이 사용합니다. Scala 문법의 스파크도 내년에 시간이 되면 올리기 시작하겠습니다.
databricks에 cluster 메뉴가 없습니다.
0
44
2
주피터 사용 및 도커 설치
0
91
2
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
0
76
2
broadcast Join과 boradcast + UDF 차이
0
62
2
append 모드 사용 시 집계
0
63
2
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
0
107
2
BroadCast 지원 가능 메모리 문의
0
88
2
rdd, dataframe, spark sql 각각 언제 사용할까요?
0
186
2
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
0
196
3
cdc 기반의 스트리밍 데이터 처리
1
230
2
broadcast 코드 예시 관련 질문
0
126
2
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
0
113
1
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
0
213
2
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
1
165
1
pyspark 현업에서 로컬 개발 및 운영
1
336
1
Spark Structured Streaming Gracefully shutdown 질문
1
443
2
PySpark Runtime Architecture 내용 중 질문이 있습니다!
1
212
1
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1
458
2
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
1
275
1
pyspark.SparkContext 실행 오류 관련 질문
2
378
1
스파크 아키텍쳐 관련 문의 드립니다.
1
351
2
3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?
1
316
1
데이터 엔지니터의 현 트렌드가 궁금합니다
1
469
1
스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??
1
290
2

