inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

colab에 하둡이 설치되어 있는 걸까요?

346

You

작성한 질문수 2

0

Colab에 pyspark가 미리 설치되어 있지는 않지만

!pip install pyspark

명령으로 설치 후 사용 가능하더라구요.

Colab에 자바와 하둡, 스파크가 이미 설치되어 있는 것으로 생각해도 될까요?

 

제가 강의로 이해하기로는

하둡에 있는 일부 기능- 맵리듀스를 스파크가 대체할 수 있는데,

기존 하둡과 호환성을 위해 다른 부분은 하둡 그대로 두고 그 부분만 스파크로 대체해야 하고

그래서 하둡도 필요하고 스파크는 자바로 되어 있으니 자바도 필요하고,

스파크 설치 후 이것을 파이썬으로 래핑한 pyspark를 실행하는 것으로

그렇게 생각하고 있는데 이게 맞는지 모르겠습니다.

 

SparkContext가 생성되면서 내부적으로 스파크 어플리케이션이 실행되나요? 아니면 데몬같은 것이 실행중인 상태인 걸까요?

 

너무 모른 채로 질문드려서 죄송합니다.

머신러닝 빅데이터 apache-spark

답변 1

0

미쿡엔지니어

안녕하세요,

Spark는 Hadoop이 없는 상태에서도 구동 가능합니다. 애초에 디자인을 할때, 다른 툴처럼 Hadoop Eco system위에서 수행 가능하게 만든게 아니라 독립적으로 사용할 수 있도록 만들어 놓았기 때문입니다.

pip install pyspark 실행해 보셔서 아시겠지만, 스파크는 하나의 툴일 뿐이기 때문에 Hadoop이 없어도 구동가능합니다.

HDFS(하둡 파일 시스템)은 Colab에 자동으로 설치되어 있지 않습니다. 필요하시다면, https://github.com/anjalysam/Hadoop를 참고하셔서 설치하시면 될 듯 합니다.

다른 질문에 관해서는 Hadoop은 파일로 Map Reduce를 했었는데, 그게 너무 느리다보니, 파일 자체를 메모리에 올려서, 똑같은 역할을 더 빠르게 수행하는 걸로 바뀐 것뿐입니다. 또한, Spark는 자바가 아니라 Scala로 만들어졌으며, PySpark가 몇가지를 변경해 Python으로 사용할 수 있게끔 편의를 제공하고 있습니다.

마지막 질문에 대한 답변은 PySpark는 Python API를 사용해서 SparkContext와 SparkSession 오프젝트를 만들고 이게 시작 포인트가 되어 Spark와 통신을 합니다. SparkContext자체가 클러스터와 연결되어 분산 컴퓨팅을 지도하고 SparkSession은 데이타부분인 DataFrame과 DatasetAPI를 관리합니다.

0

You

친절하게 답변해주셔서 너무 감사합니다. 많은 도움이 되었어요!

databricks에 cluster 메뉴가 없습니다.

0

47

2

주피터 사용 및 도커 설치

0

92

2

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

0

77

2

broadcast Join과 boradcast + UDF 차이

0

62

2

append 모드 사용 시 집계

0

66

2

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

0

108

2

BroadCast 지원 가능 메모리 문의

0

89

2

rdd, dataframe, spark sql 각각 언제 사용할까요?

0

187

2

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

0

198

3

cdc 기반의 스트리밍 데이터 처리

1

230

2

broadcast 코드 예시 관련 질문

0

128

2

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

0

115

1

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

0

214

2

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

1

166

1

pyspark 현업에서 로컬 개발 및 운영

1

337

1

Spark Structured Streaming Gracefully shutdown 질문

1

447

2

PySpark Runtime Architecture 내용 중 질문이 있습니다!

1

213

1

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

1

458

2

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

1

275

1

pyspark.SparkContext 실행 오류 관련 질문

2

378

1

스파크 아키텍쳐 관련 문의 드립니다.

1

353

2

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

1

320

1

데이터 엔지니터의 현 트렌드가 궁금합니다

1

472

1

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

1

296

2