inflearn logo
강의

Course

Instructor

Spark Machine Learning Complete Guide - Part 1

<Notice> Practice environment changed to local Spark-based

pyspark local 설치

79

fkid009

20 asked

0

안녕하십니까, 강사님.

PySpark에 대한 심도 있는 강의를 준비해주셔서 감사합니다.

 

PySpark를 공부하기 전에 한 가지 궁금한 점이 있습니다.

많은 분들이 PySpark를 Databricks 플랫폼에서 실행하던데, 특별한 이유가 있을까요?

로컬 환경에 패키지를 설치해 직접 실행하지 않는 이유가 궁금합니다.

머신러닝 빅데이터 apache-spark 데이터-엔지니어링

Answer 2

0

dooleyz3525

안녕하십니까,

지방에 내려오느라 답변이 늦었습니다. 강의에서 Spark를 로컬 PC에 설치하지 않은 이유는 아래와 같습니다.

  1. 먼저 Spark가 local에 설치하기가 만만하지 않습니다. 설치를 docker로 하면 좀 더 나을 수는 있는데, docker를 잘 아시면 쉬울 수도 있지만, 그렇지 않으시면 docker 사용하는데 시간이 많이 필요할 수 있습니다. 이 밖에 pyspark용 주피터 노트북이라던가 여러가지 설치에 시간이 더 소모될 수 있습니다.

     

  2. Pyspark의 버전과 함께 수행되어야 하는 다른 라이브러리들의 버전 맞추기가 어려워 질 수 있습니다.

  3. 로컬 PC에서 자원을 많이 소모합니다. 특히나 메모리 자원을 많이 사용해서, PC 사용이 좋지 않을 경우 잘 수행되지 않거나, 이유없이 Shutdown이 될 수도 있습니다.

감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 임해빈님.

PySpark를 많은 분들이 Databricks에서 실행하는 이유는 여러 가지가 있습니다. 여기서는 주된 이유를 몇 가지 소개해 드릴게요.

  1. 환경 설정의 용이함: Databricks는 클러스터 관리, 패키지 설치, 버전 관리를 매우 쉽게 해줍니다. 로컬 환경에서는 각종 라이브러리 호환 문제나 설정 문제로 인해 시간이 많이 걸릴 수 있지만, Databricks는 이런 문제들을 신경 쓸 필요가 없습니다.

  2. 확장성과 성능: Databricks는 대규모 데이터를 처리할 수 있도록 설계되어 있습니다. 클러스터의 확장이 용이하며, 빅데이터를 다루기 위해 성능 최적화가 잘 되어 있어서 효율적인 처리가 가능합니다.

  3. 협업 기능: Databricks는 노트북 형태로 IDE를 제공하며, 실시간 협업이 가능합니다. 이를 통해 팀원들과 함께 프로젝트를 진행할 때 매우 유용하게 사용할 수 있습니다.

  4. 비용 절감: 대규모 연산이나 클러스터를 운영하기 위해 자체 서버를 구매하고 운영하는 것보다 Databricks 같은 관리형 플랫폼을 사용하는 것이 비용적으로 유리할 수 있습니다.

  5. 기타 특징: 머신러닝 라이브러리와의 통합, 데이터 시각화 기능, 실시간 핫패치 및 패치 관리 등이 사용자에게 유용한 기능으로 제공됩니다.

하지만, Databricks를 사용하지 않고 로컬 환경을 선호하는 경우도 있습니다. 로컬 환경에서는 설정을 통해 직접적으로 모든 것을 제어할 수 있기 때문에, 특정한 개발 또는 학습 목적에 따라 로컬 환경이 더 적합할 수 있습니다.

관련해서 비슷한 질문과 답변이 있는 아래 링크를 참고해 주세요. 각 환경의 장단점을 이해하는 데 도움이 될 것입니다:
Databricks와 구글 코랩 차이

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

데이터 브릭스 이슈

0

89

2

데이터 브릭스 가입

0

83

2

community edition 가입 문의

0

88

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

159

2

클러스터 버전 설정

0

122

3

instacart market basket analysis

0

169

3

spark 추가 학습 관련 질문

0

221

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

374

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

366

2

강의가 재생되지 않음

0

257

2

후속 강의 계획 질문드립니다.

0

364

1

spark_xgboost_lightgbm 강의부분 관련

0

463

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

312

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

560

1

SPARK 2 강의 오픈

0

490

1

Spark ML 모델 서빙

0

559

1

mac os ) zip 파일 dataframe 오류

0

659

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

616

1

TrainValidationSplit과 randomSplit 사용 질문

0

393

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

509

1

cluster 생성 Database runtime version 질문

0

268

1

Pandas vs Spark: 비용, 처리시간 비교

0

1227

1

sparkdl library 설치 관련 질문

0

386

1

선생님 실습환경 질문드립니다.

0

255

1