인프런 커뮤니티 질문&답변

임해빈

작성한 질문수

스파크 머신러닝 완벽 가이드 - Part 1

<공지> 로컬 Spark 기반으로 실습 환경 변경

pyspark local 설치

작성

안녕하십니까, 강사님.

PySpark에 대한 심도 있는 강의를 준비해주셔서 감사합니다.

PySpark를 공부하기 전에 한 가지 궁금한 점이 있습니다.

많은 분들이 PySpark를 Databricks 플랫폼에서 실행하던데, 특별한 이유가 있을까요?

로컬 환경에 패키지를 설치해 직접 실행하지 않는 이유가 궁금합니다.

머신러닝 빅데이터 apache-spark 데이터-엔지니어링

답변 2

권 철민

지식공유자

안녕하십니까,

지방에 내려오느라 답변이 늦었습니다. 강의에서 Spark를 로컬 PC에 설치하지 않은 이유는 아래와 같습니다.

먼저 Spark가 local에 설치하기가 만만하지 않습니다. 설치를 docker로 하면 좀 더 나을 수는 있는데, docker를 잘 아시면 쉬울 수도 있지만, 그렇지 않으시면 docker 사용하는데 시간이 많이 필요할 수 있습니다. 이 밖에 pyspark용 주피터 노트북이라던가 여러가지 설치에 시간이 더 소모될 수 있습니다.
Pyspark의 버전과 함께 수행되어야 하는 다른 라이브러리들의 버전 맞추기가 어려워 질 수 있습니다.
로컬 PC에서 자원을 많이 소모합니다. 특히나 메모리 자원을 많이 사용해서, PC 사용이 좋지 않을 경우 잘 수행되지 않거나, 이유없이 Shutdown이 될 수도 있습니다.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 임해빈님.

PySpark를 많은 분들이 Databricks에서 실행하는 이유는 여러 가지가 있습니다. 여기서는 주된 이유를 몇 가지 소개해 드릴게요.

환경 설정의 용이함: Databricks는 클러스터 관리, 패키지 설치, 버전 관리를 매우 쉽게 해줍니다. 로컬 환경에서는 각종 라이브러리 호환 문제나 설정 문제로 인해 시간이 많이 걸릴 수 있지만, Databricks는 이런 문제들을 신경 쓸 필요가 없습니다.
확장성과 성능: Databricks는 대규모 데이터를 처리할 수 있도록 설계되어 있습니다. 클러스터의 확장이 용이하며, 빅데이터를 다루기 위해 성능 최적화가 잘 되어 있어서 효율적인 처리가 가능합니다.
협업 기능: Databricks는 노트북 형태로 IDE를 제공하며, 실시간 협업이 가능합니다. 이를 통해 팀원들과 함께 프로젝트를 진행할 때 매우 유용하게 사용할 수 있습니다.
비용 절감: 대규모 연산이나 클러스터를 운영하기 위해 자체 서버를 구매하고 운영하는 것보다 Databricks 같은 관리형 플랫폼을 사용하는 것이 비용적으로 유리할 수 있습니다.
기타 특징: 머신러닝 라이브러리와의 통합, 데이터 시각화 기능, 실시간 핫패치 및 패치 관리 등이 사용자에게 유용한 기능으로 제공됩니다.

하지만, Databricks를 사용하지 않고 로컬 환경을 선호하는 경우도 있습니다. 로컬 환경에서는 설정을 통해 직접적으로 모든 것을 제어할 수 있기 때문에, 특정한 개발 또는 학습 목적에 따라 로컬 환경이 더 적합할 수 있습니다.

관련해서 비슷한 질문과 답변이 있는 아래 링크를 참고해 주세요. 각 환경의 장단점을 이해하는 데 도움이 될 것입니다:
Databricks와 구글 코랩 차이

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

임해빈

작성한 질문수

전체 Q&A

질문하기