inflearn logo
강의

講義

知識共有

シリコンバレーのエンジニアから学ぶPython Apache Spark

MacでDockerを利用してApache Sparkをインストール

주피터 사용 및 도커 설치

解決済みの質問

94

jay39168273

投稿した質問数 2

0

혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요..

강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/home/jovyan/work jupyter/pyspark-notebook 입력하신걸 따라 쳤더니 무슨 권한 문제가 생겨서 직접 pyspark-study라는 폴더를 만들고 해당 경로에서 cd /Users/jang-ayeon/Dev/pyspark-study

❯ docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook 이렇게 실행하여 링크를 받았습니다.

그런데 이번에는 따라 들어가보니 렉쳐 파일이 따로 없는데 해당 강의 뒤 7번째 강의 자료에 있는 파일이 느낌상 그 파일인것 같은데.. 직접 해당 코드들을 제가 만든 파일에 옮겨서 사용해야 하는 것인가요...?

머신러닝 빅데이터 apache-spark iceberg

回答 2

0

altoformula

안녕하세요, 아연님 😊

먼저 직접 이것저것 시도해보신 점이 정말 좋습니다. 방향은 잘 잡고 계세요 👍

docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/home/jovyan/work jupyter/pyspark-notebook

여기서 중요한 부분은 -v 옵션입니다.

-v 로컬경로:/home/jovyan/work

이 의미는 내 로컬 컴퓨터의 특정 폴더를 도커 컨테이너 내부의 /home/jovyan/work 폴더와 연결(매핑) 한다는 뜻입니다.

즉,

  • 로컬 폴더에 파일이 있으면 → Jupyter Notebook 안에서도 보이고

  • Notebook에서 파일을 만들면 → 로컬 폴더에도 저장됩니다.

아연님께서 아래처럼 실행하신 것도 아주 잘하신 겁니다 👏

docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook

${PWD}현재 위치한 폴더를 의미하므로,
/Users/jang-ayeon/Dev/pyspark-study 폴더에서 실행하셨다면
그 폴더가 Notebook의 작업 폴더로 연결된 상태입니다.


📌 강의 파일이 안 보이는 이유

현재 pyspark-study 폴더 안에 강의 파일이 없기 때문에 Notebook에서도 보이지 않는 것입니다.

따라서:

  1. 강의 자료를 다운로드하신 뒤

  2. 그 파일들을 /Users/jang-ayeon/Dev/pyspark-study 폴더 안으로 옮기시면

  3. Jupyter Notebook 화면에서 해당 파일들이 바로 보이게 됩니다.


직접 코드 옮겨야 하나요?

굳이 직접 복사해서 새 파일에 붙여넣기 하실 필요는 없습니다.
강의 자료 파일 자체를 해당 폴더로 옮기시는 것이 가장 깔끔한 방법입니다 👍


지금까지 하신 흐름은 전혀 잘못되지 않았고, 오히려 Docker 볼륨 개념을 정확히 이해하는 과정이라 아주 좋은 시도였습니다 😊 제 강의중에 무료 Docker 강의도 있으니 시간 있을 때 한번 보시고 리뷰하시면 좋을 듯 합니다.

진행하시다가 또 막히는 부분 있으면 편하게 질문 주세요!

0

jay39168273

감사합니다 !
답변해주신 내용 전부 잘 이해하고 애매했던 부분을 짚고 넘어갈 수 있었습니다.
이후에 도커 강의도 꼭 들어보겠습니다 😆

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 아연님께서 주피터 노트북과 도커를 사용하여 작업 중 발생한 혼란에 대해 도움을 드리겠습니다.

문제 해결 및 설명

  1. 폴더 권한 및 설정:

    • docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook 명령어로 주피터 노트북을 실행한 것은 올바른 방법입니다. 이렇게 하면 현재 디렉토리가 주피터 노트북 환경의 “work” 폴더로 마운트됩니다. 권한 문제는 일반적으로 Docker에서 마운트 포인트의 읽기/쓰기 권한과 관련이 있을 수 있습니다. 이때, 폴더의 권한을 명시적으로 설정해 주시면 해결될 수 있습니다.
  2. 렉처 파일 문제:

    • 주피터 노트북을 열 때 필요한 강의 자료가 보이지 않는 것은 현재 마운트된 디렉토리에 파일이 없기 때문에 발생할 수 있습니다. 강의에서 제공된 예제 파일이 아니라면, 직접 강의 자료에 포함된 코드를 “pyspark-study” 폴더에 새로 파일로 저장하여 사용할 수 있습니다.
  3. 강의 자료 확인 및 Usage:

    • 강의 자료에 강사가 사용한 특정 파일이 포함되어 있지 않은 경우, 강의에서 소개되는 코드나 예제를 참고하여 직접 파일을 생성해 볼 필요가 있습니다. 주피터 노트북에서 파이썬 및 스파크 코드의 예제 파일을 직접 만들거나 제공된 파일을 다운로드할 수 있는지를 확인해 보시면 도움이 됩니다.

관련 자료

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

databricks에 cluster 메뉴가 없습니다.

0

49

2

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

0

77

2

broadcast Join과 boradcast + UDF 차이

0

63

2

append 모드 사용 시 집계

0

67

2

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

0

108

2

BroadCast 지원 가능 메모리 문의

0

90

2

rdd, dataframe, spark sql 각각 언제 사용할까요?

0

189

2

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

0

203

3

cdc 기반의 스트리밍 데이터 처리

1

231

2

broadcast 코드 예시 관련 질문

0

129

2

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

0

116

1

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

0

215

2

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

1

166

1

pyspark 현업에서 로컬 개발 및 운영

1

338

1

Spark Structured Streaming Gracefully shutdown 질문

1

448

2

PySpark Runtime Architecture 내용 중 질문이 있습니다!

1

214

1

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

1

461

2

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

1

277

1

pyspark.SparkContext 실행 오류 관련 질문

2

380

1

스파크 아키텍쳐 관련 문의 드립니다.

1

353

2

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

1

320

1

데이터 엔지니터의 현 트렌드가 궁금합니다

1

473

1

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

1

298

2

pyspark / spark 차이점 질문드립니다.

1

1161

1