pyspark 현업에서 로컬 개발 및 운영
335
작성한 질문수 4
안녕하세요. 좋은 강의 감사합니다.
scala를 이용하여 spark streaming을 배포할 때,
주로 shadow jar 파일을 생성하고 해당 파일을 이용하여
배포하는 걸로 알고 있는데,
pyspark 같은 경우는 현업에서 어떤 방법으로 배포를
하고 있을까요?
1. 강의에서 소개해준 것처럼 파일 단위로 배포를 하는지
다른 방법으로 배포를 하는지 궁금합니다.
2. 강의에서 도커를 이용하여 빠르게 개발 및 배포하는 방법을 소개해주셨는데, 현업 로컬 환경에서도 주로 도커를 이용하여 개발을 하고 계실까요?
감사합니다.
답변 1
0
안녕하세요 장원용님,
1. 강의에서 소개해준 것처럼 파일 단위로 배포를 하는지
다른 방법으로 배포를 하는지 궁금합니다.
=> 파일 단위로 배포말고 zip으로 묶으신 다음에 배포 하셔도 되고, 요새는 다 Kubernetes로 돌리기 때문에 다커 이미지에 다 인스톨을 해서 그 이미지를 사용하는 방식으로 바꼈습니다.
2. 강의에서 도커를 이용하여 빠르게 개발 및 배포하는 방법을 소개해주셨는데, 현업 로컬 환경에서도 주로 도커를 이용하여 개발을 하고 계실까요?
=> 네 현업에서는 대부분이 쿠버네티스와 다커로 스파크를 돌리는 방향으로 바뀌었습니다. 그게 관리하는 측면에서 더 쉽거든요.
도움이 되셨으면 좋을 리뷰 부탁드릴게요!
databricks에 cluster 메뉴가 없습니다.
0
43
2
주피터 사용 및 도커 설치
0
90
2
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
0
76
2
broadcast Join과 boradcast + UDF 차이
0
62
2
append 모드 사용 시 집계
0
63
2
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
0
107
2
BroadCast 지원 가능 메모리 문의
0
88
2
rdd, dataframe, spark sql 각각 언제 사용할까요?
0
185
2
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
0
195
3
cdc 기반의 스트리밍 데이터 처리
1
230
2
broadcast 코드 예시 관련 질문
0
126
2
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
0
113
1
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
0
213
2
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
1
165
1
Spark Structured Streaming Gracefully shutdown 질문
1
443
2
PySpark Runtime Architecture 내용 중 질문이 있습니다!
1
212
1
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1
458
2
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
1
275
1
pyspark.SparkContext 실행 오류 관련 질문
2
378
1
스파크 아키텍쳐 관련 문의 드립니다.
1
351
2
3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?
1
316
1
데이터 엔지니터의 현 트렌드가 궁금합니다
1
469
1
스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??
1
290
2
pyspark / spark 차이점 질문드립니다.
1
1156
1





