Pyspark에서 Column 타입 지정하는 방법과 Spark 버전 차이 질문
355
작성한 질문수 77
안녕하세요! 우선 질 좋은 강의에 감사인사 드립니다. 강사님 강의 시리즈를 쭈욱 들어왔고 이번 강의도 수강하게 되었습니다! 두 가지 질문이 있는데요!
Q1. 다름이 아니라, 강의 초반부에 Spark의 DataFrame에서 Column 타입을 지정하는 방법으로서 크게 3가지 방법이 존재한다고 하셨는데요!
1. data_sdf['column_name']
2. data_sdf.column_name
3. col('column_name')
이 중 Spark 커뮤니티에서 가장 권고하는 표현법이 있을까요? 3가지를 이거저거 섞어쓰다가 Spark에 익숙해져 습관이 생겨버리면 나중에 코드 가독성에 문제가 생길 것 같기도 해서요.. 판다스에 이미 익숙해져있어서 저 3가지를 머릿속에 한 번에 넣으려니 자꾸 헷갈리기도 하구요..! 아니면 그냥 3가지 모두에 익숙해지되, 나중에 저만의 코드를 작성할 때는 3가지 방법 중 한 가지 방법으로 통일해서만 작성하면 될까요?
Q2. 몇 개월 전에 Spark 완벽 가이드라는 오렐리에서 제작한 책을 좀 공부하면서 Pyspark 문법을 따라치면서 얕게 공부한 적이 있는데요! 해당 책이 Spark2.0 기준으로 작성되었는데, 현재 실습에서 Spark 버전을 보니 3.0대 버전이더라구요! 2.0에서 3.0으로 업데이트되면서 문법적으로, 시스템적으로 차이가 많아졌나요? 예전에 사둔 책을 버리자니.. 두꺼워서 아깝기도 해서요..!
답변 1
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
58
3
데이터 브릭스 이슈
0
110
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
99
2
community edition 가입 문의
0
110
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
168
2
클러스터 버전 설정
0
134
3
instacart market basket analysis
0
186
3
spark 추가 학습 관련 질문
0
233
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
398
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
374
2
강의가 재생되지 않음
0
265
2
후속 강의 계획 질문드립니다.
0
372
1
spark_xgboost_lightgbm 강의부분 관련
0
474
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
322
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
571
1
SPARK 2 강의 오픈
0
498
1
Spark ML 모델 서빙
0
570
1
mac os ) zip 파일 dataframe 오류
0
672
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
630
1
TrainValidationSplit과 randomSplit 사용 질문
0
401
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
515
1
cluster 생성 Database runtime version 질문
0
275
1
Pandas vs Spark: 비용, 처리시간 비교
0
1237
1





