인프런 커뮤니티 질문&답변
Pyspark에서 Column 타입 지정하는 방법과 Spark 버전 차이 질문
작성
·
345
0
안녕하세요! 우선 질 좋은 강의에 감사인사 드립니다. 강사님 강의 시리즈를 쭈욱 들어왔고 이번 강의도 수강하게 되었습니다! 두 가지 질문이 있는데요!
Q1. 다름이 아니라, 강의 초반부에 Spark의 DataFrame에서 Column 타입을 지정하는 방법으로서 크게 3가지 방법이 존재한다고 하셨는데요!
1. data_sdf['column_name']
2. data_sdf.column_name
3. col('column_name')
이 중 Spark 커뮤니티에서 가장 권고하는 표현법이 있을까요? 3가지를 이거저거 섞어쓰다가 Spark에 익숙해져 습관이 생겨버리면 나중에 코드 가독성에 문제가 생길 것 같기도 해서요.. 판다스에 이미 익숙해져있어서 저 3가지를 머릿속에 한 번에 넣으려니 자꾸 헷갈리기도 하구요..! 아니면 그냥 3가지 모두에 익숙해지되, 나중에 저만의 코드를 작성할 때는 3가지 방법 중 한 가지 방법으로 통일해서만 작성하면 될까요?
Q2. 몇 개월 전에 Spark 완벽 가이드라는 오렐리에서 제작한 책을 좀 공부하면서 Pyspark 문법을 따라치면서 얕게 공부한 적이 있는데요! 해당 책이 Spark2.0 기준으로 작성되었는데, 현재 실습에서 Spark 버전을 보니 3.0대 버전이더라구요! 2.0에서 3.0으로 업데이트되면서 문법적으로, 시스템적으로 차이가 많아졌나요? 예전에 사둔 책을 버리자니.. 두꺼워서 아깝기도 해서요..!
답변 1
0
안녕하십니까,
1. 저는 data_sdf['column_name'] 만 사용합니다. col('column_name')은 별도로 컬럼만 사용할 때 이용합니다.
2. 시스템적으로는 많이 변경되었는데, 문법적으로는 큰 변경 사항은 없습니다.
감사합니다.






아 그러면 이전 책으로도 공부를 해야겠네요! 답변 감사합니다 :)