filter 이후 select 와 이전 select 차이점
232
작성한 질문수 27
안녕하세요 선생님 강의 말미에 select 의 순서가 중요하다고 가르쳐 주셨는데
실제로 실행해보니까 결과값은 동일해보이는건 어떤 이유 때문인지 궁금합니다.
(혹시나 싶어서 조회할 때마다 전체 테이블을 같이 조회해봤습니다.)
-----------------------------
data_sdf.filter(upper(data_sdf['Name']).like('%M%')).select('*').show()
data_sdf.select('*').show()
+---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| |Myunghyun|2015| Male| | Chulman|2011| Male| +---------+----+------+ +---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| | Wansoo|2016| Male| |Myunghyun|2015| Male| | Hyunjoo|2015|Female| | Chulman|2011| Male| +---------+----+------+
-------------------------
from pyspark.sql.functions import col, upper data_sdf.select('*').filter(upper(col('Name')).like('%M%')).show() data_sdf.select('*').show()
+---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| |Myunghyun|2015| Male| | Chulman|2011| Male| +---------+----+------+ +---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| | Wansoo|2016| Male| |Myunghyun|2015| Male| | Hyunjoo|2015|Female| | Chulman|2011| Male| +---------+----+------+
---------------------------
항상 좋은 강의 감사합니다.
답변 1
0
안녕하십니까,
위에서 적어주신 코드는 별 문제가 없지만,
data_sdf.select('Year', 'Gender').filter(upper(data_sdf['Name']).like('%M%')) 이라고 하면 수행이 안됩니다. 위 코드는 data_sdf.select('Year', 'Gender') 에서 두개의 컬럼 'Year'와 'Gender'를 추출한 뒤에 이 2개의 컬럼에 해당하지 않는 'Name' 컬럼으로 filtering을 수행하기 때문입니다.
마치 아래 SQL과 같이 이미 Year, Gender밖에 없는 temp_01 에서 Name 컬럼으로 필터링을 시도하려는 것과 같기 때문에 수행이 되지 않습니다.
with temp_01
as
select Year, Gender
from table a
select * from temp_01 where Name like '%M'
감사합니다.
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
63
3
데이터 브릭스 이슈
0
111
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
101
2
community edition 가입 문의
0
113
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
171
2
클러스터 버전 설정
0
136
3
instacart market basket analysis
0
188
3
spark 추가 학습 관련 질문
0
235
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
404
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
376
2
강의가 재생되지 않음
0
266
2
후속 강의 계획 질문드립니다.
0
374
1
spark_xgboost_lightgbm 강의부분 관련
0
476
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
327
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
574
1
SPARK 2 강의 오픈
0
499
1
Spark ML 모델 서빙
0
571
1
mac os ) zip 파일 dataframe 오류
0
674
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
631
1
TrainValidationSplit과 randomSplit 사용 질문
0
403
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
519
1
cluster 생성 Database runtime version 질문
0
277
1
Pandas vs Spark: 비용, 처리시간 비교
0
1241
1





