inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

filter() 메소드 이해하기

filter 이후 select 와 이전 select 차이점

232

뀨구기

작성한 질문수 27

0

 

안녕하세요 선생님 강의 말미에 select 의 순서가 중요하다고 가르쳐 주셨는데

실제로 실행해보니까 결과값은 동일해보이는건 어떤 이유 때문인지 궁금합니다.

(혹시나 싶어서 조회할 때마다 전체 테이블을 같이 조회해봤습니다.)

 

-----------------------------

data_sdf.filter(upper(data_sdf['Name']).like('%M%')).select('*').show()

data_sdf.select('*').show()

+---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| |Myunghyun|2015| Male| | Chulman|2011| Male| +---------+----+------+ +---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| | Wansoo|2016| Male| |Myunghyun|2015| Male| | Hyunjoo|2015|Female| | Chulman|2011| Male| +---------+----+------+

-------------------------

from pyspark.sql.functions import col, upper data_sdf.select('*').filter(upper(col('Name')).like('%M%')).show() data_sdf.select('*').show()

+---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| |Myunghyun|2015| Male| | Chulman|2011| Male| +---------+----+------+ +---------+----+------+ | Name|Year|Gender| +---------+----+------+ | Chulmin|2011| Male| | Wansoo|2016| Male| |Myunghyun|2015| Male| | Hyunjoo|2015|Female| | Chulman|2011| Male| +---------+----+------+

 

---------------------------

항상 좋은 강의 감사합니다.

데이터 엔지니어링 apache-spark 머신러닝 배워볼래요? bigdata

답변 1

0

권 철민

안녕하십니까, 

위에서 적어주신 코드는 별 문제가 없지만, 

data_sdf.select('Year', 'Gender').filter(upper(data_sdf['Name']).like('%M%')) 이라고 하면 수행이 안됩니다.  위 코드는 data_sdf.select('Year', 'Gender') 에서 두개의 컬럼 'Year'와 'Gender'를 추출한 뒤에 이 2개의 컬럼에 해당하지 않는 'Name' 컬럼으로 filtering을 수행하기 때문입니다. 

마치 아래 SQL과 같이 이미 Year, Gender밖에 없는 temp_01 에서 Name 컬럼으로 필터링을 시도하려는 것과 같기 때문에 수행이 되지 않습니다. 

with temp_01

as

select  Year, Gender

from table a

select  * from temp_01 where Name like '%M' 

 

감사합니다. 

 

0

뀨구기

그냥 우연이었나보네요............. 늦은시간인데 감사합니다~

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

113

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

188

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

404

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

574

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1