inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기본 분석과 시각화 - 02

def함수에서 이해가 가지 않는 부분이 있습니다.

240

gkgktmd

작성한 질문수 16

0

해당 함수에서 is_amt가 true이면 필터링 조건 넣는 곳이 이해가 가질 않습니다.

is_amt가 true이면

if is_amt=True:

    cond_amt=df[column]<500000

이라고 생각했는데 적어주신 조건은 어떻게 되는건지

이해가 가질 않습니다.

머신러닝 배워볼래요? kaggle

답변 1

0

권 철민

df[column]<500000 은 Boolean 조건식입니다. boolean 조건식은 DataFrame에서 원하는 데이터 세트를 filtering할때 가장 많이쓰이는 방식입니다.

DataFrame의 [ ] 내부에 boolean 조건식을 사용하면 원하는 조건을 만족하는 데이터를 가져 올 수 있습니다.  예를 들어 app_train DataFrame에서 amt_income_total이 500000 보다 작은 데이터 세트를 모두 가져오려면 다음과 같이 하면 됩니다.

app_train[app_train['AMT_INCOME_TOTAL'] < 500000]. 여기서 app_train['AMT_INCOME_TOTAL'] < 500000 이 Boolean 조건식입니다. 그런데 이 boolean 조건식을 변수로도 할당할 수 있습니다. 예를 들어 cond_amt = app_train['AMT_INCOME_TOTAL'] < 500000 라면 cond_amt는 boolean 조건식을 가진 변수값입니다. 따라서 위의 app_train[app_train['AMT_INCOME_TOTAL'] < 500000] 는 app_train[cond_amt]와 동일한 결과를 반환합니다.

그리고 이 boolean 조건식은 여러개를 결합할 수 있고, 각각은 변수로도 할당 될 수 있습니다. 가령 Target 값이 1 이고 AMT_INCOME_TOTAL < 500000 인 데이터 세트를 원한다면 개별 boolean 식은 app_train['TARGET'] == 1 과 app_train['AMT_INCOME_TOTAL'] < 500000 이 되고 이들을 & 논리 연산자로 결합하여 app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000 와 같은 Boolean 조건으로 다시 만들 수 있습니다. 따라서 Target 값이 1 이고 AMT_INCOME_TOTAL < 500000 인 데이터 세트의 boolean 조건 필터링은 app_train[app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000] 이 됩니다.

그리고 이들 각각의 boolean식은 다시 변수로도 할당 될 수 있고 다시 논리 연산자로 결합될 수 있습니다. 

그래서 cond1 = app_train['TARGET'] == 1

cond_amt = app_train['AMT_INCOME_TOTAL'] < 500000

이라면 app_train[app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000]

은 app_train[cond1 & cond_amt]와 동일한 결과를 반환하게 됩니다.

감사합니다.

sql사용

0

44

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

599

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

587

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

359

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

538

1

컬럼 관련 질문

0

280

1

히스토그램 x 값

0

364

1

n_iter 횟수 넘음 질문

0

487

2