작성
·
218
0
해당 함수에서 is_amt가 true이면 필터링 조건 넣는 곳이 이해가 가질 않습니다.
is_amt가 true이면
if is_amt=True:
cond_amt=df[column]<500000
이라고 생각했는데 적어주신 조건은 어떻게 되는건지
이해가 가질 않습니다.
답변 1
0
df[column]<500000 은 Boolean 조건식입니다. boolean 조건식은 DataFrame에서 원하는 데이터 세트를 filtering할때 가장 많이쓰이는 방식입니다.
DataFrame의 [ ] 내부에 boolean 조건식을 사용하면 원하는 조건을 만족하는 데이터를 가져 올 수 있습니다. 예를 들어 app_train DataFrame에서 amt_income_total이 500000 보다 작은 데이터 세트를 모두 가져오려면 다음과 같이 하면 됩니다.
app_train[app_train['AMT_INCOME_TOTAL'] < 500000]. 여기서 app_train['AMT_INCOME_TOTAL'] < 500000 이 Boolean 조건식입니다. 그런데 이 boolean 조건식을 변수로도 할당할 수 있습니다. 예를 들어 cond_amt = app_train['AMT_INCOME_TOTAL'] < 500000 라면 cond_amt는 boolean 조건식을 가진 변수값입니다. 따라서 위의 app_train[app_train['AMT_INCOME_TOTAL'] < 500000] 는 app_train[cond_amt]와 동일한 결과를 반환합니다.
그리고 이 boolean 조건식은 여러개를 결합할 수 있고, 각각은 변수로도 할당 될 수 있습니다. 가령 Target 값이 1 이고 AMT_INCOME_TOTAL < 500000 인 데이터 세트를 원한다면 개별 boolean 식은 app_train['TARGET'] == 1 과 app_train['AMT_INCOME_TOTAL'] < 500000 이 되고 이들을 & 논리 연산자로 결합하여 app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000 와 같은 Boolean 조건으로 다시 만들 수 있습니다. 따라서 Target 값이 1 이고 AMT_INCOME_TOTAL < 500000 인 데이터 세트의 boolean 조건 필터링은 app_train[app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000] 이 됩니다.
그리고 이들 각각의 boolean식은 다시 변수로도 할당 될 수 있고 다시 논리 연산자로 결합될 수 있습니다.
그래서 cond1 = app_train['TARGET'] == 1
cond_amt = app_train['AMT_INCOME_TOTAL'] < 500000
이라면 app_train[app_train['TARGET'] == 1 & app_train['AMT_INCOME_TOTAL'] < 500000]
은 app_train[cond1 & cond_amt]와 동일한 결과를 반환하게 됩니다.
감사합니다.