캐글 Advanced 머신러닝 실전 박치기

application 데이터 세트 기본 분석과 시각화 - 02

질문드립니다.

2022-01-03T09:52:48.294Z

177

bbcc8417

작성한 질문수 22

한쪽으로 데이터가 너무 스큐되어 있어서

cond_amt=df[column]<500000 이렇게 필터링 해주었는데 만약 500000이상일때 중요한 데이터가 있어서 학습 못시키는 경우도 있는가요??

kaggle 머신러닝 배워볼래요?

답변 1

권 철민

2022-01-04T06:12:50.405Z

안녕하십니까,

음, 질문을 제가 잘 이해했는지 모르겠습니다만,

cond_amt=df[column]<500000 으로 한 이유는 outlier성 데이터는 제외하고 분포도를 시각화 해보고자 한 것입니다. 학습은 이후 강의에서도 보시겠지만, 필터링 하지 않고 전체 데이터를 다 사용합니다.

감사합니다.

sql사용

2025-10-20T07:53:47.562Z

좋은 강의 감사드립니다.

2025-07-29T17:31:59.207Z

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

2024-09-15T11:49:04.846Z

279

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

2024-08-15T11:28:01.059Z

644

안녕하세요 선생님

2024-06-28T07:45:43.376Z

247

권철민교수님 진심으로 감사드립니다.

2024-03-21T23:51:43.071Z

330

안녕하세요 선생님

2024-03-20T06:02:52.420Z

370

# credit_card_balance 데이터셋 피쳐엔지니어링

2024-03-13T22:27:19.448Z

286

초거대 데이터셋을 Submission하려면?

2024-03-10T15:49:26.678Z

205

Library 관련 질문

2024-02-26T03:37:34.436Z

383

최적화 함수 에러

2024-02-14T23:50:08.189Z

623

LightGBM Iteration관련

2024-01-29T12:50:17.751Z

449

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

2024-01-11T02:31:09.240Z

220

코드를 실행했는데 오류가 발생합니다

2024-01-05T12:52:11.938Z

2034

bayes_opt 회귀 모델에 적용하려면..

2023-10-16T10:41:26.577Z

281

타겟값의 로그변환에 대해서

2023-07-08T12:27:18.060Z

808

아나콘다 환경설정

2023-06-11T01:59:51.488Z

480

깃허브 주소 문의드립니다.

2023-06-04T12:10:27.181Z

378

손실함수에 대한 질문

2023-06-02T17:07:31.343Z

360

card_bal 데이터셋 시각화 관련 질문입니다

2023-05-31T06:04:03.391Z

247

LGBM null값 처리에 관해 질문있습니다

2023-05-28T04:16:26.350Z

554

컬럼 관련 질문

2023-04-10T06:46:00.703Z

298

히스토그램 x 값

2023-04-04T01:10:50.637Z

376

n_iter 횟수 넘음 질문

2023-02-27T09:16:13.338Z

509