66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
강의파일 어디서받나요?....
강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
OOF Prediction 개념에 대해서
안녕하세요 OOF Prediction에 대한 개념을 제가 제대로 이해했는지 궁금해서 질문을 올려봅니다 1. OOF Prediction이라는 것은 K-Fold를 통해서 학습 데이터셋을 학습 세트와 검증 세트로 나누고, 검증 세트은 버리고 학습 세트만 사용하여 K번씩 각기 다른 종류의 모델들 혹은 동일한 종류의 모델을 생성한 다음 생성된 K개의 모델을 동일한 테스트 데이터에 적용시켜서 예측값을 내놓은 뒤 그 예측값을 평균내는 방법인가요? 2. 인터넷에 검색해보면 OOF Prediction말고도 OOF ensemble이라는 말도 있던데, OOF ensemble은 학습 폴드세트로 학습된 K개 모델들이 서로 다른 OOF Prediction을 말하는 건가요?(2번 질문이 수업 내용에 벗어난거라면 죄송합니다)
- 미해결캐글 Advanced 머신러닝 실전 박치기
reset_index함수의 name parameter질문
안녕하세요 강의 11분 50초 정도에서 reset_index의 name파라미터를 넣어주라고 하셨는데 말씀하신대로 prev_refused_agg = prev_refused_agg.reset_index(name='PREV_REFUSED_COUNT') 다음과 같이 해봤을 때 TypeError : reset_index() got an unexpected keyword argument 'name'이라는 에러가 발생합니다. 공식문서를 찾아봐도 reset_index함수에는 name이라는 parameter가 없는데 어떻게 해결해야 할까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
아이디어 폐기 여부
안녕하세요. 주어진 소스에 아이디어를 적용해서 더하고 빼면서 컬럼을 추가해보거나 여러 처리를 해 보고 있는데 로컬에서 metric 으로 측정한 점수는 조금 상승했는데 제출을 해보면 오히려 떨어지는 경우가 왕왕 있어서 의욕이 저하됩니다 ㅠㅠ (난사하고 앙상블 하면 좋아질 줄 알았어요...) 적은 점수 차이면 자신을 가지고 밀고 나가야할지 폐기하고 아이디어 적용 전으로 돌아가서 다시 새로운 시도를 할지 경험이 너무 적어서 고민이 됩니다. 감사합니다.
- 해결됨캐글 Advanced 머신러닝 실전 박치기
catplot에서 질문드립니다.
개수(count)로 보니까 scale이 차이나면 직관적으로 보기 힘든데, ratio로 보려면 어떻게 해주어야할까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
'application 데이터 세트 기본 Preprocessing 수행' 부분 관련 질문이 있습니다.
안녕하세요. 'application 데이터 세트 기본 Preprocessing 수행' 을 듣다가 질문이 있어 남깁니다. 파이썬 머신러닝 완벽가이드 책에서 LightGBM은 카테고리형 피처가 최적으로 변환이 된다고 나와있는데 레이블 인코딩을 하신 특별한 이유가 있나요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
eval_metric과 BayesianOptimization의 콜백 함수 관계
LightGBM을 fit할 때 사용하는 eval_metric과 BayesianOptimization의 f 파라미터로 넣는 콜백함수의 리턴값을 구하기 위해 사용되는 eval_metric이 달라도 상관없나요? (예를들어 아래와 같은 상황)
- 미해결캐글 Advanced 머신러닝 실전 박치기
후속 질문4 드립니다!
이전 답변으로 feature engineering에 대해 조금 더 감을 잡게 되었습니다! 감사합니다^^ 이후부터는 질문은 최대한 3~4개 안으로 쪼개서 올리도록 하겠습니다! 1. 이전의 질문에 대한 저의 답입니다! 아래 eval_metric 콜백에 프린트를 찍어보았습니다. 제가 생각하기에 y_true는 검증 데이터셋의 실제 클래스값, y_pred는 검증 데이터셋에 대한 예측 클래스값 (단, 원핫인코딩으로 각각의 클래스값에 대한 probability로 값이 들어가있는 것으로 확인됩니다) 이라고 생각했고, 그래서 아래처럼 변환을 했습니다! 2. 이전 답변에 의하면, 하이퍼 파라미터 튜닝이 우선된 후, 피쳐 엔지니어링을 하는 것이 조금 더 낫다는 말씀이신가요? 그 이유가 궁금합니다! (사실 저는 피쳐 엔지니어링을 거치면 이후 최적 하이퍼 파라미터가 또 바뀌기 때문에 피쳐 엔지니어링이 선행돼야된다고 생각했었습니다) 3. lightGBM에서 eval_metric 을 다른걸 사용하면 피팅되는 모델도 확연히 달라지나요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
후속 질문3 드립니다!
https://www.inflearn.com/questions/67575 의 후속 질문입니다. 항상 빠른 답변 너무나 감사드립니다! 파이썬 머신러닝 완벽 가이드 강의 분류 파트까지 듣고 캐글 advanced로 넘어왔는데, 이곳에서 질문 드리는게 더 적절할 것 같아 게시판을 옮겼습니다~ 1. LightGBM으로 멀티 클래스 분류를 할 경우(target 클래스가 3개) eval_metric='auc_mu'을 사용하는 것이 맞나요? 또한 멀티 클래스 분류의 경우 재현율을 어떻게 봐야할지 모르겠습니다. 2. 피쳐 엔지니어링을 하면서 2개의 피쳐 간 상관계수가 1.0인 경우 1개의 피쳐를 drop해야 하나요? 만약 drop을 해야되는 경우(혹은 꼭 그렇지 않아도 되는 경우) 어떤 이유에서인지 궁금합니다. 3. target별 피쳐 분포도가 아래와 같은 경우 저는 해당 피쳐를 drop하는게 맞다고 생각했는데, drop한 경우 정확도가 0.01퍼센트 가량 하락했습니다. 이는 크게 우려할 만한 정도가 아닌가요? 혹은 본 피쳐를 살리는 것이 맞는걸까요? 4. 2개의 피쳐(범주형)가 각각 대분류, 중분류로 나뉘어지고, 피쳐간의 상관관계도 0.8~0.9 정도로 높게 나타나는 경우 어떻게 처리하는 것이 좋은가요? (예를들어, A 피쳐는 위험도별로 1군, 2군, 3군, B 피쳐는 위험물질별로 a, b, c, d, e, f, g, h, i로 카테고리가 나뉘어질 때, B 피쳐의 a, b, c는 A피쳐의 1군, B피쳐의 d, e, f는 A피쳐의 2군, B피쳐의 g, h, i는 A피쳐의 3군과 같은 형식으로 포함관계가 성립) 5. 아래처럼 피쳐간의 분포 모형이 비슷할 경우 .mean()을 활용하여 해당 피쳐의 영향을 극대화하는것도 괜찮은 방법일까요? 그리고 본 강의에서 .mean() 등을 활용하여 새롭게 피쳐를 추가했을 때, 원래 존재하던 개별 피쳐는 따로 drop하지 않던데 그 이유는 무엇인가요? 6. 저번 질문에 대한 답변을 듣고 n_estimators를 매우 높여본 결과 아래처럼 정확도가 나왔습니다. (끝에서 2번째는 n_estimators=20000일 때인데 오타가 났습니다) 테스트를 진행하면서 궁금했던 점이 learning_rate를 줄이고 n_estimators를 늘리는 것이 모델 성능 향상에 큰 영향을 주는게 맞나? 라는 의문이 들었습니다. 혹시 이런 방법이 특히나 효과를 볼 수 있는 데이터셋이 따로 존재하는 것일까요? 8. LightGBM에서 F1 score를 평가 메트릭으로 사용하기 위해(주최측에서 macro f1 score를 평가지표로 활용한다고 발표) 아래처럼 메서드를 생성하여 학습을 진행하였는데, 이후 채점시 정확도가 10% 가량 하락했습니다. 여기서 세 가지 질문이 있습니다. > 8-1. 아래처럼 커스텀하여 사용하는 것이 맞나요? > 8-2. f1 score를 eval metric으로 변경할 경우 이후 LightGBM이 모델을 피팅할 때 f1 score를 향상시키는 방향으로 학습하는 것이 아닌가요? 왜 이렇게 낮은 정확도에서 early stopping이 발생하는지 이해가 되지 않습니다. (스크린샷에는 early_stopping_rounds=10이지만, 500으로 두고도 테스트해봤으나 별반 차이가 없었습니다) > 8-3. 현재 제 문제(f1 score로 평가 메트릭 변경 후 학습시 정확도가 잘 오르지 않고, 최종 점수가 낮은 것)를 해석하면, 이전까지 logloss로 피팅한 모델은 비록 제출시 점수는 높더라도 우연이거나 과적합되었을 가능성이 높은 것으로 해석하면 될까요? 따라서 이제부터 f1 score로 피팅하면서 피쳐 엔지니어링을 좀더 신경쓰면 되는걸까요? 긴 질문 읽어주셔서 정말 감사드립니다!!!
- 미해결캐글 Advanced 머신러닝 실전 박치기
주요 컬럼의 선택하신것에 대한 질문.
선생님 안녕하세요, 주요컬럼들을 미리 list로 만들어 놔 주셨는데, 이는 LGBM에서 importance순으로 가져온 것인지요(조금은 상이하기에..) 아니라면 어떻게 '주요하다'라고 선택된 칼럼들인지요 ??
- 해결됨캐글 Advanced 머신러닝 실전 박치기
plot을 그릴때 데이터에 결측치가 있으면 그려지지 않는 컬럼이 있습니다.
show_hist_by_target() 함수 호출 시 'ValueError: cannot convert float NaN to integer' 에러가 발생하는데요. 혹시 seaborn 라이브러리의 버전 문제나 먼저 결측치 제거 작업을 거쳐야 할까요?