66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
Bayesian Optimization 설치 에러
아래 Bayesian Optimation 설치 에러 글을 보고 conda uninstall bayesian-optimizationconda uninstall colorama수행후에 pip install bayesian-optimization 완료하였습니다.하지만 from bayes_opt import BayesianOptimization 수행하니까, 아래와 같이 에러가 발생합니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
from bayes_opt import BayesianOptimization 에러
picture_1강의 내용에 나와있는 conda install -c conda-forge ,,, 만 쳤을 때, 'just_fix_windows_console' from 'colorama' error가 발생하였습니다.따라서 이를 해결하기 위해 관련 내용을 찾아보던 이와 같은 질문을 발견하였고, 답변한 내용에 따라 아래와 같은 파일을 설치하였습니다. 그 후에도 작동이 안되어서, conda install -c "conda-forge/label ... 를 추가로 설치를 했는데, import는 정상적으로 되나, 값을 출력하는 부분에서 fmfn/BayesianOptimization에 나와있는 예제 파일을 그대로 복사해서 쳐봤는데 error가 발생합니다.어떻게 해결해야할까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
catplot의 kind=count사용 시, 비율 문제 관련 질문드립니다.
그래프를 해석하는 데 있어서, catplot의 countplot을 통해 그래프를 작성하면 한 가지 단점이 target=0과 target=1 일때 각각의 경우에 대해서 나온 그래프의 전체 값이 다르기 때문에 비율을 통해 접근을 해야 한다고 하셨습니다.그 이유는 TARGET = 0의 비율은 전체 데이터프레임 app_train['TARGET'].value_counts() / app_train.shape[0]을 적용했을 때, 각각 92% , 8% 정도가 나오기 때문입니다.Q: 올바르게 이해한 것이 맞을 까요?따라서 왼쪽 subplot의 경우 전체 92%의 데이터들 가운데, 각 object칼럼에 대응하는 TARGET = 0 일때의 count 갯수를 기준으로 만들어진 것이며, 오른쪽 subplot의 경우 이러한 왼쪽 subplot을 기준으로 만들어진 그래프이기 때문에 그래프가 짜부라져 보인다는 것으로 이해하였습니다.이와 같이 비슷하게 설명을 하셨지만, 질문 게시판에 다시 올린 이유는CODE_GENDER를 제외한 나머지 15개의 object칼럼에 대해 큰 차이가 없어보이는 것을 확인 할 수 있다고 하셨는데, FLAG_OWN_CAR(차 소유 여부)의 경우 (차량 소유 = yes)있을 때, 연체 비율이 no 일때 보다 훨씬 높다는 것을 확인 할 수 있었습니다. TARGET = 1일 떄의 차량 소유 NO /TARGET = 0일 떄의 차량 소유 NO (분모가 더 큼)마찬가지로 FLAG_OWN_REALITY(부동산 소유 여부) 의 경우에는부동산을 소유하지 않았을 때, 연체 비율이 더 높은 것을 확인할 수 있었습니다.그래서, 제가 올바르게 이해한 것인지 여쭤보고 싶습니다. Q: 그래프를 Target=1/TARGET = 0 일때를 기준으로 좀 더 명확하게 보고 싶은데 어떻게 코드를 작성하는 것이 좋을까요?먼저 제가 이렇게 그래프를 보고 싶은 이유는 다음과 같습니다. 아무래도 16개의 칼럼들에 대해서 비율로 접근하다보니, 만약 TARGET = 0일 때 object칼럼에 대한 각각의 x 값이 비슷할 경우, target = 1일 때 짜부라진 데이터에 대해서 부정확한 분석을 할 수 있을 것 같았기 때문입니다. 따라서 scale조정을 할 수 있다면, 좀 더 정확하게 분석을 할 수 있지 않을 까? 하는 생각이 들었습니다.코드를 보면, 다음과 같습니다.[16개의 object칼럼 데이터에 대해서 list형태로 만듦]object_columns = app_train.dtypes[app_train.dtypes == "object"].index.tolist()object_columns[catplot을 사용하여 kind=count형식으로 그래프를 만듦]def show_category_by_target(df, columns):for column in columns:print('column name:', column) chart = sns.catplot(x=column, col = 'TARGET', data=df, kind='count')chart.set_xticklabels(rotation=65)show_category_by_target(app_train, object_columns) x= column을 통해 loop를 돌면서 app_train[column]이 들어가기 때문에, 각 카테고리형 변수에 대해서 target 0과 target 1에 대해(col='TARGET') 두 개의 subplots 가 나오는 코드입니다.이 부분을 하나의 plot으로, target 1일 때 / target 0일 때 각 카테고리형 변수에 대한 각 인자들 로 나눠서 보고싶은데 어떻게 해야할까요?쉽게 생각하면, 원래 오른쪽 subplot / 왼쪽 subplot을 하여 하나의 target=1에 대한 그래프를 보고 싶다는 질문입니다.
- 해결됨캐글 Advanced 머신러닝 실전 박치기
no such file directory 문제..
말씀 주신대로 conda 명령어를 실행했더니, conda 명령어가 실행되지 않아서, 인터넷에 찾아본 결과 path를 수동으로 추가해줘야 한다고 해서 처음에 추가를 했는데요.. i 로 들어가서 수정을 했는데인터넷상에서 /home/{user_name}/ 이렇게 되어 있어서 중괄호를 사용해서 path를 수동으로 입력해줬더니 그 다음부터는 wget 명령어를 사용해도 no such file directory라고 뜨고.. ls 명령어 등 어떤 명령어를 쳐도 no such file directory문제가 발생합니다. ㅠㅠ
- 해결됨캐글 Advanced 머신러닝 실전 박치기
도와주세요.. putty 설치 관련
installation finished. Do you wish the installer to initialize Anaconda3 by running conda init? [yes|no] [no] >>> 여기서 제가 컴퓨터가 멈췄나 싶어서 계속 엔터를 눌렀더니 bash 설정도 못하고 다음 단계로 넘어가지 않네요.. 삭제해볼려고 했는데 putty끄고 계속 했더니 벌써 같은 아나콘다 설치 파일만 6개 넘게 만들어졌어요.. ㅠㅠ
- 해결됨캐글 Advanced 머신러닝 실전 박치기
제가 yes를 눌러야 하는데 설치과정 중 no를 눌렀는데 이미 아나콘다 파일이 존재한다고 다음 과정으로 넘어가지 않습니다.
다시 어떻게 하면 파일을 삭제하고, 다시 재 설치 가능한지 여쭙고 싶어요.
- 미해결캐글 Advanced 머신러닝 실전 박치기
Mac에서의 Putty 사용관련
안녕하세요.강의 내용대로 진행중에 Putty는 별도의 Mac프로그램이 없고 터미널을 통해 설치 후 사용해야 하는 것 같습니다. Mac에서 클라우드를 이용해서 실습을 해보고 싶은데 어떻게 하면 좋을지 문의 드립니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
불균형 데이터 문제
안녕하세요, 선생님! 질문하기에 앞서 항상 좋은 강의를 해주셔서 감사드립니다. 다름이 아니라 저희가 다루는 데이터의 TARGET 값을 보면 0과 1의 분포가 굉장히 불균형한데 (application_train.csv에서 TARGET 값의 분포도를 보면 1은 약 8% 정도고, 나머지 92%가 0), 혹시 머신러닝 모델을 만들 때 문제가 되지 않을지 궁금합니다. 그리고 보통 이럴 떄 어떤 해결 방법이 있는지 궁금해서 질문드립니다. 제가 지금 32강 밖에 듣지 않아서 나중에 선생님께서 설명해주실 수도 있지만, 그래도 궁금해서 미리 질문드립니다. 항상 감사드립니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
Home Credit data set의 AMT_INCOME_TOTAL
Home Credit data set의 application_train.csv 파일에서 소득을 뜻하는 AMT_INCOME_TOTAL 변수의 단위가 달러인가요? 혹시 어디에서 돈의 단위가 달러라는 것을 확인할 수 있을까요? 감사합니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
주피터 노트북 설정 변경과 관련하여 질문 좀 드립니다
안녕하세요~ 영상 설명대로 주피터 노트북 설정을 변경하면 구글 클라우드를 사용하지 않고 제 컴퓨터 상에서 주피터 노트북을 이용하더라도 설정이 이전과 달라지는 게 맞나요? 만약 맞다면, 혹시 영상 설명대로 주피터 노트북 설정을 하면서 기존 주피터 노트북의 설정도 유지할 수 있는 방법이 있나요? 구글 클라우드를 경험해보고 싶어서 순서대로 영상을 보며 진행하고 있었는데, 기존 주피터 노트북 설정을 바꿔야 하는 것 같아 코랩을 써야할지 고민이 되네요 ><
- 미해결캐글 Advanced 머신러닝 실전 박치기
주피터 노트북으로 코드 자료실에 안들어 가집니다
섹션2 4번째 강의에 나와있는 나와있는 ip와 포트번호로 접속했는데 접속이 안됩니다. 동영상에 있는 자료들을 다운로드 받을 수 있는 다른 방법이 있나요....?
- 미해결캐글 Advanced 머신러닝 실전 박치기
상관도 관련 질문
안녕하세요 강사님, 항상 좋은 강의와 답변에 감사드립니다. 질문 1) 9분부터 시작되는 상관도의 경우 Pearson correlation을 쓰는 것으로 알고 있는데 numerical vs. numerical 인 경우에는 해석을 할 수 있겠으나, numerical (Income) vs. categorical (Target) 혹은 categorial (남자) vs. categorical (Target) 같은 경우는 상관도의 해석을 어떻게 해야하는지 궁금합니다. 예를 들어, 다른 강의에서 다룬 <자전거 대여 예측>에서 Hour 변수를 원-핫 인코딩 변수들(categorical)로 나눈 경우, Count(continuous)와의 상관도를 Pearson으로 나타낸다면 어떻게 해석해야할까요? 또 원-핫 인코딩된 Hour_1 과 Hour_3 간의 상관도는 어떻게 해석해야할까요? Categorical vs. categorical 혹은 binary vs. binary의 경우 아예 correlation을 구하지 않는 것이 바람직한 것인가요? 질문 2) ML 프로젝트에서 Correlation의 쓰임새에 대해서도 궁금합니다. ML은 결과를 우선으로 하기 때문에 regression의 가정을 위반하는 feature들간의 다중공선성 (multi-collinearity) 을 크게 상관하지 않는다고 하셨는데, 데이터의 사이즈가 클 경우 상관도가 높은 X 변수들을 줄이거나 합치는 용도 외에 또 다른 용도로 correlation이 어떻게 쓰이는지 알려주시면 감사하겠습니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
data leakage에 대해 여쭈어봅니다
apps['APPS_EXT_SOURCE_MEAN'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].mean(axis=1) apps['APPS_EXT_SOURCE_STD'] = apps[['EXT_SOURCE_1','EXT_SOURCE_2','EXT_SOURCE_3']].std(axis=1) apps는 train과 test셋을 병합하여 만든 데이터셋인데, 평균으로 매꾸면 data leakage가 맞을까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
질문드립니다.
한쪽으로 데이터가 너무 스큐되어 있어서 cond_amt=df[column]<500000 이렇게 필터링 해주었는데 만약 500000이상일때 중요한 데이터가 있어서 학습 못시키는 경우도 있는가요??
- 미해결캐글 Advanced 머신러닝 실전 박치기
베이지안 최적화 반환값
안녕하세요 선생님. 베이지안 최적화 함수 관련해서 궁금한게 생겨 질문 드립니다. 1. 평가 함수 중 ROC_AUC 말고 RMSE 같은 경우에는 maximize가 아닌 minimize를 사용해야 할 것 같은데 구글링 해도 정보가 없어서요. 혹시 최대화가 아닌 최소화하는 쪽으로 최적화를 해야할 때에는 베이지안 객체를 어떻게 사용해야 하나요? 2. lgb_roc_eval 함수에 bayesian_params 에 해당하는 인자 말고도 X_train, y_train 같은 다른 파라미터를 전달해줘도 괜찮을까요? 다른 파일로 해당 함수를 뻬내서 pbounds 에 어떻게 다른 인자를 전달해줘야 할지 잘 모르겠습니다. 마지막으로 항상 정성스런 강의 감사드립니다!
- 미해결캐글 Advanced 머신러닝 실전 박치기
feature를 계속 만들어 붙여도 상관 없는건가요?
안녕하세요! 수업 잘 듣고 있습니다. 파이썬 머신러닝 완벽 가이드에서는 차원의 저주라고 해서 피쳐가 늘어날수록 성능이 떨어지는 것으로 배웠습니다. 서로 관련이 있는 피쳐들을 가지고 엔지니어링하면서 피쳐를 또 늘리면, 피쳐간 상관관계가 높아져서 성능에 안 좋은 것으로 아닌가요? (다중공선성...의 문제라 할까요) 전에는 오히려 서로 관련성이 있는 피쳐들을 drop하고, 중요하다고 여겨지는 피쳐만 selection 해야 하는 것으로 이해했는데 이번에는 계속 늘리는 방식으로 수업이 진행되니 어떤게 맞는 것인지 좀 헷갈립니다. 결론적으로... 피쳐를 계속해서 늘려도 괜찮은건가요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
10:46 여기서 -1은 왜해주는건가용??
항상 좋은강의 감사합니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
feature가 재현율에 미치는 영향을 나타내는 지표
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 선생님, 항상 좋은 강의 해주셔서 감사합니다. 다름이아니라, 분류모델링 중 불균형이 심한 데이터 (0이 95% 이상, 1이 5% 남짓)를 처리하는 모델링을 현업에서 진행중인데, 컬럼의 수도 매우 많은 편이라 feature engineering 중 어려움을 겪고 있습니다. 재현율이 핵심인 모델인데, feature가 재현율에 미치는 영향을 알려주는 지표나 guideline같은 것이 있을까요? 없다면 재현율의 저하를 야기하는 feature의 특징을 알 수 있을까요?? 항상 감사합니다!
- 미해결캐글 Advanced 머신러닝 실전 박치기
lightgbm eval metric 질문입니다.
수업에서는 auc를 최대로 하려고 eval metric을 사용하셨는데, 저는 f1score를 최대화 하려고 합니다. 인터넷 찾아보면서 eval metric에 f1score를 주려고 하는데 잘 안되는데 혹시 도움을 요청할 수 있을까요? 감사합니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
하드웨어 성능이 좋지 않을 때, 모델 구성방법 문의
안녕하세요 강사님요즘 사내 AI 경진대회 준비중이라, 질문이 많은것 같습니다.(Kaggle과 같은 방식의 경진대회)항상 모든 질문에 세심히 답변해 주셔서 감사드립니다.제가 문의 드릴것은 강의에 관한 내용은 아닌데, 어디에 적을지 몰라서 여기에 적습니다. 죄송합니다..문의 사항은 하드웨어 성능이 좋지 않을 때, 모델 구성방법에 관한 사항 입니다.사내 AI 경진대회가, 사내 플랫폼으로 돌아가는 환경으로 Jupyter 기반입니다CPU 2 Core, 메모리 16기가, GPU를 지원합니다.제 전략은 이렇습니다.피쳐 셀렉션을 하기위한 Permutation_importance를 보기위해빠르게 앙상블 모델을 만들어서 타겟값에 중요한 영향을 미치는 요소를 뽑아내려합니다.* EDA, 피쳐 엔지니어링은 당연히 진행합니다!!하지만 여기서 문제가 있는데, 알고리즘 별 결과 도출까지 소요되는 시간입니다.[분류] 문제는 LGBM을 쓰려고 하는데, 플랫폼에 LGBM - GPU 가 설치되어 있지않아 사용불가 합니다.현재 진행중인 예선에서는 2주의 기간이 있어 LGBM을 사용했는데 learning_rate 0.008 했더니 6시간 후에 결과가 나옵니다.0.01 하면 2시간정도 걸립니다.(이진분류 문제)따라서 Xgboost-GPU를 사용하려 합니다. 데이터의 모든 특성을 집어넣고 Xgboost를 돌려서 앙상블 모델을 만든다음, Permutation_importance와 모델의 Featur_importance 기능을 통해서 사용 피쳐를 선택합니다.그 후, 어느정도 피쳐가 정해지면 다시 LGBM으로 모델을 구현하려합니다.근데 나중에가면 분명히 LGBM으로 learning_rate를 낮추고, estimator를 높여서 정확도를 높여야하는데예선처럼 6시간 후에 결과가 나온다면... 답이 없을 것 같습니다. 스태킹 모델은 꿈도 못꾸겠네요ㅠㅠ혹시 이러한 접근방법이 적절한지, 아니라면 혹시 추천해주실 방법이 있는지 문의드립니다.* 딥러닝으로도 빠르게 구현 가능하였으나, 예선에서 테스트 해보았는데 정확도가 그닥 높지 않긴 했습니다.참고로, 강사님 강의 수강하여 현재 진행중인 예선에서 약 100팀중 2-3등을 하고있습니다. 정말 감사드립니다!!!