66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
권철민교수님 진심으로 감사드립니다.
권철민 교수님 감사드립니다. 인프런,유데미,패캠등 수많은 강의를 들었는데 이렇게 수준높고 이해하기 쉬었던 질높은 강의는 처음이었던것 같습니다. 다시한번 감사 드립니다. 앞으로도 교수님의 발자취를 따라가며 관련 강의를 많이 접하고 싶은데 인프런 포함 계속 교수님께 배울수 있는 방법이 있을지 문의드립니다. 회신은 DM으로 주셔도 됩니다. (marius.oh@lge.com)
- 해결됨캐글 Advanced 머신러닝 실전 박치기
안녕하세요 선생님
안녕하세요 선생님 우선 좋은강의 감사드립니다.두가지 질문이 있는데요.... 우선 아나콘다 주피터 노트북에 대해서 질문입니다.prev_baseline_01 관련 파이썬을 실행중이고 '섹션3 previous_application 데이터 가공/모델 학습/평가'에서 주피터노트북으로 코딩을 실행하는데 자꾸 커널이 죽어버립니다. 데이터 전처리들을 다 실행하고. LGBMClassifier를 실행하는데.. ''the kernel appears to have died. it will restart automatically'' 이런 문구가 떠서 구글링도 하고 그랬지만, 어떤분은 max_buffer_size를 크게 올려라고도 했는데 잘 되지가 않네요..의문이 있습니다만, 주피터노트북이 컴퓨터 사양으로 돌아가는것이 아닌가요? 저의 컴퓨터가 굉장히 하이엔드 컴퓨터라 램도 64기가가 넘는데, 고작 몇매가로 뻗어버리는게 뭔가 마음?이 아프고 고작 이정도로 이러면 앞으로 주피터노트북에서 텐서랑 케라스를 돌리면 어떻게 되는걸까 되게 의문이 많습니다. 제가 어디를 놓치고 있는것인지,. 괜찮은 방법이 있다면 알려주시면 감사드리겠습니다.(아 처음에 VM서버랑 주피터노트북이랑 연동하지못했습니다. 맥 환경이라. 하지를 못해서 ㅠㅠㅠ) 그리고 두번째로, 으음 제가 대학원이랑 취업을 준비하고있습니다. 수학하고 통계를 전공해서 학사졸업을 했구요, 인공지능이나 데이터사이언스로 대학원을 가기를 희망해서 현재 선생님의, 데이터비젼강의들과, 머신러닝 강의를 수강하고있고, 일주일내로 SQL강의또한 수강을 할 생각입니다.그런데 컴퓨터전공에 대한 지식이 부족해(알고리즘,자료구조,컴퓨터구조,데이터베이스 등등...) 조금 고민이 많은데요.이게 이것마져도 다 할려고 덤비니까 굉장히.. 힘들더라구요(개발자도 아닌데..) 혹시 일단은 여기정도까지만 공부하면 괜찮다..! 싶은 선이 있을까 싶습니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
# credit_card_balance 데이터셋 피쳐엔지니어링
선생님 안녕하세요 피쳐엔지니어링을 하면서 아래 궁금증이 생겼습니다. 보통 dict aggregation으로 통계변수를 생성할때 (알려주신 루틴이 정말 효율적인 코드를 작성하는데 도움이 됩니다.)min,mean,max를 사용하시는데요 ID는 cnt만 사용하는 것도 이해가 되는데 어떤 경우에는 일수관련한 변수인데 min이 없더라구요 POS_IS_DPD'그리고 어떤 경우에는 sum이 추가되어 있구 (예) DAYS_ENTRY_PAYMENT) 이런 결정은 수차례 실험후 내리신 결정인가요?아니면 어떤 규칙같은것이 있을까요? 강의 내용은 없어서 노하우를 전수받고 싶습니다.(사실 이런부분이 제일 판단하기가 어려워서요, 기본적은 가이드라인을 갖고 피쳐엔지니어링을 하고 싶습니다. )
- 미해결캐글 Advanced 머신러닝 실전 박치기
초거대 데이터셋을 Submission하려면?
안녕하세요, 캐글 공부하다가 궁금증이 생겼습니다. 제가 참여하고 있는 Closed 대회 데이터가 워낙 커지니 모델의 크기도 그만큼 커지게 되는데, 이때 Kaggle Notebook은 성능이 그닥 좋지 못해서 모델 학습 시간이 너무 오래 걸려 Timeout되거나 OOM이 뜹니다. 이를 해결하는 방법이 어떤 게 있을까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
Library 관련 질문
#Library환경 셋업 pip install "numpy<1.24" pip install lightgbm==3.3.2 pip install --upgrade bayesian-optimization # lgbm 학습 lgb_model.fit(train_x, train_y, eval_set=[(train_x, train_y), (valid_x, valid_y)], eval_metric= 'auc', verbose= 100, early_stopping_rounds= 100) 기존 코드를 구현했을 때, lgbm학습과정에서 early stopping 과 verbose 파라미터 에러가 계속 발생하는데 그 이유는 library버전 이슈었음을 알게 되었습니다. 강의 내용에 해당 내용이 반드시 초기에 반영되면 좋을 것 같아 의견 드립니다. 추가로 kaggle 환경에서 GPU로 iteration은 30번까지 못돌고 중간에 계속 끊기고 있습니다. 해결 방법을 알려 주실 수 있으실까요? 강의중 50분걸린다고 하신 말은 CPU기준인가요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
최적화 함수 에러
안녕하세요 선생님 코랩에서 베이지안 설치 잘되었고 버전 확인도 잘 되었습니다.그러나 최적화 함수 구동중에 계속 numpy 에러라고 입력변수가 float가 문제가 있다고 나오고 있습니다. 챗gpt에 문의해도 코드 에러는 없다고 합니다 .무엇이 원인일까요? (아레 에러 설명 메세지는 np.float는 없어졌으니 float을 쓰라고 되어 있어서 pbounds 구간에 float도 써보고 float 64도 해보고 다해 봤습니다. 강의 내용중에 코랩에 문제가 있을수 있다는 말씀이 그말씀이실까요? 저는 코드 library를 모두 코랩에 저장하고 있어서 주피터 보다는 코랩에서 실습을 해보고 싶은데 반드시 주피터에서 해야 하는 건가요? 의견 부탁 드립니다. !pip install bayesian-optimization==1.1.0 # Bayesian optimization 은 넓은 범위의 입력값들을 이 함수에 입력했을 때 어떤 입력값이 이 함수를 최대화 하는지 추론. def black_box_function(x, y): return -x ** 2 - (y - 1) ** 2 + 1 # 입력 파라미터들의 범위(공간) import numpy as np pbounds = {'x': (2.0, 4.0), 'y': (-3.0, 3.0)} # 범위는 정수가 아니라 실수 # Create the Bayesian Optimization object optimizer = BayesianOptimization( f=black_box_function, pbounds=pbounds, random_state=2024 ) # Maximize the function optimizer.maximize( init_points=2, n_iter=3, ) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-31-e3170102c931> in <cell line: 10>() 8 9 # Create the Bayesian Optimization object ---> 10 optimizer = BayesianOptimization( 11 f=black_box_function, 12 pbounds=pbounds, 2 frames /usr/local/lib/python3.10/dist-packages/numpy/__init__.py in __getattr__(attr) 317 318 if attr in __former_attrs__: --> 319 raise AttributeError(__former_attrs__[attr]) 320 321 if attr == 'testing': AttributeError: module 'numpy' has no attribute 'float'. `np.float` was a deprecated alias for the builtin `float`. To avoid this error in existing code, use `float` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.float64` here. The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
- 미해결캐글 Advanced 머신러닝 실전 박치기
LightGBM Iteration관련
안녕하세요 LightGBM Iteration관련 문의드립니다. 설명해 주신 코드로 작성하였으나 이터레이션마다 Score가 표시되지 않습니다 verbose를 100으로 설저했는데 다음과 같이만 조회됩니다.이유가 무엇일까요?LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 Early stopping, best iteration is: [902] training's binary_logloss: 0.210459 valid_1's binary_logloss: 0.242339from lightgbm import LGBMClassifierclf = LGBMClassifier( n_jobs=-1, # CPU성능 n_estimators=1000, #1000개 tree learning_rate=0.02, #학습률 낮을수록 정교함 num_leaves=32, # 가지치기 수 subsample=0.8, #활용할 sample비중 max_depth=12, #가지깊이 verbose=100, #출력메세지 최소화 early_stopping_rounds= 50, eval_metric= 'auc' )clf.fit(train_X, train_y, eval_set=[(train_X, train_y), (valid_X, valid_y)])
- 미해결캐글 Advanced 머신러닝 실전 박치기
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
vm 사용안할때는 종료하는게 좋다고 하셔서 처음 세팅 후, 종료했었는데요. 지금 다시 gcp들어가서 해당 vm 시작 버튼 눌러서 실행시켰는데 putty, winscp에서 해당 아이피 잡지를 못하고 있습니다. vm 시작버튼 말고도 추가로 작업해야될게 있을까요??
- 미해결캐글 Advanced 머신러닝 실전 박치기
코드를 실행했는데 오류가 발생합니다
LightGBM 코드를 실행했는데 fit() got an unexpected keyword argument 'verbose' 라는 오류가 발생합니다. 이유가 무엇인지 알 수 있을까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
bayes_opt 회귀 모델에 적용하려면..
안녕하세요, 회귀 문제에 bayes_opt를 사용하여 파라미터 튜닝을 하려고 합니다.이전에 파이썬 머신러닝 완벽가이드에서 hyperopt는 목적함수의 최솟값을 위한 입력값을 찾기 때문에 이를 회귀에 사용할때는 그대로 사용하고, bayes_opt는 반대로 최댓값을 위한 입력값을 찾는다고 되어있으면 회귀에 사용할경우 -1을 곱해주면 될까요 ?
- 미해결캐글 Advanced 머신러닝 실전 박치기
타겟값의 로그변환에 대해서
선생님 안녕하세요 머신러닝강의(2개)와 컴터비젼강의를 듣고 있는 회사원입니다 ㅎ이번에 머신러닝강의중 타겟값(5개, 정수형태)의 로그변환에 대해서 조언을 받고싶어서 질문을 드립니다 ㅎ바쁘시겟지만 조언 좀 부탁드리겟습니다선생님 강의내용대로 예를들어, 아래와같은 5개타겟값(양수값)이 있을때, 이를 로그변환한 후 이값을 머신러닝으로 예측해서 로그값끼리 단순오차를 비교하면 평균오차2%대, 최대오차 4%대로 아주 좋은 결과가 나옵니다 ㅎ근데. 로그를 벗기고 실제값(양수값)과 예측값(양수값)로 비교하면 평균오차는 4%대, 최대오차는 13%대로 최대오차에서 로그값과 비교하면 3배이상이 차이가 납니다ㅎ여기서 조언을 듣고싶은것이, 실제값(양수형태)과 예측값(양수형태)의 비교에서 최대오차 혹은 평균오차를 더 작게 할수 잇는 방법이 있는지요?예를들어, 최대오차가 크게 발생하는 실제값을 알아보고, 그값의 예측값에 가중치를 부여한다던지....혹시 가능하시다면 코드도 넣어서 답변 부탁드리겠습니다 ㅎ바쁘시겟지만 부탁드리겠습니다 ㅎ-----------------------------------------------------------##<참고>예를들어, 타겟값[1, 10, 100, 10000, 100000]일때##<로그값끼리 5개값의 단순오차비교하면> abs(log(y)-log(y_pred))/log(y)*1005개평균오차 : 2%대5개중 최대오차 : 4%대##<로그를 벗기고, 실제값과 예측값비교하면> abs(y-y_pred))/y*1005개평균오차 ; 4%대5개중 최대오차 ; 13%대 바쁘시겟지만, 시간나실때 답변 부탁드리겠습니다 ㅎ
- 미해결캐글 Advanced 머신러닝 실전 박치기
아나콘다 환경설정
안녕하세요 선생님실습환경 구축이 너무 어려운데 pc 메모리가 16gb 이면그냥 주피터노트북으로 실행해도 무관할까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
깃허브 주소 문의드립니다.
안녕하세요! 선생님 강의 열심히 듣고 있는 학생입니다 "Anaconda와 Jupyter notebook 셋업하기"를 보면 선생님 깃허브에 들어가서 DLCV 파일을 다운받으라고 하셨는데, 깃허브 주소가 어떻게 되시나요? 아무리 찾아도 나오지 않아 문의드립니다.
- 미해결캐글 Advanced 머신러닝 실전 박치기
손실함수에 대한 질문
안녕하세요 선생님,공부를 하다가 손실함수 부분에 대해서 질문이 있어서 이렇게 문의드립니다 다름이 아니고 시계열 자료를 분석하고 있는데, 정상성을 확보하기 위해서 차분을 하고 LIGHT GBM과 RANDOM FOREST로 회귀분석을 했는데 실제값은 0.1 ~ 0.8으로 많이 움직이지만, 예측값은 그냥 평균값이 0.4로 고정을 해서 오차에 대한 값이 그렇게 크게 나오지 않습니다. 이럴 경우는 어떻게 해야할까요?
- 미해결캐글 Advanced 머신러닝 실전 박치기
card_bal 데이터셋 시각화 관련 질문입니다
distplot의 바, 곡선 모두 밀도를 의미한다고 알고 있는데 0과 가까운 곳에서 바는 빨간색, 곡선은 파란색이 더 높은데 이 경우는 빨간색과 파란색 중 어느 데이터가 0과 가까운 곳에서 밀도가 높은 것인가요 ?
- 미해결캐글 Advanced 머신러닝 실전 박치기
LGBM null값 처리에 관해 질문있습니다
안녕하세요 머신러닝 완벽가이드부터 차례대로 수강 중인 학생입니다 LGBM이 NULL값을 자동으로 처리하여 분류한다고 말씀하셔서 NULL값을-999로 변환하지 않고 캐글에 제출해보았는데 성능이 많이 차이가 나서 질문 드립니다 ! NULL값을 -999로 변경했을 경우 private가 0.74022,변경하지 않았을 경우 0.5736이 나왔는데 혹시 이유가 있을까요 ? 그리고 NULL값을 -999로 처리하신 이유가 궁금합니다 !
- 해결됨캐글 Advanced 머신러닝 실전 박치기
컬럼 관련 질문
안녕하세요 선생님 항상 좋은 강의 감사드립니다.다름이 아니라 수업 마지막 즈음에, 퍼포먼스를 높이기 위해 컬럼을 많이 만든다고 하셨던 말씀에 궁금한 점이 생겨 질문을 드립니다.저번에 다른 수업에서 캐글에서 많은 사람들이 피처(컬럼)의 개수를 많게는 천개도 넘게 만들어놓고 성능을 평가하며 줄인다고 하셨던 걸로 기억을 합니다 (제 기억이 맞다면요!).그렇다면 컬럼을 만들 때 저의 상상 속의 로직?이 필요하다고 생각하는 모든 경우의 컬럼들을 만들어 놓은 다음에 plot importance 그래프에서 성능에 도움이 되지 않는 컬럼들은 drop해도 되는 걸까요? 아니면 성능이 큰 영향을 주지 않더라도 그대로 놔둬야 하는 걸까요?다시 정리해서 말씀드리면, 엄청나게 많은 컬럼들을 만들어 놓은 후에 나중에 성능에 별 도움이 되지 않는 컬럼들은 (순차적으로) drop하는게 맞는 걸까요? 놔둬야 할까요??감사합니다:)
- 미해결캐글 Advanced 머신러닝 실전 박치기
히스토그램 x 값
안녕하세요. 현재 app_baseline01을 강의와 함께 같이 실습하고 있는 강의 수강생입니다..!train 데이터의 AMT_INCOME_TOTAL의 값들은 아래의 사진과 같은데, 히스토그램 그래프에서 x 값들이 소수점으로 나오는 이유가 무엇인지 궁금합니다. 아래의 값들이 범위로 나눠져 나타나야 하는 것이 아닌가요? 소수점들이 의미하는 바가 무엇인지 궁금합니다!항상 좋은 강의 제공해주셔서 감사합니다~!
- 미해결캐글 Advanced 머신러닝 실전 박치기
n_iter 횟수 넘음 질문
안녕하세요,n_iter = 25 로 설정하면 25 에서 끝나야 하는 것 아닌가요? 현재 29까지 갔는데도 반복이 끝나지 않아서 질문 드립니다..
- 미해결캐글 Advanced 머신러닝 실전 박치기
학습데이터 테스트데이터 분리
안녕하세요, 모델링 첫번째에서는 apps 를 분리할 때 빈 값을 test 로 간주하고 -999 를 준다음 뽑아준 거 같은데이번에는 isnull()을 사용하신 이유가 궁금합니다. 두 방법에 차이가 있나요?