묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결캐글 Advanced 머신러닝 실전 박치기
LightGBM Iteration관련
안녕하세요 LightGBM Iteration관련 문의드립니다. 설명해 주신 코드로 작성하였으나 이터레이션마다 Score가 표시되지 않습니다 verbose를 100으로 설저했는데 다음과 같이만 조회됩니다.이유가 무엇일까요?LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 Early stopping, best iteration is: [902] training's binary_logloss: 0.210459 valid_1's binary_logloss: 0.242339from lightgbm import LGBMClassifierclf = LGBMClassifier( n_jobs=-1, # CPU성능 n_estimators=1000, #1000개 tree learning_rate=0.02, #학습률 낮을수록 정교함 num_leaves=32, # 가지치기 수 subsample=0.8, #활용할 sample비중 max_depth=12, #가지깊이 verbose=100, #출력메세지 최소화 early_stopping_rounds= 50, eval_metric= 'auc' )clf.fit(train_X, train_y, eval_set=[(train_X, train_y), (valid_X, valid_y)])
-
미해결파이썬 기초 라이브러리부터 쌓아가는 머신러닝
섹션 4-2 13:57 보라색, 연두색 선?
안녕하십니까 교수님.만들어 주신 영상 덕분에 잘 학습하고 있습니다.감사합니다.아래 왼쪽 그림을 보면 보라색, 연두색 선이 있는데 저 선들이 왜 저런 위치에 그려져 있는지에 대한 이유랑 어떤 영향을 미치는지 잘 모르겠습니다.
-
미해결처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 문제로 개념/활용 익히기) [데이터과학 Part2]
하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.
사소하긴 한데, 궁금해서 질문 남겨요.위의 코드를 실행하면 svc 실습 동영상에 나온 값과 약간의 차이가 있어서요. 컴퓨터 성능에 따라서 값의 차이가 미묘하게 다를 수 있나요? 통계패키지도 가끔 돌릴때마다 값이 미묘하게 달라지기는 한데, 그 이유를 조금 구체적으로 알고 싶어서요. 참고로 저는 m1 chip mac을 사용중입니다.
-
해결됨딥러닝 CNN 완벽 가이드 - Fundamental 편
Boston 주택 가격에서, scailing 안하면 값이 발산합니다.
안녕하세요.여러가지를 해보던 중, boston 주택가격 실습에서 MinMaxSclaer를 적용하지 않고, 한번 그대로 값을 넣어 gradient descent를 수행하니, loss function이 발산해버리는 현상을 발견했습니다. 혹시 이러한 결과가 나온 원인이 무었일까요?? 어쨌든 gradient descent는 값의 범위에 상관 없이 항상 loss function의 값이 작아지는 방향으로 이동하는 것으로 이해했는데, feature들 간의 값의 차이가 있어서 loss function의 값이 발산하는것이 왜 그렇게 되는지 이해가 잘 되지 않아 질문 드립니다.!!
-
미해결캐글 Advanced 머신러닝 실전 박치기
안녕하세요 교수님 vm 관련해서 질문이 있습니다.
vm 사용안할때는 종료하는게 좋다고 하셔서 처음 세팅 후, 종료했었는데요. 지금 다시 gcp들어가서 해당 vm 시작 버튼 눌러서 실행시켰는데 putty, winscp에서 해당 아이피 잡지를 못하고 있습니다. vm 시작버튼 말고도 추가로 작업해야될게 있을까요??
-
미해결파이썬 기초 라이브러리부터 쌓아가는 머신러닝
seaborn에서 연습 데이터셋을 불러오는데 오류가 발생합니다.
안녕하세요. 항상 좋은 강의 감사드리며 질문이 있어 글 남기게 되었습니다. 데이터 시각화 강의에 들어서며 seaborn 모듈에서 제공하는 연습 데이터셋을 불러오려고 하는데아래와 같은 오류가 발생하며 데이터셋 불러오기를 실패하였습니다.tips = sns.load_dataset('tips')
-
미해결캐글 Advanced 머신러닝 실전 박치기
코드를 실행했는데 오류가 발생합니다
LightGBM 코드를 실행했는데 fit() got an unexpected keyword argument 'verbose' 라는 오류가 발생합니다. 이유가 무엇인지 알 수 있을까요?
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
보스턴 집값 예제가 실행이 안 됩니다.
/opt/conda/lib/python3.10/site-packages/sklearn/utils/deprecation.py:87: FutureWarning: Function load_boston is deprecated; `load_boston` is deprecated in 1.0 and will be removed in 1.2. The Boston housing prices dataset has an ethical problem. You can refer to the documentation of this function for further details. The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning. In this special case, you can fetch the dataset from the original source:: import pandas as pd import numpy as np data_url = "http://lib.stat.cmu.edu/datasets/boston" raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None) data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]]) target = raw_df.values[1::2, 2] Alternative datasets include the California housing dataset (i.e. :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing dataset. You can load the datasets as follows:: from sklearn.datasets import fetch_california_housing housing = fetch_california_housing() for the California housing dataset and:: from sklearn.datasets import fetch_openml housing = fetch_openml(name="house_prices", as_frame=True) for the Ames housing dataset. warnings.warn(msg, category=FutureWarning)예전에 어떤 사람이 같은 내용으로 문의를 한 적이 있습니다. 그런데 답변의 내용대로 해도 해결이 안 됩니다. 사이킷런 버전 1.0.2로 바꾸고 run -> restart & clear cell output 누르고 다시 들어가도 이런 오류가 나옵니다.어떻게 하면 좋을까요?
-
미해결처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 문제로 개념/활용 익히기) [데이터과학 Part2]
중복된 코드 수정 요청 - 자전거 공유 문제 이해와 EDA3
- 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. [자전거 공유 문제 이해와 EDA3]아래의 코드에서 7, 8에 대한 코드가 중복되었습니다.결과는 7이 건너뛰어져 8로 입력되어 전체적인 맥락에는 영향을 미치지 않을 것으로 생각됩니다.df_all.loc[(df_all['windspeed'] > 35) & (df_all['windspeed'] <= 40), 'windspeed_category'] = 7 df_all.loc[(df_all['windspeed'] > 35) & (df_all['windspeed'] <= 40), 'windspeed_category'] = 8
-
미해결[입문자를 위한] 캐글로 시작하는 머신러닝 • 딥러닝 분석
섹션 2-1 딥러닝 모형 파트 모형 컴파일에서 에러가 발생합니다.
model.summary 명령어로 딥러닝 모형을 확인하는 데까지는 문제가 없었는데,그 이후에 모형을 컴파일해서 history 변수에 할당하는 부분에서 "Failed to convert a NumPy array to a Tensor (Unsupported object type float)." 에러가 발생합니다.구글링한 결과로는 float 형식이 아닌 타입의 데이터가 섞여 있어서 그렇다고 나오는데, 지금 학습을 돌리고 있는 x_train 데이터를 확인해 보니 아래처럼 0, 1이 아닌 True, False 값이 들어가 있었습니다.더미화 이후 강사님과는 다르게 True, False 값으로 데이터가 생성되었는데 혹시 이것 때문에 에러가 나는 걸까요?
-
미해결파이썬 기초 라이브러리부터 쌓아가는 머신러닝
데이터 자료
안녕하세요 데이터 블로그를 통해 들어가서 자료를 찾으려고 햇는데 쉽지 가 않네요 ㅜㅜ 혹시 목록 중에 정확히 어디에 있는지 알 수 있을까요 ??
-
미해결[입문자를 위한] 캐글로 시작하는 머신러닝 • 딥러닝 분석
1.3. 데이터 전처리 강의에서 index do not match 에러가 납니다.
안녕하세요.데이터 전처리 강의 내용 중 코드를 똑같이 따라쳤는데도 에러가 나는 부분이 있는데요, 구글링을 열심히 해봤는데도 해결하지 못해서 질문 남깁니다.df_bool = ~df.groupby('hour')['cnt'].apply(is_outliers) df_out = df[df_bool]위 코드를 실행하면 Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match). 에러가 발생합니다. df_bool.index위 메서드로 df_bool의 인덱스를 확인해보니 (hour, n) 의 튜플로 된 멀티 인덱스가 나왔습니다.df의 인덱스는 0, 1, 2, ... , 17413의 숫자로 되어 있어서 조건식으로 넣은 boolean 시리즈(df_bool)의 인덱스와 df의 인덱스가 일치하지 않아서 발생하는 에러로 이해했습니다. 다만 구글링을 아무리 해도 해결방법은 잘 모르겠습니다. 강의 내용을 똑같이 따라 쳤는데 왜 에러가 발생하는 걸까요?
-
미해결[비전공자 대환영] 캐글 데이터를 활용한 Optuna with MLFlow - 캐글다지기
jupyter nbextension enable --py widgetsnbextension 에러발생
vscode 터미널에서 jupyter nbextension enable --py widgetsnbextension 실행시 아래와 같은 에러가 발생합니다.Jupyter command jupyter-nbextension not found.해결방법이 어떻게 될까요??
-
미해결[비전공자 대환영] 제로베이스도 쉽게 입문하는 파이썬 데이터 분석 - 캐글입문기
boxcox를 변환하는 코드 에
from scipy.special import boxcox1p from scipy.stats import boxcox_normmax # 왜도가 1보다 높은 수치형 변수를 출력하는 코드 high_skew = skewness_features[skewness_features > 1] high_skew_index = high_skew.index print("The data before Box-Cox Transformation: \n", all_df[high_skew_index].head()) # boxcox를 변환하는 코드 for num_var in high_skew_index: all_df[num_var] = boxcox1p(all_df[num_var], boxcox_normmax(all_df[num_var] + 1)) print("The data after Box-Cox Transformation: \n", all_df[high_skew_index].head())위와 같이 코드를 실행시켰을 때 다음과 같은 에러가 발생하였습니다. <ipython-input-72-7b0af0216c6e> in <cell line: 11>() 10 # boxcox를 변환하는 코드 11 for num_var in high_skew_index: ---> 12 all_df[num_var] = boxcox1p(all_df[num_var], boxcox_normmax(all_df[num_var] + 1)) 13 14 print("The data after Box-Cox Transformation: \n", all_df[high_skew_index].head()) BracketError: The algorithm terminated without finding a valid bracket. Consider trying different initial points.
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
gradient descent 코드 구현시 편미분으로 변환하는 부분 질문드립니다!
안녕하세요!!강의를 듣는 도중 궁금한것이 생겼습니다이전 영상에서 손실함수의 편미분을 구해서 weight를 업데이트 하는 방식의 설명중에 공식의 오른쪽 부분 xi * (실제값i - 예측값i) 부분이 코드 상에 구현된것이이부분 인거 같은데 해당 코드에서, 예를 들면 w1_update 변수 부분에 공식의 xi 를 곱하는 부분이 빠진게 아닌가 싶은 의문이 듭니다!! 제가 못찾고 있는건지...아니면 어디서 따로 구현이 된것인지 여쭤봅니다!! 강의 감사합니다^^
-
미해결처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 문제로 개념/활용 익히기) [데이터과학 Part2]
강의 중 에러 질문
다르게 적용해보는 Feature Engineering15:50df_all['Age'] = df_all.groupby(['Title', 'Pclass'])['Age'].apply(lambda x: x.fillna(x.median()))에서 아래와 같은 에러가 뜹니다. 11613 if not value.index.is_unique: 11614 # duplicate axis 11615 raise err 11616 > 11617 raise TypeError( 11618 "incompatible index of inserted column with frame index" 11619 ) from err 11620 return reindexed_value TypeError: incompatible index of inserted column with frame index 이전 챕터에서 df_all["Age"].fillna(df_all.groupby(['Title', 'Pclass'])["Age"].transform("median"), inplace=True)위와 같은 진행했었던 기억이 있는데 비슷한 맥락이 맞나요?아직 모르는게 많아서 강의자료에서 에러가 뜨면 턱턱 막히네요.... 😢
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
학습 데이터 가져오는 부분과 배치사이즈, iteration 에 관해 질문드립니다!!
추가로 질문 드리고 싶습니다1.SGD시 1건의 데이터는 모든 피쳐를 포함한 1건의 데이터(RM, LSTAT의 경우 2개의 W를 가지는 2개의 열방향 데이터)인것인가요? 맞다면 1000번의 iteration시 동일한 데이터로 1000번 학습을 하는건가요? 아니면 열방향으로 순차대로 학습을 하는건가요?(예를 들면 600개의 데이터가 있다고 하면 1번부터 600번까지...)2.미니배치에서 Batch size만큼 학습데이터를 순차적으로 학습시킬때, Batch size는 순서대로(600개의 데이터가 있다면 1~30번, 31~60번...이렇게 정직하게 가져 오는건가요?? 아니면 1, 5, 8, 11, 50, 100 과 같이 랜덤하게 선택하되, Batch size만 지키는 것인가요??진짜 감사드립니다...강의 계속 보고 있습니다!!
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
손실함수의 편미분에서 w의 갯수가 많을경우
안녕하세요!!다시 복습하는 중입니다...!!강의를 들으면서 궁금한건데 강의에서는 손실함수의 편미분과업데이트시 w0(바이어스)과 w1(기울기,가중치)를 예시로 들면서 설명을 해주셨는데 만약 바이어스를 제외한 w1(기울기, 가중치)의 갯수가 여러개일경우(w2, w3, w4)편미분하는 절차는 어떻게 되나요??w1만 편미분하고 업데이트 하구, w2만 편미분하고 업데이트 하는...방식인지 아니면 w1, w2, w3를 한번에? 편미분 해서 나온 값으로 업데이트 하는것인지 궁금합니다! 좋은 강의 감사합니다^^
-
미해결캐글 Advanced 머신러닝 실전 박치기
bayes_opt 회귀 모델에 적용하려면..
안녕하세요, 회귀 문제에 bayes_opt를 사용하여 파라미터 튜닝을 하려고 합니다.이전에 파이썬 머신러닝 완벽가이드에서 hyperopt는 목적함수의 최솟값을 위한 입력값을 찾기 때문에 이를 회귀에 사용할때는 그대로 사용하고, bayes_opt는 반대로 최댓값을 위한 입력값을 찾는다고 되어있으면 회귀에 사용할경우 -1을 곱해주면 될까요 ?
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
VGG_Practice 실습예제 accuracy 계산값이 이상합니다.
현재 오픈된 커리큘럽 강의 소개 및 실습 환경에서 주피터 노트북 에제파일 다운로드 받아서 실행하였습니다.이상한 점은 VGG16 모델 생성 후 학습 및 성능 검증 cell 실행결과 cal_accuracy가 0.1정도 나오는데 값이 너무 낮은 것 같습니다.동영상 강죄에서 교수님이 보여주신 결과는 0.85 정도 나오는데 을 원인을 모르겠습니다.예제파일상의 어떤 부분이 문제인지 확인부탁드립니다. 감사합니다.