묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
k-fold 작동방식에 관한 질문입니다.
dt_clf = DecisionTreeClassifier(random_state=156) skfold = StratifiedKFold(n_splits=3) n_iter=0 cv_accuracy=[] # StratifiedKFold의 split( ) 호출시 반드시 레이블 데이터 셋도 추가 입력 필요 for train_index, test_index in skfold.split(features, label): # split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출 X_train, X_test = features[train_index], features[test_index] y_train, y_test = label[train_index], label[test_index] #학습 및 예측 dt_clf.fit(X_train , y_train) pred = dt_clf.predict(X_test) # 반복 시 마다 정확도 측정 n_iter += 1 accuracy = np.round(accuracy_score(y_test,pred), 4) train_size = X_train.shape[0] test_size = X_test.shape[0] print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}' .format(n_iter, accuracy, train_size, test_size)) print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index)) cv_accuracy.append(accuracy) # 교차 검증별 정확도 및 평균 정확도 계산 print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4)) print('## 평균 검증 정확도:', np.mean(cv_accuracy)) 안녕하세요 선생님. k-fold 작동방식에 관한 질문이 있어 글 남깁니다. 전체 데이터셋에서 테스트셋을 제외하고, k개의 데이터셋으로 나누어 학습과 검증을 k번 반복한다. 그리고, 교차 검증 최종 평가는 k번의 학습과 검증에서의 평가지표를 평균낸다. 정도로 이해하였습니다. 여기서 저의 궁금점은 다음과 같습니다.k번의 학습과 검증을 반복하면서 가장 좋았던 iteration의 모델을 최종 모델로 가져가는것인지, 아니면 k번의 학습을 통한 모델의 파라미터들을 평균을 내어 최종 모델을 새로 구하는 것인지 궁금합니다.최종 평가지표는 k번의 학습과 검증에서의 평가지표 평균이 아닌, 테스트셋에 대한 평가지표가 더 적당하지 않은지 궁금합니다.위 코드에서처럼 for문 안에 fit을 통해 모델 학습을 시킬 때, 이전 iteration에서의 모델 학습과는 전혀 연관되지 않게 새로 학습을 시작하는것인지 아니면 이어서 학습하는 것인지 궁금합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
교재 125쪽 minMaxScaler와 가우시안 분포
안녕하세요 선생님덕분에 머신러닝 너무 재밌게 공부중입니다. 데이터의 분포가 가우시안 분포가 아닐 경우에 minMaxScaler을 적용해 볼 수 있습니다.라고 나와있는데, 이유가 무엇인지 알 수 있을까요? 제가 생각해본 이유들은 다음과 같습니다.이미 평균은 0, 표준편차는 1로 정규화되어있어 다시 정규화를 진행할 필요가 없다.정규분포는 양끝값이 없나..? 그래서 min값과 max값이 너무 멀리 떨어져있나?? - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
코드가 에러가 납니다
for i, img in enumerate(imgs): length = valid_len[i] img = inference.visualize_image( img, boxes[i].numpy()[:length], classes[i].numpy().astype(np.int)[:length], scores[i].numpy()[:length], label_map=config.label_map, min_score_thresh=config.nms_configs.score_thresh, max_boxes_to_draw=config.nms_configs.max_output_size) output_image_path = os.path.join('/content/data_output', str(i) + '.jpg') Image.fromarray(img).save(output_image_path) print('writing annotated image to %s' % output_image_path)AutoML Efficientdet Inference수행 결과 분석 및 시각화 강의입니다. (8분 48초)여기에서 Image.fromarray(img).save(output_image_path) 부분에서 TypeError: function takes at most 14 arguments (17 given) 이라고 뜹니다. (강의에서는 정상적으로 작동하네요...)뭐가 문제일까요?
-
미해결캐글 Advanced 머신러닝 실전 박치기
LightGBM Iteration관련
안녕하세요 LightGBM Iteration관련 문의드립니다. 설명해 주신 코드로 작성하였으나 이터레이션마다 Score가 표시되지 않습니다 verbose를 100으로 설저했는데 다음과 같이만 조회됩니다.이유가 무엇일까요?LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 8 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 10 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 9 [LightGBM] [Debug] Trained a tree with leaves = 32 and depth = 11 Early stopping, best iteration is: [902] training's binary_logloss: 0.210459 valid_1's binary_logloss: 0.242339from lightgbm import LGBMClassifierclf = LGBMClassifier( n_jobs=-1, # CPU성능 n_estimators=1000, #1000개 tree learning_rate=0.02, #학습률 낮을수록 정교함 num_leaves=32, # 가지치기 수 subsample=0.8, #활용할 sample비중 max_depth=12, #가지깊이 verbose=100, #출력메세지 최소화 early_stopping_rounds= 50, eval_metric= 'auc' )clf.fit(train_X, train_y, eval_set=[(train_X, train_y), (valid_X, valid_y)])
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
데이터 분류과정에서 코드 질문
X_train, X_test,y_train, y_test= train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121) 를 이용해서 데이터를 분류하는데 이때 X_test, X_train이 학습용 피쳐값인지 테스트용 피쳐값인지 구분을 하는 메커니즘이 뭘까요? 위치로 구분을 하는 것인가요??
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
강의를 듣다 잘못표기된게 있는것같아서 적습니다.
'Fast RCNN의 이해 14x7ROI 부분이 12x7로 보이는데 14x7이였다면 전체를 표기해야하지않나' 가 제 질문입니다.
-
미해결혼자 공부하는 머신러닝+딥러닝
295쪽 세번째 문단
샘플의 평균값이 아니라 픽셀별 평균값을 비교해 보면 어떨까 생각했습니다 ->샘플들의 평균값을 구하는 것과 픽셀들의 평균값을 구하는 것의 통계적인 차이가 궁금합니다어떤 통계적인 의미가 아쉬워서 후자를 택하게 된건지 알고 싶습니다.
-
미해결혼자 공부하는 머신러닝+딥러닝
292쪽 픽셀값 분석하기
그다음 reshape() 메서드를 사용해 두번째 차원(100)과 세번째 차원(100)을 10,000으로 합칩니다.첫번째 차원을 -1로 지정하면 자동으로 남은 차원을 할당합니다. 라고 써있는데 너무 추상적이라서 정확히 무슨 말을 하는지 이해가 안가요ㅠㅠ차원을 10,000으로 합친다는게 무슨 말인가요?그러면 100*100 이미지를 100*10000의 1차원 배열로 만든다는 말인가요?
-
미해결파이썬 기초 라이브러리부터 쌓아가는 머신러닝
섹션 4-2 13:57 보라색, 연두색 선?
안녕하십니까 교수님.만들어 주신 영상 덕분에 잘 학습하고 있습니다.감사합니다.아래 왼쪽 그림을 보면 보라색, 연두색 선이 있는데 저 선들이 왜 저런 위치에 그려져 있는지에 대한 이유랑 어떤 영향을 미치는지 잘 모르겠습니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
cannot access '/FileStore': No such file or directory
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
BackPropagation 질문입니다
오차 역전파가 작동하기 위해서는 결국 마지막 layer의 가중치 (w)값을 알아야 하는 거 같은데 마지막 layer의 가중치는 어떻게 구하나요?
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
RMSProp 관련 질문입니다.
안녕하세요! 섹션 9에서 AdaGrad, RMSProp 강의를 보다 궁금한 점이 생겨 질문드립니다. 제가 이해한 바로는, RMSProp은 학습이 잘 안되었음에도 t가 커질수록 $G_t$가 커지는 문제를 최대한 막는 방법이라고 이해했습니다. $G_t = \gamma G_{t-1} + (1 - \gamma)g_t^2$그런데 위 식대로라면 미분값($g_t$)이 커질때 오히려 $G_t$가 감소할수도 있을 것 같은데RMSProp은 AdaGrad와 달리 learning_rate가 커지는 쪽으로도 조절될 수 있도록 한 것인가요? 만약 맞다면 제가 알기로는 learning_rate는 t에 따라 감소하도록 하는 것이 일반적이라고 알고 있는데RMSProp에서 이렇게하면 학습에서 어떤 이점이 있는 것인지 궁금합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
교차검증 메소드 질문드립니다.
안녕하세요강의를 복습하던 중 교차검증과 관련하여 궁굼한게 생겨 문의남깁니다. 교차검증을 통한 예측값을 산출할 때 cross_val_predict 메소드를 사용 하는 것으로 이해했습니다. 그래서 아래와 같이 코드를 만들었을 때 잘 동작했고요. y_cross_val_predict= cross_val_predict(model, X_train, y_train, cv=10, n_jobs=60) 근데 혹시 Test데이터에서도 가능한가 해서 데이터를 바꿔서 y_cross_val_predict= cross_val_predict(model, X_test, y_test, cv=10, n_jobs=60) 를 수행하니 코드는 문제없이 작동했는데 이 부분이 Test 데이터 셋에서 10개의 폴드로 나눠 교차검증을 한것으로 이해했는데 맞을까요?
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
하이퍼 파라미터 튜닝 기법 적용하기 실행값이 미묘하게 달라요.
사소하긴 한데, 궁금해서 질문 남겨요.위의 코드를 실행하면 svc 실습 동영상에 나온 값과 약간의 차이가 있어서요. 컴퓨터 성능에 따라서 값의 차이가 미묘하게 다를 수 있나요? 통계패키지도 가끔 돌릴때마다 값이 미묘하게 달라지기는 한데, 그 이유를 조금 구체적으로 알고 싶어서요. 참고로 저는 m1 chip mac을 사용중입니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
4.8 베이지안 최적화로 hyperparameter 튜닝
hp.uniform을 정규 분포라고 설명하셨는데 균일 분포인거죠?funtion 이름도 그렇고 funtion의 param도 평균과 분산이 아니라 최소, 최대값인 걸로 보아 균일분포같아서요.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스파크 아키텍쳐 관련 문의 드립니다.
스파크 아키텍쳐 부분을 보는데 Yarn Runtime Architecture 에서 4.Negotiate resources 이후 5과정을 갈때 속해 있던 Slave Node 에서 실행되는게 아니라 굳이 다른 Slave Node 로 가서 실행을 하는데 이유가 있나요? 4.Negotiate resources 과정을 리소스 분배? 라우팅 같은 개념으로 이해를 하면 될까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
decisiontree 초기화 질문
for train_index, test_index in skfold.split(features, label): dt_clf.fit(X_train , y_train) 여기서 dt_clf은 반복문에서 fit이 실행될때마다 기존에 학습한 모델(데이터)을 지우고 새롭게 학습한 데이터만 갖고 모델을 만드는건가여?
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요!
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.안녕하세요! 항상 좋은 강의 너무 감사합니다.강의 중 몇가지 질문이 있어 이렇게 남기게 되었습니다.Segmentation 시각화 강의 중 1. ploygon 좌표로 그린 mask 정보는 ground truth와는 다른 정보라고 이해했는데, 이부분이 맞는지 여쭤보고 싶습니다.2. 만약 한 이미지에 여러 동일한 물품이 분포되어 있고, mask rcnn 모델을 이용하여 각각의 객체를 인스턴화한 후에 불량과 양품을 분류하고 싶을 때, '데이터를 직접 수집할 경우' 라벨링을 양품과 불량품 이외에도 물품의 ground truth 정보를 같이 라벨링 해야하는지 궁금합니다.또한, 위에서 말씀드린 이미지를 개별 인스턴화를 통해 양품,불량품을 판별해기 위해 mask rcnn 모델이 적합한지 여쭤보고 싶습니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
scikit-learn 1.0.2 버전 설치 오류
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 맥 터미널에서 pip install scikit-learn==1.0.2 라고 치니다음과 같은 오류가 발생합니다..ㅜㅜ
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
파이토치와 비교하며 Numpy 라이브러리 사용법 익히기2 질문입니다.
약 11분 경에 행렬 곱셈을 설명하는 부분에서"앞 행렬의 행의 갯수와 뒷 행렬의 열의 갯수가 같아야 행렬간 곱셈이 가능하다"고 되어있는데 제가 알기로는 (n, k) @ (k, m) = (n, m) 이어서앞 행렬의 열의 갯수와 뒷 행렬의 행의 갯수가 같아야 행렬 곱셈이 가능하다고 알고 있습니다.제가 알고 있는게 맞을까요? 검색해봐도 설명이 이렇게 나와서 어느것이 맞는지 질문드립니다.