월 19,800원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
이번 강의 실습 관련해서
강사님, 이번 강의에서 궁금한 게 있어 질문 드립니다! 1. 이번 강의 실습에서 만든 더미 클래스(타이타닉/MNIST)는 그냥 이진 분류-정확도의 관계를 설명하고자 DecisionTreeClassifier 같은 클래스를 만들어 봤다~라고 이해하고 넘어가면 되겠죠? 2. 그리고 강의 질문은 아니지만 궁금한 점이 있습니다. 캐글 대회에서도 이번 강의 실습처럼 참가자가 클래스를 만들어 사용하게 되나요? 이게 궁금해진 이유는 다름이 아니라 캐글 랭킹 때문인데... 처음에는 참가자들이 알고리즘을 직접 개발하기 보다는, 개발된 것을 응용하지 않을까 생각했었거든요.. 캐글 경연은 어떤 알고리즘을 선택하고 어떻게 데이터를 처리하느냐에 따라 평가가 달라지는 걸까요? 궁금합니다 .
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
윈도우 환경하에서 머신러닝 프로그램 구현
먼저 강의 감사드립니다. 제가 학습된 모델을 윈도우 프로그램으로 구현을 하고 싶은데 윈도우 프로그램으로 구현하는 방법이 어떤 방법들이 있는지 알고 싶습니다. 일예로 학습은 파이썬으로 했는데 이것을 C/C++ 혹은 C#으로 코드를 변환해서 윈도우 환경에서 구현하는지 아니면 다른 구현 방법이 방법이 있는지 궁금합니다. 구현하는 방법론에 대해 전반적으로 어떤식으로 하는지 알고싶습니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
함수형성과정 질문
def get_category(age): cat = '' # 질문입니다!! if age <= 5: cat = 'Baby' elif age <= 12: cat = 'Child' elif age <= 18: cat = 'Teenager' elif age <= 25: cat = 'Student' elif age <= 35: cat = 'Young Adult' elif age <= 60: cat = 'Adult' else : cat = 'Elderly' return cat 위 함수를 작성할 때 cat='' 을 설정하는 이유는 무엇인가요? 이 코드가 없어도 실행은 되는거 같던데 써주는 이유가 궁금합니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
titanic_train.csv가 인식이 안됩니다
titanic_df = pd.read_csv('titanic_train.csv') print('titanic 변수 type:',type(titanic_df))--------------------------------------------------------------------------- FileNotFoundError Traceback (most recent call last) C:\Users\ADMINI~1\AppData\Local\Temp/ipykernel_30904/3046420676.py in <module> ----> 1 titanic_df = pd.read_csv('titanic_train.csv') 2 print('titanic 변수 type:',type(titanic_df)) ~\anaconda3\lib\site-packages\pandas\util\_decorators.py in wrapper(*args, **kwargs) 309 stacklevel=stacklevel, 310 ) --> 311 return func(*args, **kwargs) 312 313 return wrapper ~\anaconda3\lib\site-packages\pandas\io\parsers\readers.py in read_csv(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, encoding_errors, dialect, error_bad_lines, warn_bad_lines, on_bad_lines, delim_whitespace, low_memory, memory_map, float_precision, storage_options) 584 kwds.update(kwds_defaults) 585 --> 586 return _read(filepath_or_buffer, kwds) 587 588 ~\anaconda3\lib\site-packages\pandas\io\parsers\readers.py in _read(filepath_or_buffer, kwds) 480 481 # Create the parser. --> 482 parser = TextFileReader(filepath_or_buffer, **kwds) 483 484 if chunksize or iterator: ~\anaconda3\lib\site-packages\pandas\io\parsers\readers.py in __init__(self, f, engine, **kwds) 809 self.options["has_index_names"] = kwds["has_index_names"] 810 --> 811 self._engine = self._make_engine(self.engine) 812 813 def close(self): ~\anaconda3\lib\site-packages\pandas\io\parsers\readers.py in _make_engine(self, engine) 1038 ) 1039 # error: Too many arguments for "ParserBase" -> 1040 return mapping[engine](self.f, **self.options) # type: ignore[call-arg] 1041 1042 def _failover_to_python(self): ~\anaconda3\lib\site-packages\pandas\io\parsers\c_parser_wrapper.py in __init__(self, src, **kwds) 49 50 # open handles ---> 51 self._open_handles(src, kwds) 52 assert self.handles is not None 53 ~\anaconda3\lib\site-packages\pandas\io\parsers\base_parser.py in _open_handles(self, src, kwds) 220 Let the readers open IOHandles after they are done with their potential raises. 221 """ --> 222 self.handles = get_handle( 223 src, 224 "r", ~\anaconda3\lib\site-packages\pandas\io\common.py in get_handle(path_or_buf, mode, encoding, compression, memory_map, is_text, errors, storage_options) 700 if ioargs.encoding and "b" not in ioargs.mode: 701 # Encoding --> 702 handle = open( 703 handle, 704 ioargs.mode, FileNotFoundError: [Errno 2] No such file or directory: 'titanic_train.csv'왜 인식이 안되는지 잘 모르겠습니다밑에 글에 같은 저장공간에 두시라고하셨는데 titanic_train.csv파일을 한 파일 안에 같이 넣었지만 이런 문제가 발생합니다
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
강사님 선형회귀 - 피처 스케일링 관련 질문이 있습니다.
안녕하세요 강사님 선형회귀 - 피처스케일링 관련 질문이 있습니다. 사이킷런 LinearRegression 예제에서 보스턴 주택 가격 데이터의 피처별 단위 차이가 큽니다. 데이터 스케일링 없이 선형회귀로 학습했기에, 상대적으로 단위가 작은 NOX 회귀계수가 크게 나온것이 아닌가라는 생각하게 되었는데요. 그래서 해당 데이터에 MinMaxscaler를 적용하고 계수를 도출해보았습니다. 질문은 다음과 같습니다. 신경망과 같은 알고리즘은 데이터 스케일(단위)에 민감한 것 알고있습니다. 1. 선형회귀에서는 (데이터의 정규분포 형태와 달리) 피처 단위에 대한 정규화는 중요시되지 않는지 궁금합니다. 2. 또한, 분류에서 배운 피처 선택(feature selection) 관련하여, 피처 스케일링 후 학습을 수행해서 도출된 회귀계수가 feature importance에 더 적합한 것 같다는 생각이 들었는데, 맞는 생각일까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
ROC_AUC_Score 과정에서 오류
안녕하세요 강사님. 캐글 예제 진행 중 ROC-AUC 스코어 오류가 생겨서 질문드립니다. 우선 진행 과정에서 train.csv 파일을 split해 X, y_train과 X, y_valid로 나누었고 eval_set로 X, y_valid를 사용하였으며 test.csv 파일은 X_test, sample_submission.cvs 파일은 y_test 로 사용하여 진행했습니다. (실제 컴피티션에서는 이렇게 진행하는 것인가 하여 이렇게 진행해봤는데 방법이 맞는지는 모르겠습니다. 이 부분도 맞는 지 답변해주시면 감사하겠습니다) XGBoost.fit을 통해 학습 후 X_test에 predict 한 뒤 ROC-AUC 스코어를 구하는 과정에서 Only one class present in y_true. ROC AUC score is not defined in that case. 라는 에러가 계속 발생합니다ㅠㅠ y_test 데이터를 value_counts로 확인하니 레이블값이 0으로만 차있던데 이것이 오류의 이유인가 싶습니다. 만약 이게 원인이라면 y_test가 하나의 값으로만 차있으면 ROC 스코어를 구할 수 없는 것인가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
Google Colab에서 돌려도 될까요?
안녕하세요, 강의 잘 듣고 있습니다! 실습을 Jupyter Notebook 위에서 하시는 걸로 나오는데, Google Colab에서 돌리는 것도 괜찮나요? 주피터를 사용하는 것을 더 추천하시는 지 궁금합니다:)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
273쪽 df[df['Class']==1][column]부분
273쪽 df[df['Class']==1][column]부분을 fraud에 대해서만 아니라 'v14' 속성의 모든 데이터에 대한 이상치를 구하기 위해 df[:][column]으로 수정하여 학습을 진행하였습니다. 그랬더니다음과 같은 성능이 나왔는데 재현율이 이렇게 급격하게 떨어지는 이유가 뭘가요? 애초에 amount가 매우 큰 값이 사기 트랜젝션에 검사에 중요한 요소인데 이상치로 이러한 값들을 모두 제거해버려서 그런가요? 다른 질문에서 답변해주셨듯이 'v14'의 모든 데이터에 대해 이상치를 제거하려면 코드를 어떻게 수정해야하나요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
결과가 다르게 나타나는 이유
정확도부터 AUC까지 임계값에 따른 결과값들이 모두 조금씩 다르게 나타났는데, Train-Test 스플릿 과정에서의 무작위성때문에 그런것이 맞는지, 만약 동일폴드의 교차검증을 진행하게 된다면 같은 결과를 얻을 수 있는 것이 맞는지 여쭙고자 질문드립니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
BOW 질문입니다 ㅎㅎ
BOW 에서 단순 카운트 벡터라이징할때 피처로 나오는 순서가 랜덤인건가요 아니면 많이 나오는 순서인가요?? TFIDF 에서는요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
GridSearchCV 부분 관련 질문 드립니다.
강의 : 사이킷런으로 시작하는 머신러닝 - 교차검증 성능평가 cross_val_score()와 하이퍼 파라미터 튜닝을 위한 GridSearchCV 텍스트북 : p117 참고 =========================================== 강의와 텍스트 북을 참고하며, 다른 데이터 셋을 활용해 복습을 하고 있습니다. 그러던 중 의문 사항이 발생해 질문 합니다. estimator = grid_dtree.best_estimator_ pred = estimator.predict(X_test) print({'테스트 데이터 세트 정확도: 0:.4f'.format(accuracy_score(y_test, pred))) 위 코드를 수행 결과가 최적 파라미터 (p117 상단)혹은 딕셔너리로 임의로 파라미터를 지정해서 확인했을 때(p116)보다 현저히 낮은 정확도를 반환했습니다. 원인을 고민해도 마땅히 떠오르지 않아 여쭤봅니다. 이미 최적 학습이 되어있음에도 불구하고 best_estimator_ 이용시 최고의 정확도가 아니라 낮은 정확도 반환되는 이유가 궁금합니다ㅠ
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
피쳐데이터 왜곡도 확인을 통한 로그변환과 피쳐스케일링
안녕하세요 공부하면서 질문이 생겼습니다. 해당 내용에서 피쳐들에 대하여 왜곡도 확인을 통해 왜곡도가 심한 피쳐를 대상으로 로그변환을 적용하였는데 그렇다면 표준화, 정규화와 같은 피쳐 스케일링과 왜곡도 확인 통한 로그 변환 중 어떠한 것을 더 우선적으로 두고 진행해야하는지, 상황별로 사용하는 경우가 다른 것인지지 궁금합니다. 피쳐스케일링을 한 후에 왜곡도를 확인하여 추가 로그변환을 적용해 주는것인지, 아니면 특정 상황에서는 표준화나 정규화를 하고 다른 특정상황에서는 왜곡도 확인으로 로그변환만 해주면 되는 것인지 궁금하네요. 추가적으로 이번에 새로 개설하신 스파크 머신러닝에 관해서도 관심이 있어 질문 남깁니다. 파이썬 머신러닝 완벽가이드가 머신러닝 개념 및 구현능력에 관한 강의라면 스파크 강의는 데이터 가공/분석까지 학습할 수 있는 것인지 궁금합니다. 또한 제가 SQL에 대해서 아직 학습을 진행하지 않은 상태여서, 해당 강의를 통해 이러한 부분까지 학습이 가능한 것인지 궁금하며 현업에 종사자가 아닌 취준생에게도 적합한 강의인지 알고 싶습니다. 항상 좋은 강의 제공해주셔서 감사합니다.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
함수 설명 단축키는 모에요? 함수 파라메터 위에 아무스 포인터 올려놓고 보는거요.
함수 설명 단축키는 모에요? 함수 파라메터 위에 아무스 포인터 올려놓고 보는거요.
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
안녕하세요! 규제가 다항회귀에서만 사용되는 것은 아닌게 맞나요!?
안녕하세요. 제가 이해하기로 규제의 경우는 다항회귀에서 과적합이 생길 가능성이 크기 때문에 사용하는 것이고, "규제 선형 회귀(라쏘,릿지,엘라스틱넷)의 경우 주로 다항회귀에서 polynomial features와 함께 pipeline을 만들어서 사용한다" 이렇게 이해했습니다. 다만, 다항회귀가 아닌 단순선형회귀에서도 라쏘,릿지 단일 모델만 사용하는 경우도 있더라구요. 이렇게 단순선형회귀에서 규제를 적용하는 것도 일반적인건가요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
회귀에서 모델의 성능 평가는 상대적인 것으로 판단해야 하나요?
안녕하세요. 전부터 궁금했던 것이 있었는데요. 분류의 경우는 accuracy 등 직접적으로 이 모델의 정확도가 0~1 사이의 수로 어떻게 되는지 파악할 수 있었는데 회귀의 경우는 예를들어 RMSE는 RMSE값이 123이면 성능이 좋은 것인지, 0.449이면 성능이 좋은 것인지 직관적으로 파악이 어려운 것 같습니다. 회귀는 여러 모델을 만들어보면서 그 중에 가장 좋은 것을 선택하는 개념으로 상대적인 성능을 보고 결정해야 하는 것일까요?
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 진도 목차 관련 질문이 있습니다
강의 중 선생님이 말씀하신 분류,회귀 파트까지 강의를 들었는데, 지금까지의 지식이 부분부분 부족한 걸 느꼈습니다 머신러닝 역량을 키우고 싶으면 지금까지 배운 부분을 좀 더 깊이 있게 복습하는 것이 좋은가요 아님 계속 진도를 나가는게 좋을까요? 후에 머신러닝 공모전에도 참여하려합니다!
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
선생님 질문있습니다!
항상 강의 잘듣고 있습니다 :) 새해복 많이 받으세요! 1)분류실습 하다가 궁금한점이 있는데 데이터세트가 불균일한 경우에 임계값을 조정해서 업무에 맞게 정확도, 정밀도, 재현율을 구하잖아요? 그런데 만약 train 데이터셋의 모델이 임계값 0.6을 기준으로 만들어졌다면 test 셋에도 임계값을 조정한후 모델을 평가하나요?? 같은 의미로 standardscaler도 test셋에똑같이 적용해야하나요? 2)신용카드 사기 검출시 이상값 제거에 대해서 신용카드 사기검출 실습하는 도중 이상치제거에 대해서 의문점을 가지게 되어 질문드립니다! 제가 이 데이터를 분석하면서 target 값은 "Amount" 칼럼에 따라 결정된다고 생각했는데(혹은 가장 큰영향을 미친다고) 이러한 이유로 amount 칼럼에 이상치로 판별되는값이 사기로 판별되는 값이 아닌가? 라는 의문점을 가질수밖에 없었습니다. 단순히 이상치 제거를 하는 과정을 설명해주시기 위해 코드를 넣으신건지 아니면 제가 가진 의문점 처럼 이러한 사기검출 데이터셋에 이상치값을 함부러 제거하면 안되는게 맞는건지 알려주면 감사하겠습니다 :)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
TSVD scipy와 scikit_learn
안녕하세요? 새해복 많이 받으세요~제가 책 p.402의 예제에서는 사이킷럿으로 나와있는데 이것을 사이파이로 바꿔서 한번 돌려봤습니다. 그 결과 y=-x에 대해 대칭인 결과가 나왔는데요. 제가 뭘 잘못 돌린걸까요? 사이파이 from sklearn.datasets import load_irisimport matplotlib.pyplot as pltimport numpy as npfrom scipy.sparse.linalg import svdsfrom scipy.linalg import svdiris = load_iris()iris_ftrs = iris.data# 2개의 주요 component로 TruncatedSVD 변환U, Sigma, Vt = svd(iris_ftrs, full_matrices=False)num_components = 2U_tr, Sigma_tr, Vt_tr = svds(iris_ftrs, k=num_components)print('\nTruncated SVD 분해 행렬 차원:',U_tr, Sigma_tr, Vt_tr.shape)matrix_tr = np.dot(U_tr,np.diag(Sigma_tr)) # output of TruncatedSVDplt.scatter(x=matrix_tr[:,0], y= matrix_tr[:,1])plt.xlabel('TruncatedSVD Component 1')plt.ylabel('TruncatedSVD Component 2')print(matrix_tr) 사이킷럿 from sklearn.decomposition import TruncatedSVD, PCAfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltiris = load_iris()iris_ftrs = iris.data# 2개의 주요 component로 TruncatedSVD 변환tsvd = TruncatedSVD(n_components=2)tsvd.fit(iris_ftrs)iris_tsvd = tsvd.transform(iris_ftrs)# Scatter plot 2차원으로 TruncatedSVD 변환 된 데이터 표현. 품종은 색깔로 구분plt.scatter(x=iris_tsvd[:,0], y= iris_tsvd[:,1], c= iris.target)plt.xlabel('TruncatedSVD Component 1')plt.ylabel('TruncatedSVD Component 2')print(iris_tsvd)
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
질문 있습니다
선생님 6:07 실습 진행중에 질문이 있습니다 0이 아닌 데이터를 추출하는것과 행위치와 열 위치를 각각 array로 생성하는것은 제가 일일이 해야하는건가요?? 내부적으로 시스템이 어떻게 돌아가는지 보여주려고 해봤던 작업인건가요?? 그냥 사용 하려면 마지막의 coo = sparse.coo_matrix(dense) csr = sparse.csr_matrix(dense) 이 코드들만 실행하면 되는건가요??
- 미해결[개정판] 파이썬 머신러닝 완벽 가이드
coef와 그래프 모습에서 보이는 회귀선 간의 관계 문의
안녕하세요. 아래와 같이 13개 feature 모두 그래프로 그려보았습니다. 그런데 하단을 보면 AGE, B, INDUX, TAX feature는 price와의 회귀 직선이 음의 상관관계로 나오는데, 강의에서 coef를 보면 0으로 나옵니다. 그리고 RAD는 그래프로 보면 음의 상관 관계인데 coef는 0.4가 나옵니다. 개별 feature들과 price간의 관계를 보면 음의 상관관계인데 모든 feature들을 이용해 linear regression을 만들어봤을 때의 coef는 각 개별 상관관계와는 다르게 될 수도 있는 것인지요?