묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
fit할때 X_tr,Y_tr 이 아닌 train으로 할경우 문제
일단 실기가 명확한 풀이과정이 없기는 하기는 하나저는 X_tr, y_tr로 accuracy_score, precision_score, recall_score, f1_score, roc_auc_score 비교한 뒤에점수가 높은것을 바탕으로 다시 train을 fit시키는게 일반적으로 더 나은 전략이 아닌가싶은데(양이 더많으니까)혹시 이게 크게 리스크가 있다거나 혹은 의미가 없다고 볼수있을까요? 강의에서는 X_tr, y_tr로만 하고 끝내길래 궁금해서 여쭤봅니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습중에 결과값이 다르게 나옴+ROC_AUC스코어 오류
안녕하세요! 머신러닝 학습 중에 DT,RF,XGBOOST 모두 선생님이 하신 것과 동일하게 코드 작성하고 실행했는데 모두 결과값이 다르게 나와서요. 제가 무언가를 잘못 한 걸까요??이게 DT랑 RF는 결과값이 똑같이 나왔습니다.from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr[cols], y_tr) pred = rf.predict_proba(X_val[cols]) pred[:10]array([[1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.]])이게 XGB입니다.from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr[cols], y_tr) pred = xgb.predict_proba(X_val[cols]) pred[:10]array([[9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05]], dtype=float32)그리고 이 예측데이터로 roc_auc 스코어를 뽑아내려고 하니 이런 오류가 뜨면서 안된다고 해서요. 무엇이 문제인지 궁금합니다ㅠㅠfrom sklearn.metrics import roc_auc_score roc_auc_score(y_val,pred[:,1])/usr/local/lib/python3.10/dist-packages/sklearn/metrics/_ranking.py in _binary_roc_auc_score(y_true, y_score, sample_weight, max_fpr) 337 """Binary roc auc score.""" 338 if len(np.unique(y_true)) != 2: --> 339 raise ValueError( 340 "Only one class present in y_true. ROC AUC score " 341 "is not defined in that case." ValueError: Only one class present in y_true. ROC AUC score is not defined in that case.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님거랑 데이터가 다른데요ㅜ.ㅜ
수업자료에 있는거 다운로드해서 자료 생성했는데 loc2001 찍었을때 결과가 달라요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제출버튼이 없어요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요제출아이콘이 없어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형 2 수치형/범주형 분리
기출 3회 작업형 2에서 피처엔지니어링 전 df.select_dtypes(exclude = "o").copy() .... 로 트레인 데이터와 테스트 데이터를 수치와 범주형으로 나눈 후수치형 MinMaxScaler범주형 원핫인코딩으로 각각 피처링을 하셨는데이때 수치형을 보면 cols = ["A", "B"...]로 오브젝트형을 지정하셨더라구요. 피처엔지니어링때 cols =[ ] 를 별도 지정하더라도 위 데이터를 나누는 과정이 필수일까요?? 아래처럼 해도 되면 concat도 필요없을거 같아서요.예) df.select_dtypes(exclude = "o").copy() << 이과정없이from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()cols = ['Age', 'FamilyMembers']train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.transform(test[cols]) from sklearn.preprocessing import LabelEncodercols = ['Nationality']for col in cols:le = LabelEncoder()train[col] = le.fit_transform(train[col])test[col] = le.transfrom(test[col])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 베이스라인/라벨인코딩/원핫인코딩 질문
강의를 보니 베이스라인의 경우 object칼럼을 날리고 수치형으로만 했음에도 정확도가 높은 결과가 나왔습니다그런데 실제 시험에서도 저렇게 임의로 칼럼을 날리면서 진행해도 큰 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 10. 예시문제 작업형3(신 버전) 강의 질문있습니다!
선생님! 6:05초에 logit("종속변수 ~ 독립변수 + " ) 넣어줄때요, 종속변수는 문제에서 생존여부(Survived)를 예측하고자 한다고 했기때문에 종속변수가 되는걸까요? 아니면 문제 1번에서 Gender 와 Survived 간의 독립성 검정을 한다고 했을때 문제 2번에 Gender가 독립변수인게 적혀있기 때문에 Survived 는 자동으로 종속변수가 되는걸까요? 종속변수를 어떻게 확인해야 하는지 잘 모르겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1_모의문제3_8번 문제] reset_index() 와 groupby 의 as_index=False 에 대해
해설에서는 reset_index 을 사용했는데groupby 에서 as_index = False 로 사용해도 될까요? 일단 결과는 같게 나오는 것 같은데이 둘이 원래 결과가 같게 나오는건지 궁금합니다.as_index : 그룹화된 열을 인덱스로 사용하지 않음reset_index : 기존의 인덱스를 컬럼으로 추가하고 새로 인덱스 생성(인덱스 초기화)이렇게 알고 있습니다.groupby 의 as_index=False 인자df.groupby(['city', 'f2'], as_index=False).sum(numeric_only=True)reset_index 메소드df.groupby(['city', 'f2']).sum(numeric_only=True).reset_index()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번 실기셤 까지 듣고 싶어요.
안녕하세요~!수강기간이 얼마 안남았네요. 이번 실기시험까지는... 강의 연장 가능할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 핸들링을 위한 판다스 기초2 강의 중에서
데이터 핸들링을 위한 판다스 기초2 강의에서 import pandas as pddata = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400],}data = pd.DataFrame(data)data.to_csv('data.csv', index=False) 이렇게 데이터셋을 완성하였는데 그럼 data.loc[0], data.loc[2,'메뉴':'가격']이렇게 되야하는거 아닌지요? 강의에서 df.loc[0], df.loc[2,'메뉴':'가격'] 라고 되어있는데, data가 맞는건지 df 가 맞는건지 궁금합니다.실제로 다른건 다 앞에 df 를 해도 실행이 되는데 data.loc[2, ['메뉴', '칼로리']] 는 data 라고 해야만 실행이 되더라구요.강의에서는 df.loc[2, ['메뉴', '칼로리']] 로 해도 실행되긴 하는데...df.~~, data.~~ 중 어떤것이 맞는건지 궁금합니다data.loc[2, ['메뉴', '칼로리']]df.loc[2,'메뉴':'가격']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
listbox[7,-1]
파이썬 기초2 강의에서요!저는 마지막 앞 단어 추출을listbox[-2] 로만 했는데 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열데이터
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요day일땐 99를 더하고 hour일때 100더하는거 그냥 외워도되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형 풀이 랜덤포레스트
from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_train , y_train) pred = rf.predict(X_val) f1_score(y_val,pred,average = 'macro') 랜덤포레스트는 fit하는걸로 외우면 될가요? 인코딩 시, 모델학습 시 fit, fit_transform 사용 할때랑 계속 햇갈려서요;.. 쉽게 외우거나 이해하는 방법 있을가요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 피쳐엔지니어링 인코딩 부분에서 질문
안녕하세요. 3-4 피쳐엔지니어링에 인코딩 부분에서 질문이 있습니다. 파일에선 범주형 칼럼을 추출하기 위해 X_train.columns[X_train.dtypes == object] 를 사용했는데 cols = X_train.select_dtypes(include= "O").columns 로 해도 동일하게 작업이 가능한가요? 최대한 단순하게 외우고 싶어서 이게 가능하다면 select_dtypes() 사용하는걸로 외우려고요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Transform 관련 코드 이상
아래와 같이 코드를 작성했는데 지속 오류가 가장 마지막 문자엥서 나옵니다. 이유를 찾지 못하겠습니다.cols = [‘neighbourhood’, ‘neighbourhood’, ‘room_type’]from sklearn.preprocessing import LabelEncoderfor col in cols:le =LabelEncoder()train[col] =le.fit_transform(train[col])test[col] =le.transform(test[col)]test[col]에서 error가 지속 나옵니다.return x.astype(dtype, copy=copy, casting=casting 으로 나오는데, 문제가 무엇인지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 기초 1 수업
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요판다스 기초 1 - 8분df type 확인할때 아래와 같은 에러가 뜹니다이전 코드들도 다 동일하게 run 하고runtime 모두 실행으로 돌려도 에러가 발생하고type(df), type(df['가격']) 모두 동일합니다# 데이터 프레임 type 확인 type(df)pandas.core.frame.DataFrame def __init__(data=None, index: Axes | None=None, columns: Axes | None=None, dtype: Dtype | None=None, copy: bool | None=None) -> None/usr/local/lib/python3.10/dist-packages/pandas/core/frame.pyTwo-dimensional, size-mutable, potentially heterogeneous tabular data. Data structure also contains labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure. Parameters ---------- data : ndarray (structured or homogeneous), Iterable, dict, or DataFrame Dict can contain Series, arrays, constants, dataclass or list-like objects. If data is a dict, column order follows insertion-order. If a dict contains Series which have an index defined, it is aligned by its index. This alignment also occurs if data is a Series or a DataFrame itself. Alignment is done on Series/DataFrame inputs. If data is a list of dicts, column order follows insertion-order. index : Index or array-like Index to use for resulting frame. Will default to RangeIndex if no indexing information part of input data and no index provided. columns : Index or array-like Column labels to use for resulting frame when data does not have them, defaulting to RangeIndex(0, 1, 2, ..., n). If data contains column labels, will perform column selection instead. dtype : dtype, default None Data type to force. Only a single dtype is allowed. If None, infer. copy : bool or None, default None Copy data from inputs. For dict data, the default of None behaves like ``copy=True``. For DataFrame or 2d ndarray input, the default of None behaves like ``copy=False``. If data is a dict containing one or more Series (possibly of different dtypes), ``copy=False`` will ensure that these inputs are not copied. .. versionchanged:: 1.3.0 See Also -------- DataFrame.from_records : Constructor from tuples, also record arrays. DataFrame.from_dict : From dicts of Series, arrays, or dicts. read_csv : Read a comma-separated values (csv) file into DataFrame. read_table : Read general delimited file into DataFrame. read_clipboard : Read text from clipboard into DataFrame. Notes ----- Please reference the :ref:`User Guide <basics.dataframe>` for more information. Examples -------- Constructing DataFrame from a dictionary. >>> d = {'col1': [1, 2], 'col2': [3, 4]} >>> df = pd.DataFrame(data=d) >>> df col1 col2 0 1 3 1 2 4 Notice that the inferred dtype is int64. >>> df.dtypes col1 int64 col2 int64 dtype: object To enforce a single dtype: >>> df = pd.DataFrame(data=d, dtype=np.int8) >>> df.dtypes col1 int8 col2 int8 dtype: object Constructing DataFrame from a dictionary including Series: >>> d = {'col1': [0, 1, 2, 3], 'col2': pd.Series([2, 3], index=[2, 3])} >>> pd.DataFrame(data=d, index=[0, 1, 2, 3]) col1 col2 0 0 NaN 1 1 NaN 2 2 2.0 3 3 3.0 Constructing DataFrame from numpy ndarray: >>> df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), ... columns=['a', 'b', 'c']) >>> df2 a b c 0 1 2 3 1 4 5 6 2 7 8 9 Constructing DataFrame from a numpy ndarray that has labeled columns: >>> data = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)], ... dtype=[("a", "i4"), ("b", "i4"), ("c", "i4")]) >>> df3 = pd.DataFrame(data, columns=['c', 'a']) ... >>> df3 c a 0 3 1 1 6 4 2 9 7 Constructing DataFrame from dataclass: >>> from dataclasses import make_dataclass >>> Point = make_dataclass("Point", [("x", int), ("y", int)]) >>> pd.DataFrame([Point(0, 0), Point(0, 3), Point(2, 3)]) x y 0 0 0 1 0 3 2 2 3 Constructing DataFrame from Series/DataFrame: >>> ser = pd.Series([1, 2, 3], index=["a", "b", "c"]) >>> df = pd.DataFrame(data=ser, index=["a", "c"]) >>> df 0 a 1 c 3 >>> df1 = pd.DataFrame([1, 2, 3], index=["a", "b", "c"], columns=["x"]) >>> df2 = pd.DataFrame(data=df1, index=["a", "c"]) >>> df2 x a 1 c 3
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
선생님, quantile 부터 저렇게 에러나서 안되는데 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 핸들링을 위한 판다스 기초1 - Quiz 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요데이터 핸들링을 위한 판다스 기초1 강의 Quiz 3. 컬럼 삭제에서 데이터를 확인했을 때 왜 이벤트가와 할인가 컬럼은 보이지 않나요? 제가 동일하게 실습 진행했을 때는 추가한 컬럼들이 보여서 질문합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의를 구매하면 얻을 수 있는 정보와 파일 다운로드
안녕하세요. 강의 구매했는데, 강의노트랑 기출문제 등 강의를 구매하면 얻을 수 있는 정보와 파일은 어디서 다운 받을 수 있나요? 인프런 처음 구매해봐서 다운로드 장소를 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관계수에 대한 t 검정 관련 질문
안녕하세요, 회귀분석 강의에서 "상관계수에 대한 t검정" 부분에서 궁금한 것 있어 문의드립니다. "상관계수에 대한 t검정"이라는 것이 상관계수를 구하고 나서 상관계수가 통계적으로 유의미한지 확인하기 위해 두 변수 사이의 상관계수가 0이 아닌지 검증하는 것이고,- 귀무: 상관계수가 0이다- 대립: 상관계수가 0이 아니다이렇게 설정하는 것으로 이해했습니다. 이후, t통계량 계산하고, p-value 구하고, 어떤 가설을 채택할지 선택하는 것이구요. 그런데 이 과정이 꼭 필요한 것인지, 이를테면 상관계수가 높게 나왔음에도 불구하고 상관계수에 대한 t검정을 했을 때 p value가 0.05보다 커서 귀무가설을 채택하는 경우가 있을 수 있는 것인지 궁금합니다.