묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 파일 가져올 때 오류
import pandas as pddf = pd.read_csv('members.csv') 실행하려고하면 nicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 36: invalid start byte 해당 오류가 계속 뜹니다 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Date6 변환오류메시지가 떴는데, 이유를 모르겠어요.
Date6 변환할 때 오류메시지가 나왔습니다.Date5할때와 동일하고, 뒤에 format만 붙였고, 선생님 강의랑 똑같은데 어떤 부분이 잘못된걸까요ㅠㅠ?
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
강의 중 에러 질문
다르게 적용해보는 Feature Engineering15:50df_all['Age'] = df_all.groupby(['Title', 'Pclass'])['Age'].apply(lambda x: x.fillna(x.median()))에서 아래와 같은 에러가 뜹니다. 11613 if not value.index.is_unique: 11614 # duplicate axis 11615 raise err 11616 > 11617 raise TypeError( 11618 "incompatible index of inserted column with frame index" 11619 ) from err 11620 return reindexed_value TypeError: incompatible index of inserted column with frame index 이전 챕터에서 df_all["Age"].fillna(df_all.groupby(['Title', 'Pclass'])["Age"].transform("median"), inplace=True)위와 같은 진행했었던 기억이 있는데 비슷한 맥락이 맞나요?아직 모르는게 많아서 강의자료에서 에러가 뜨면 턱턱 막히네요.... 😢
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 원핫인코딩 질문드립니다.
라벨인코딩이랑 원핫인코딩의 경우 X_train의 데이터 타입확인 시 object 형 컬럼이 있을때만 시행하는게 맞는걸까요?만약 전체 컬럼이 int형 또는 float 형일때는 안해줘도 되는건가요?만일 X_train 데이터에는 object 컬럼이 없는데 X_test 데이터에는 object 컬럼이 있어도 라벨인코딩 또는 원핫인코딩을 시행해줘야되는걸까요?추가적으로 데이터 분리의 경우 언제 사용해주는건가요?? 작업형 2유형에서 무조건적으로 사용해줘도 문제없는건지 아니면 사용할 조건이 있는건지 궁금합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측 부분 오류 질문드립니다.
랜덤포레스트 하나만 실시 후에 예측 했는데요오류가 뜨는데 이유를 모르겠습니다.../usr/local/lib/python3.10/dist-packages/sklearn/base.py:439: UserWarning: X does not have valid feature names, but RandomForestClassifier was fitted with feature names warnings.warn( --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-106-aa9a7e4fa732> in <cell line: 2>() 1 # 예측 ----> 2 pred = model.predict_proba(X_test) 3 pred 3 frames/usr/local/lib/python3.10/dist-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, estimator, input_name) 900 # If input is 1D raise error 901 if array.ndim == 1: --> 902 raise ValueError( 903 "Expected 2D array, got 1D array instead:\narray={}.\n" 904 "Reshape your data either using array.reshape(-1, 1) if " ValueError: Expected 2D array, got 1D array instead: array=[ 8285. 10192. 8675. ... 7390. 9977. 5696.]. Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱
카이제곱 독립성검정에서의 검정통계량은 무슨의미를 가지나요?p-value는 이해했어요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 작업형2
from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, y_train, test_size=0.2, random_state=2022) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape 데이터 분리 문제입니다. 플이를 보니 저번에 여쭤볼때 train에 target값이 있으면 제외한다고 하셨는데 train값에 target값이 들어있는데 왜 train.drop를 쓴게 아니라 그냥 train값만 넣은건지 궁금합니다!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 3 7번 문제 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요df.T로 변환하여 칼럼으로 프린트를 하려고했더니 다음과 같이 Series 오류가 발생합니다.Series 오류가 무엇이고 어떻게 해결하면 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict_proba 와 predict 차이
해당 문제는 predict_proba 로 해야 하는 이유가 무엇인가요 ? 아래코드처럼 predict 으로 하면 안되는 이유가 있나요 ?문제에서 둘을 어떻게 구분해서 써야하는건지 모르겠어요.pred = model.predict(X_val) roc_auc_score(y_val, pred) pred = model.predict(X_test) submit = pd.DataFrame( { 'cust_id':cust_id, 'gender':pred } )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1
문제 3에서 총 3가지의 해결법을 알려주셨는데요문제에는 f3 컬럼의 결측치는 0 실버는 1 골드는 2 … 변환한 후 총 합을 정수형으로 출력 하시오 라고 되어있어서 혹여나 실전에서 마지막방법인 조건형으로 풀다가 변환을 하지 않고 ㅍ풀었다고 감점이 될거같아 걱정이 되서 여쭙니다 세번째 방법으로 풀어도 감점 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Kaggle 작업형 2유형 T2-3 성인인구조사 소득 예측
선생님 최종적으로 csv 파일에 id, income 칼럼만 불러오게 되야하는데 자꾸 저는 unnamed: 0 와 id, income 칼럼이 같이 출력이 되네요 ㅠㅠ 그냥 이렇게 답안 제출해도 괜찮나요??평가지표에 따라서 점수를 보니 거의 0.85라서요!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
학습용/검증용 데이터 구분
# 학습용 데이터와 검증용 데이터로 구분 from sklearn.model_selection import train_test_split y = (y_train['income'] == '>50K').astype(int) X_tr, X_val, y_tr, y_val = train_test_split(X_train, y, test_size=0.1, random_state=2022) 이 부분이 이해가 잘 가지 않아요. X_tr, X_val, y_tr, y_val 이렇게 4개에 지정하는데, test_split은 X_train, y 이렇게 두개만 들어가고.. y_train이 아닌 y만 넣는 이유도 모르겠습니다 ㅠ
-
미해결파이썬(Python)으로 데이터 기반 주식 퀀트 투자하기 Part1
이틀째 설치에서 멈췄어요..제발도와주세요
선생님..ㅠㅠ 이틀째 혼자 해결해보려했지만 도저히 안되겠어서 질문드립니다..주피터랩에서 아래 명령어 실행시 아래 사진처럼 오류가뜹니다... 혹시나 해서 3.11 로 설치된 버전은 윈도우에서 에러뜬다고 해서 다운그레이드로 3.10.9도 했는데 소용이 없습니다 ㅠㅠ에러는 밑에 더 많습니다...!pip install pandas==0.25.3 error: subprocess-exited-with-error python setup.py bdist_wheel did not run successfully. exit code: 1 [930 lines of output] C:\Users\E\AppData\Local\Temp\pip-install-pae_e_5b\pandas_3f818e724d534a0eaa4782a616cf7235\setup.py:12: DeprecationWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html import pkg_resources C:\Users\E\anaconda3\Lib\site-packages\setuptools\__init__.py:80: _DeprecatedInstaller: setuptools.installer and fetch_build_eggs are deprecated. !! ******************************************************************************** Requirements should be satisfied by a PEP 517 installer. If you are using pip, you can try `pip install --use-pep517`. ******************************************************************************** !! dist.fetch_build_eggs(dist.setup_requires) running bdist_wheel running build running build_py creating build creating build\lib.win-amd64-cpython-311 creating build\lib.win-amd64-cpython-311\pandas copying pandas\conftest.py -> build\lib.win-amd64-cpython-311\pandas copying pandas\testing.py -> build\lib.win-amd64-cpython-311\pandas copying pandas\_typing.py -> build\lib.win-amd64-cpython-311\pandas copying pandas\_version.py -> build\lib.win-amd64-cpython-311\pandas copying pandas\__init__.py -> build\lib.win-amd64-cpython-311\pandas creating build\lib.win-amd64-cpython-311\pandas\api copying pandas\api\__init__.py -> build\lib.win-amd64-cpython-311\pandas\api creating build\lib.win-amd64-cpython-311\pandas\arrays copying pandas\arrays\__init__.py -> build\lib.win-amd64-cpython-311\pandas\arrays creating build\lib.win-amd64-cpython-311\pandas\compat copying pandas\compat\chainmap.py -> build\lib.win-amd64-cpython-311\pandas\compat copying pandas\compat\pickle_compat.py -> build\lib.win-amd64-cpython-311\pandas\compat copying pandas\compat\_optional.py -> build\lib.win-amd64-cpython-311\pandas\compat copying pandas\compat\__init__.py -> build\lib.win-amd64-cpython-311\pandas\compat creating build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\accessor.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\algorithms.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\api.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\apply.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\base.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\common.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\config_init.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\frame.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\generic.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\index.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\indexers.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\indexing.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\missing.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\nanops.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\resample.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\series.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\sorting.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\strings.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\window.py -> build\lib.win-amd64-cpython-311\pandas\core copying pandas\core\__init__.py -> build\lib.win-amd64-cpython-311\pandas\core creating build\lib.win-amd64-cpython-311\pandas\errors copying pandas\errors\__init__.py -> build\lib.win-amd64-cpython-311\pandas\errors creating build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\api.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\clipboards.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\common.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\date_converters.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\feather_format.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\gbq.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\gcs.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\html.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\packers.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\parquet.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\parsers.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\pickle.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\pytables.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\s3.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\spss.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\sql.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\stata.py -> build\lib.win-amd64-cpython-311\pandas\io copying pandas\io\__init__.py -> build\lib.win-amd64-cpython-311\pandas\io creating build\lib.win-amd64-cpython-311\pandas\plotting copying pandas\plotting\_core.py -> build\lib.win-amd64-cpython-311\pandas\plotting copying pandas\plotting\_misc.py -> build\lib.win-amd64-cpython-311\pandas\plotting copying pandas\plotting\__init__.py -> build\lib.win-amd64-cpython-311\pandas\plotting creating build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_algos.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_base.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_common.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_compat.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_downstream.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_errors.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_expressions.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_join.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_lib.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_multilevel.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_nanops.py -> build\lib.win-amd64-cpython-311\pandas\tests copying pandas\tests\test_optional_dependency.py -> build\lib.win-amd64-cpython-311\pandas\tests
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
nunique에 관해 문의 드려요.
작업형 1-3에서 a.nunique().sort_values(ascending=False).index[0] 명령을 보내면,nunique중 첫 번째 문자열과 두 번째 개수 중에 개수로 정렬되는 이유가 궁금하고..index[0]를 하면 문자열만 나오는 이유도 궁금하네요. 저렇게 하면 왜 정렬된 첫번째 열의 이름과 개수가 함께 나오지 않는지..두 명령 모두 문법이 눈에 익지 않네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 sklearn이 안불러집니다.
체험 제1유형을 풀려고 했으나, preprocessing 이 안불러집니다. 혹시 시험에서 사용할 수 없는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby와 sort
df = df.groupby('month').count() df.sort_values('subscribed').index[0] 선생님 groupby랑 sort의 차이 부탁 드립니다. groupby는 하나의 그룹으로 묶어서 정렬하는 것이고sort는 컬럼별로 정렬할 수 있는 것인가요?ㅠㅠ쓰임새가 어떨 때 쓸 수 있는 건지 궁금합니다. 그리고 구독수의 가장 적은 값을 index[0]로 뽑아주셨는데요~!iloc나 loc로 구할 수는 없을까요? .index[0]은 sort말고 아무데나 붙여도 첫번째 인덱스가 나오는 건가요?ㅠㅠ...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-1 작업형1 모의문제1 numpy질문있습니다
안녕하세요^^ ㅠㅠ 제가 비전공자에 강의를 1번 다 듣고 다시 돌려서 복습하는데도 아직 습득이 느려서 궁금한 사항이 있습니다. 문제 3번 풀이 방법1 replace에서 numpy를 사용하시는데 numpy되도록 거의 안사용하시고 pandas로 풀이해주시는 걸로 알고 있는데 이부분에서는 꼭 사용해야만 하는 이유가 결측값을 찾을 때 어떤 부분에서 사용하는 걸까요? 제가 혼자 풀이할 때 import numpy as np를 사용안하고 그냥 나머지를 동일하게 풀었을 때도 133이 나오긴 하더라구요? ㅠ.ㅠ 잘 모르겟어서 질문드립니다 항상 친절하게 답변해쥬셔서 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train과 test unique값이 다를 경우 질문드립니다!!
안녕하세요 선생님 train과 test unique값이 다를 경우에 대해서 궁금한 점이 있어 질문드립니다.df = pd.concat([X_train, X_test]) ddf = pd.get_dummies(df) n = len(X_train) X_train = ddf[:n] X_test = ddf[n:]저번에 선생님께서 다를 경우 이런식으로 합친 다음에 원핫인코딩 해준다고 말씀해주셨는데 만약에 unique값이 너무 많을 경우에는 이런식으로 합친 다음에 레이블 인코딩을 진행해도 될까요?df = pd.concat([X_train.assign(ind = 'train'), X_test.assign(ind = 'test')]) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df[cols] = df[cols].apply(le.fit_transform) X_train = df[df['ind'] == 'train'].copy() X_train = X_train.drop('ind', axis = 1) X_test = df[df['ind'] == 'test'].copy() X_test = X_test.drop('ind', axis = 1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리할떄
from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split(X_train,y_train['Reached.on.Time_Y.N'],test_size=0.2,random_state=2021)이거라면 y_train['타켓값']넣고 통째로 외워도 될까요??그리고from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis=1), train['TravelInsurance'], test_size=0.1, random_state=1204) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape이건 왜 위에와 다르게 train값에 drop값을 넣는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2
기출유형 4회(작업형2)에서 정답을 보면 데이터 분리 작업을 안하셨는데 그 이유가 있을까요?