묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임
선생님 이번 오징어 게임 미션을 하면서 작업형 2를 풀고 있습니다import pandas as pdtrain = pd.read_csv("../input/big-data-analytics-certification/t2-1-train.csv")test = pd.read_csv("../input/big-data-analytics-certification/t2-1-test.csv")train.head() #pop: 'TravelInsurance' drop:'id'test.head() #pop:'id'train.info() #'Employment Type','GraduateOrNot','FrequentFlyer','EverTravelledAbroad'train.isnull().sum() #'AnnualIncome' 결측값test.isnull().sum() #'AnnualIncome' 결측값target = train.pop('TravelInsurance')test_id = test.pop('id')me = train['AnnualIncome'].mean()train = train.fillna(me)me = test['AnnualIncome'].mean()test = test.fillna(me)from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()train['Employment Type'] = encoder.fit_transform(train['Employment Type'])train['GraduateOrNot'] = encoder.fit_transform(train['GraduateOrNot'])train['FrequentFlyer'] = encoder.fit_transform(train['FrequentFlyer'])train['EverTravelledAbroad'] = encoder.fit_transform(train['EverTravelledAbroad'])test['Employment Type'] = encoder.fit_transform(test['Employment Type'])test['GraduateOrNot'] = encoder.fit_transform(test['GraduateOrNot'])test['FrequentFlyer'] = encoder.fit_transform(test['FrequentFlyer'])test['EverTravelledAbroad'] = encoder.fit_transform(test['EverTravelledAbroad'])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=2022)model.fit(X_tr, y_tr)pred = model.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc_score(y_val, pred[:,1]) 이렇게 코드를 작성했는데 예측하는 단계에서 pred = model.predict_proba(test) 이걸 썼더니 X has 8 features, but RandomForestClassifier is expecting 9 features as input. 이렇게 에러가 뜨는데 뭐가 잘못됐을까요?
-
해결됨실전 인공지능으로 이어지는 딥러닝 개념 잡기
SGD + 모멘텀 등의 코드
안녕하세요 강사님 ㅎㅎ강의 너무 잘 듣고 있습니다.다름이 아니라.15:40 에 많이 사용하는 것이SGC + 스케줄링 또는 SGD + 모멘텀 + 스케줄링 이라고 말씀하셨는데요.해당 부분을 코드로 나타내면 이렇게 되는게 맞을까요?import torch import torch.optim as optim # SGD + 스케줄링 optimizer = optim.SGD(model.parameters(), lr=0.01) # SGD + 스케줄링 + 모멘텀 optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1) for epoch in range(num_epochs): ... for inputs, targets in train_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step() scheduler.step() 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
최빈값 채우기 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 간단한 질문드립니다.최빈값으로 채울때, m = x_train['a'].mode()[0]에서,,,mode함수 뒤에 [0]의 의미가 이해가 않가네요[0]가 없어야 할것 같아서 문의 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-1, 문제 3번, 2번 풀이 sum(),len()
이렇게 풀어봤는데, 이렇게 해도 괜찮은가요? 그리고 문제 2번에서print(sum(df["f3"] == "gold"))대신print(len(df["f3"] == "gold"))으로 하면 안되는 이유가 잘 이해가 안되서 문의드립니다.len()도 데이터 수 구하는 함수 아닌가요?df["f3"] == "gold" 라는 조건을 만족하는 데이터의 수를 구하는데 사용할 수 있을 줄 알았는데, sum() 사용했을 때와 값이 다르게 나와서요. 이 상황에서 두 함수 간 정확히 어떤 차이가 있는지 궁금합니다. 좋은 강의 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 체험 작업형 2 문제 관해서 질문드립니다!
안녕하세요 선생님 실기 체험 작업형 2문제 관련해서 질문드립니다. 고객의 성별 값에 대한 확률을 구하는 문제인데 여자와 남자중에 어떤 성별의 예측 결과를 구하는지 명시가 안되어 있어서요 이럴 때는 여자인 확률을 구하는건가요 아니면 남자인 확률을 구해줘야 하는건가요? 이때 동안 계속 양성인 1의 확률을 구해왔는데 실제 시험 때도 이렇게 명시가 안되어 있나 해서 질문드립니다.성별 (0: 여자, 1:남자)predict_proba[:,0] 여자 : 0 predict_proba[:,1] 남자 : 1
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제
2회 기출유형 작업형2 를 들으면서 강사님이 Xtr Ytr을 합치면 더 풍부한 EDA가 가능하다고 하셨는데요 시험현장에서 Xtr Ytr Xtest 이렇게 나온경우 각각 구분해서 적는게 헷갈려서 그냥 처음부터 Xtr Ytr을 합쳐서 풀어도 되나요? 감점요인은 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형3 로지스틱 회귀 문의
안녕하세요! pclass에 C()를 감싼 이유가 이진분류가 아닌 다진분류(1,2,3)이어서 그런가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정 관심모집단 수
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님 대응표본은 한 집단에서 약물투여 효과 전후 등의 표본을 검정하기 때문에 관심 모집단은 1개 아닌가요??강의 프린트물에는 관심 모집단 2개로 표현되어 있어서 질문 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 관련 문의 및 1번 문제 질문
쌤 안녕하세요!!지금 캐글 작업형1 1회독 끝내고 다시 2회독 하려고 하는데..copy & edit 하면 전에 1회독때 했던 게 다시 불러와지더라고요 ㅠㅠ혹시 이럴때 방법은 지난 번 사용했었던 노트북을 지우고 그냥 새파일로 다시 copy & edit 하는 방법밖에 없는걸까요? 그리고.. T1-1.Outlier(IQR) / #이상치 #IQR 문제에서 질문드립니다.지금 약간 무지성으로 외우고만 있어서 이렇게는 안되겠다 싶어서 하나하나 보는 중인데요ㅠㅠ지난 번에 대괄호 2번 관련해서 질문드리기도 했었고, 다른분이 질문한거 보니df['컬럼'] = 시리즈df[['컬럼']] = 데이터프레임이렇게 답변하신걸 봤는데, 그럼 여기 답변에서 outdata2라는 df['컬럼']이 시리즈가 되어서저 마지막 조건 outdata2['Sex'] = ='female' 에 outdata2에는 괄호가 안들어가는건가요? ㅜㅜ (시리즈라서?)어쩔때는 df['outdata2']['Sex'] 뭐 이런식으로 들어가서 너무 헷갈려요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 roc_auc_score 적용 값 관련(3가지 모델 동일 정확도)
안녕하세요~강의 보면서 빈칸용으로 다운 받아서 강의 그대로 따라하면서 학습하고 있습니다. 3-5 검증용 데이터 분리 에서 의사결정나무랜덤포레스트XGBoost 에roc_auc_score로 정확도 수치 출력값이 세 경우제 경우는 0.8612336858090657로 전부 다 동일하게 나오는데...이게 왜 그런걸까요?? 강의 그대로 따라가면서 하는데 3 가지 방식 다 정확도가 똑같이 나오니 뭔가 이상한데, 어디가 문제인지 모르겠습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Mann-Whitney U검정 P밸류가 0.4
독립표본검정 마지막 강의에서 마지막 코드 Mann-Whitney U검정 P밸류가 0.40이 나왔는데 0.05보다 작으니까 대립가설을 채택한다고 말씀하신 것 같아서요. 왜냐하면 위에 독립표본검정에서는 p밸류가 0.02가 나와서 B그룹의 시험 평균 점수가 더 높다는 대립가설을 채택하게 되는데 만휘트니유 검정의 결과는 귀무가설을 채택하는 수치가 나와서 결과적으로 결론이 다르게 되는데, 이것은 왜 이런 것인가요?# Mann-Whitney U(만-휘트니 유) 검정stats.mannwhitneyu(A, B, alternative='less')MannwhitneyuResult(statistic=106.0, pvalue=0.40944636368515097)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
3회 기출유형 작업형 1 문제 2번 푸는 도중 강사님해설영상을 보는데 m = df.loc[2000].mean() print(sum(df.loc[2000,:] > m)) 이렇게 풀이를 해주셔서 저는 정답을 print(sum(df.loc[2000] > m)) 이렇게 해도 나오던데 왜 df.loc[2000,:] 이렇게 쓰셧는지 궁금해서 글올립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 소문제3 관련 질문드립니다!
결과적으로 오즈비에 관한 질문인데 왜 SibSp의 계수값을 단순히 한 단위 높인 후 반올림하여 마무리하는 것인지 모르겠습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
숫자 replace
만약에 10을 100으로 변경한다고 했을때 110이라는 값이 있으면1100이 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.summary()
기존에 pred.summary() 만 알려주셨는데지금은 pred.summary_frame()을 쓰셨네요만약 시험장에서 .summary_frame()을 모른다면해결할 수 있는 방법이 뭐가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호 안 내용
선생님 여쭤볼게 있는데요 model = RandomForestRegressor()model.fit(X_tr, y_tr)pred = model.predict(X_val) 하실때 (X_val)이랑 fromsklearn.metrics import mean_squared_errordef rmse(y_true, y_pred): returnmean_squared_error(y_true, y_pred)**0.5rmse(y_val, pred) 여기서 괄호에 들어가는 (y_val, pred) 이 값이뭘 뜻하는건지 궁금합니다,,ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형2 라벨인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요원핫인코딩 말고 라벨인코딩으로 하면 에러가 뜨던데.. 라벨인코딩으로는 작업코드가 어떻게 되나요?타겟데이터 pop하고 검증데이터 분리 전에 라벨인코딩 진행했는데 이런 에러가 뜹니다,,# print(train.shape, test.shape) # train = pd.get_dummies(train) # 전체를 넣으면 train에서 object값만 인코딩하고 수치형 데이터는 그대로 둚 # test = pd.get_dummies(test) # print(train.shape, test.shape) cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train['col'] = le.fit_transform(train['col']) test['col'] = le.transform(test['col'])--------------------------------------------------------------------------- KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3801 try: -> 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: 4 framespandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'col' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: -> 3804 raise KeyError(key) from err 3805 except TypeError: 3806 # If we have a listlike key, _check_indexing_error will raise KeyError: 'col'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df['비료'].astype(str) 을 붙이지 않아도?
이원 분산분석 후 Tukey HSD로 사후검정시, 비료 칼럼에 astype(str)을 작성하여 비료 칼럼 수치데이터들을 문자데이터로 변환해주셨습니다. 그런데 제가 .astype(str)을 작성하지 않고 출력해보니 작성한 경우의 결과와 작성하지 않은 결과가 서로 똑같더군요어떻게 된것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[질문] 캐글 T1-23 질문있습니다.
안녕하세요.캐글 T1-23 풀이 중 궁금한 것이 있어 질문드립니다. 저는 아래와 같이 풀이하였는데 정답은 2.5가 나오더라구요ㅠㅠimport pandas as pd df = pd.read_csv("/kaggle/input/bigdatacertificationkr/basic1.csv") # f1 결측치 채우기 # print(df['f1'].isnull().sum()) # 31개 df = df.sort_values('f1', ascending=False) # print(df.iloc[9][3]) # 88.0 df['f1'] = df['f1'].fillna(df.iloc[9][3]) # print(df['f1'].isnull().sum()) # 0개 # age 중복 제거 전 f1 중앙값 med1 = df['f1'].median() # 77.5 # age 중복 제거 # print(df.shape) # 100개 df = df.drop_duplicates(subset=['age']) # print(df.shape) # 71개됨. # age 중복 제거 후 f1 중앙값 med2 = df['f1'].median() # 75.0 # 절대값으로 print(abs(med1-med2)) 왜 답이 0.5가 나오지 않는지 해결되지 않아 문의드립니다. ㅠㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
scikit learn 다운그레이드 오류
안녕하세요 교수님, 이제 막 강좌를 수강하기 시작하여 시작 환경 구축 중에 있습니다.섹션1의 5강에서와 같이 pip install scikit-learn==1.0.2 명령어를 통해 싸이킷런 다운그레이드를 진행하려는데 다음과 같은 오류로 설치가 안 됩니다관리자 권한으로 실행했으며 여러 차례 시도했는데 같은 이유로 설치가 안 됩니다.. arm 맥으로 parallels를 이용해 진행하고 있는데 이것이 문제가 되는 걸까요? 해결 방법이 있을지 궁금합니다 +) 아나콘다 삭제 및 폴더 정리 후 재설치해도 동일한 문제 반복되고, 맥에서 진행해도 반복되는 것으로 보아 parallels 문제는 아닌 것 같습니다