묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
비교 연산자 == 의 해석이 어려워요
19강 작업형1 모의문제2 문제 6번에서 df['age']==round(df['age'],0) 위의 코드가 어떤 방식으로왼쪽과 오른쪽 값이 같으면 '정수형'이고 다르면 '소수점'이라는 판단을 내릴 수 있건지 이해하기가 어렵습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 프레임이 안만들어지네요
설명 주신대로 코드를 짜보았는데 데이터 프레임 출력이 되지 않네요. 다음 사진의 경고문이 뜨는데 이거 때문인건가요? 새로고침해봐도 안되네요. 해결 방법이 궁금합니다감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object형 컬럼 카테고리 비교
강의에서 카테고리 비교할 수 있는 응용 코드를 알려주셨는데요, train과 test의 범주형 컬럼의 기초통계값을 확인해서 unique수 차이가 많이 난다면 카테고리 비교하는 과정없이 그냥 무조건 concat으로 합치고 레이블 인코딩 후 다시 분리해도 되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 챌린지
쿠폰 신청을 하려고 했는데 사용 가능 수량이 초과되었다고 문구가 뜹니다.혹시 추가 쿠폰 지급 계획은 없으신지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터 필수여부
작업형 2번 에서, 하이퍼 파라미터 값은 필수로 넣어줘야 하나요?print로 성능 하나하나 체크 하고 넣어줘야하나요? 굳이 안넣더라도 채점에 영향이 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
17강 판다스 시계열데이터 풀이에서 100일째 되는 날
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요여기서 왜 가운데에 10이 생긴걸까요? 제가 100일을 쓰기도 전에 10일 쓰고 모르고 실행하긴했는데 그래서 그런걸까요?//...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 & 평가 과정 질문
랜덤포레스트 진행과정에서 전 강의에서는 pred_proba = rf.predict_proba(X_val) 쓰고, roc_auc = roc_auc_score(y_val, pred[:,1]) 이렇게 하셨는데 이번 강의에서는 roc_auc_score(y_val, pred_proba[:,1]) 로 표현하셨는데 어떤 차이로 인해서 다르게 쓰셨는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7. 예측 및 결과파일 생성에서 오류가 생겨요
다중분류(6회) 문제입니다.선생님 해설지처럼 똑같이 쳤는데 마지막에 자꾸 오류가 뜨네요 왜그런지 모르겠어요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제1 책관련
작업형2모의문제 1 같은 경우는 도서에 따로 문제가 없는 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 문제1
영상에서는 df.quantile(.75)를 실행했을 때 오류가 나지 않았는데 저는 오류가 나서 어떤 부분이 잘못되었는지 여쭤봅니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2_예시문제 이상치 처리
안녕하세요 작업형2 예시문제에서 이상치 처리 여부 관련하여 문의드립니다. train데이터의 총구매액과 최대구매액의 최소값이 음수로 되어있고, test데이터의 최대구매액의 최소값이 음수로 되어있는데이 경우 이상치 처리를 하고 진행하는게 맞는건가요?test데이터의 레코드 수는 동일해야하는데 위와 같은 경우 이상치 처리를 해야한다면 어떻게 처리를 해야 하는지 궁금합니다. 감사합니다 :)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1. 모의문제 1 _ 문제 3번
모의문제 1의 문제 3번에서 df['f3']을 replace 함수 사용해서 값 변환해줄 때굳이 numpy 불러오지 않고 하단처럼 구해도 되나요? 값은 133으로 똑같이 나왔습니다.#2. f3 컬럼의 결측치는 0, silver는 1, gold는 2, vip는 3 으로 변환한 후 총 합을 정수형으로 출력하시오 # print(df) df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver', 1) df['f3'] = df['f3'].replace('gold', 2) df['f3'] = df['f3'].replace('vip', 3) # print(df) print(int(sum(df['f3'])))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제3
강의에서 xgb로 test데이터를 predict하셨는데 성능평가가 더 우세해서 선정하신건지 궁금합니다!수업 자료 노트북에선 랜덤 포레스트가 지표가 더 높더라구요 ㅠㅠ 랜덤 포레스트: roc-auc: 0.9409937888198757 accuracy: 0.8108108108108109 f1: 0.8444444444444444 xgb roc-auc: 0.9161490683229814 accuracy: 0.8108108108108109f1: 0.8372093023255814
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1-3 문제 관련
1-3 관련 내용입니다. print(a.sort_values(ascending=False).index[0])이라는 동일한 코드를 사용했는데 오류 메시지가 발생하더라구요...TypeError: DataFrame.sort_values() missing 1 required positional argument: 'by'이라는 에러 메시지가 발생하였습니다. 이런 경우는 어떤 경우일까요....?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이진분류
문제 2유형 질문드립니다 4회부턴 분류 회귀 이렇게 나와서 코드를 외우는 중인데요 2~3회는 이진분류로 나와서요 2진분류는 많이 다른건가요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의문제 2번
train 데이터에서 id컬럼을 삭제하신 이유가 뭔가요? 이런 비슷한 유형의 문제에서 name이나 host_id같은 결과 값에 영향을 주지 않을 거 같은 컬럼은 삭제해도 무관한가요? 인코딩에서 neighbourhood 컬럼이 train과 test 의 카테고리와 개수가 다 다른데 데이터를 합치지 않아도 되나요? 그럼 concat함수를 꼭 사용해야 하는 경우는 어떤 경우인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 방법
작업형 3의 문제## 심장마비 확률이 높은사람? - 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대 심박수 등의 컬럼이 있음 - 평가: ROC-AUC, 정확도(Accuracy), F1 을 구하시오 - target : output (1:심장마비 확률 높음, 0:심장마비 확률 낮음) - csv파일 생성 : 수험번호.csv (예시 아래 참조) ~~~ 위와 같은 문제가 실제 시험 환경에서 문제 양식과 비슷한가요? 저렇게 문제가 나오면 전처리를 어떻게 해야 하는지... 궁금합니다. 만약, 시험 환경 문제가 저렇게 나온다면..결측치 제거를 그냥 컬럼을 보고 아무 컬럼이나 제거를 해도 되는지. 그게 채점 규정에 맞을지. 그리고 결측치 제거시, fillna()를 쓰는데 아무 값이나 넣어도 되는지. fillna(method='bfill') 이런걸 써도 되는지. 이상치 제거도 그냥 이것도 임의로 뭔가 이상치 인거 같다 싶으면 제거 하는건지..이게 채점 규정에 맞을지... 애매 한거 같은데요. ============그리고 혹시나 시험 유형이 저렇게 안나온다면,문제를 좀 더 명확하게 서술 해주셔야 할 거 같아요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 후 컬럼 개수 불일
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) print(train.head()) print(test.head()) target = train['총가스사용량'].pop # import sklearn # print(sklearn.__all__) print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)상기 처럼 코딩 후,컬럼값이 26, 25로 불일치하게 나와요. 왜일까요...(3196, 6) (1476, 5) (3196, 26) (1476, 25)그래서 그 이후 값들도 에러가 떠요 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0)--------------------------------------------------------------------------- TypeError Traceback (most recent call last) /tmp/ipython-input-3028840780.py in <cell line: 0>() 1 from sklearn.model_selection import train_test_split 2 ----> 3 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0) 4 frames/usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py in _num_samples(x) 397 if hasattr(x, "shape") and x.shape is not None: 398 if len(x.shape) == 0: --> 399 raise TypeError( 400 "Input should have at least 1 dimension i.e. satisfy " 401 f"`len(x.shape) > 0`, got scalar `{x!r}` instead." TypeError: Input should have at least 1 dimension i.e. satisfy `len(x.shape) > 0`, got scalar `array(<bound method Series.pop of 0 9077.8 1 10105.5 2 8603.6 3 11076.8 4 10781.4 ... 3191 12294.7 3192 10410.7 3193 10473.8 3194 9657.9 3195 9961.5 Name: 총가스사용량, Length: 3196, dtype: float64>, dtype=object)` instead.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
안녕하세요 혹시 문제에서는 전처리시에 열을 삭제하고, cols = ['name', 'host_name', 'last_review', 'host_id']열을 삭제하고, 값이 비어 있는거 train['reviews_per_month'] = train['reviews_per_month'].fillna(0) test['reviews_per_month'] = test['reviews_per_month'].fillna(0) 이렇게 채우는게 문제에서 지시 사항이 없었는데, 작업을 해도 되는건가요?명확한 지시 사항이 있어야 하는게 아닌가 싶어서 여쭤봅니다.시험 환경에서 저렇게 데이터를 삭제하거나 이상치를 처리 하는거 결측치 처리를 임의로 해도 되는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2-모의문제 1번 검증 데이터 분리
from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( train.drop('Attrition_Flag', axis=1), train['Attrition_Flag'], test_size=0.2, random_state=2022 )선생님, 데이터 분리 작성할 떄, train.drop('Attrition_Flag', axis=1) 이 부분이 이해가 가지 않아요.Attrition_Flag 컬럼은 pop함수로 따로 빼놓는거로 알고 있는데, 여기서 왜 drop으로 삭제를 하고, 뒤에 train['Attrition_Flag']를 다시 넣는건지 모르겠어요.. + 데이터 분리 전에, 먼저 target에 Attrition_Flag를 따로 분리시켜놓고 split함수를 작성해도 되나요?