묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-3 랜덤포레스트 평가지표 출력 결과 이상
안녕하세요. 작업형 2 모의문제 3 코드 작성후 랜덤포레스트 평가지표 (accuracy, f1_score, roc_auc score) 출력결과가 모두 1.0 으로 나오는데, 혹시 이런 경우가 있나요? (수업에선 0.7~0.8대로 출력) 없다면 문제가 뭐인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수일 때 formula 질문있습니다
회귀분석 강의에서 범주형 변수가 있을 때 1) 그냥 ols 돌려도 된다2) 원핫인코딩 한 담에 ols 돌려도 된다 라고 말씀 주시는 것 같습니다.근데 또, 다른 강의에선 formula 생성 시 범주형 변수 일 때 C로 감싸라고 하시기도 하셨어서 조금 헷갈리는 것 같습니다. 어떤 차이가 있는지요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀분석에서 패널티
로지스틱회귀분석에서 패널티를 줄때 입력 코드는 어떻게 쓰나요? 패널티부과안함일 경우는 그냥 아무것도 안하면 되죠~~~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요sklearn.metrics 안에 root_mean_squared_error이 있던데 이거로 rmse 구하면 안되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제1 - 문제 1
70%의 데이터를 추출하는 과정에서 그냥 df[:int(len(df)*0.7)을 한 것과 df.loc[int(len(df), : ]과 결과값에 차이가 존재하는 걸 확인했습니다. 왜 차이가 발생하는지 알 수 있을까요? 이전 작업까지의 결과물은 수치가 정상적으로 나오는 것을 확인했습니다. df[:int(len(df)*0.7) 의 경우 df.loc[int(len(df), : ]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 ID 삭제 여부 및 성능 기준
안녕하세요 선생님, 1) ID 삭제 여부ID는 삭제해도 되고, 삭제 안해도 무방하며 이 경우 가중치가 낮게 적용이 된다고 답변 주신 것을 보았습니다. 그런데 모의문제1번과 2번을 풀어보니 ID를 포함하여 학습시켰을 때 성능 점수가 높더라구요...^^;; 무슨 연관이 있을까요..? 시험에서도 ID 포함해도 문제가 되지는 않겠지요? 2) 회귀 성능 기준r2 점수가 0.18이 나왔는데 이런 결과가 나와도 시험에서 점수 받는데 문제가 없을까요? 실무에서는 낮은 점수라고 볼 수 있을 것 같은데 성능을 높이기 위해 별도로 조치하지 않고 제출해도 되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 1번 문제 2L 가격 0 제외 drop써서 할 수 있는 방법도 있을까요?
5회 기출 1번 문제 2L 가격 0 제외 drop써서 할 수 있는 방법도 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 방향
안녕하세요, 선생님. (비전공자, 파이썬 사용 경험 X) 이번에 일정상 18일부터 빅분기 실기 공부가 가능한데12일의 시간이 남네요. (시간 올인 투자 가능하긴 합니다.) 12일 동안 공부한다고 가정할때빅분기 실기 합격 가능성이 있을까요..?? 혹시 추천하시는 방법이 있으시면 말씀 부탁드립니다 ㅜㅜ..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩이 실행이안됩니다.
#원핫인코딩 train = pd.get_dummies(train, columns=cols) test = pd.get_dummies(test, columns=cols) 이렇게하니까 ValueError: Boolean array expected for the condition, not object이런 오류가 계속 나는데 왜그런가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험칠 때, 코드1 or 2 방식 문의
코드2의 방식이 좀 어려운거같은데 ㅠㅠ시험칠 때 비교적 간결한 코드1의 방식으로 해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제2 실제 제출 파일 질문
model = RandomForestRegressor() model.fit(X_tr,y_tr) pred = model.predict(y_val)이렇게 해서 검증데이터로 예측해서 모델 평가하고 실제로 제출할 떄에는 pred = model.predict(test) 로 예측해서test_id, pred로 형성된 데이터프레임을 제출하는게 맞는거죠??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
풀이2번 방식 문의
X_tr, X_val, y_tr, y_val = train_test_split(train[cols], target, test_size = 0.2, random_state = 0) 이렇게 했으면 X_tr에 train[cols]가 들어가게 되는거같은데모델 학습시model.fit(X_tr) 이렇게만 해줘도 안되나요?꼭 model.fit(X_tr[cols])까지 한번더 해줘야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
drop과 dropna차이가 뭔가요?
모의문제1,2 유형 풀고 있는데 문제1에서는 dropna가 주로 나오고 유형2에서는 drop이 나오던데 drop과 dropna의 차이가 뭔가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit 범주형 C() 처리
안녕하세요! 작업형 3번중 종속변수 말고 범주형 변수에는 C()를 다 붙여도 된다고 하셨는데 수강생 작성model = logit("Survived~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() print(model.summary()) 로 작성하게 되면 에러가 발생합니다!혹시 이유를 알 수 있을까요?에러는 참고로 남기겠습니다! > Warning: Maximum number of iterations has been exceeded. Current function value: inf Iterations: 35Makefile:6: recipe for target 'py3_run' failedmake: *** [py3_run] Error 1/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2385: RuntimeWarning: overflow encountered in exp return 1/(1+np.exp(-X))/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2443: RuntimeWarning: divide by zero encountered in log return np.sum(np.log(self.cdf(q * linpred)))Traceback (most recent call last): File "/goorm/Main.out", line 23, in <module> model = logit("Survived ~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 2601, in fit bnryfit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 243, in fit mlefit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/base/model.py", line 582, in fit Hinv = np.linalg.inv(-retvals['Hessian']) / nobs ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 561, in inv ainv = umathlinalg.inv(a, signature=signature, extobj=extobj) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 112, in raiselinalgerror_singular raise LinAlgError("Singular matrix")numpy.linalg.LinAlgError: Singular matrix 강사님 작성model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit() print(model.summary())에러없음
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_train
y_train = train.pop("price")를 하는 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회
이 과정은 왜 거치는 것이고, 왜 transmission을 택했는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
일반적으로 for문이 들어가는 부분
강의를 듣다보면 for문으로 레이블인코딩을 쉽게 하는 걸로 배웠습니다 헌데 Scaling 할때는 for문이굳이 필요 없나요?cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() 이런식으로 바로 cols를 집어넣으시던데,labelEncoding때에만 for로 하는 경우가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
간단질문
안녕하세요?1번 : statsmodels.api.stats 에서의 anova_lm 2번 statsmodels.stats.anova에서의 anova_lm 이 두개는 다른건지요? 일원분산분석을 할때는 2번으로,, 이원분산분석은 1번으로 되어 있어서요.. 차이가 있는건지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 - 라벨인코더
작업형2를 풀때, 라벨인코더를 해서 풀고 마지막에 오류로, Train에서는 라벨인코더가 되었는데.. Test데이터에서는 라벨인코더가 되지 않음을 확인하였습니다. gpt는 이 이유가, train간 test데이터 사이에 항목이 달랐기 떄문에 이런 오류가 났다고 설명하는데...(예를 들어 train에 라벨인코더한 항목이 A.B.C로 되어있다면 test데이터는 A,B,C,D로 되어있어 나는 오류) 그럼 라벨인코더를 쓸때는 꼭, train, test간 데이터 종류/갯수가 같은것을 확인하고 쓸 수 밖에 없는건가요..?? 이런경우 그냥 더미변수처리를 해야하는걸까요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat 관련
여기서 concat을 사용하는 이유가 X_train과 y_train을 df로 합치기 위해서인데,labelencoding은 왜 X_train으로 진행하신건가요? X_train.select_dtypes(include = 'object')가 아닌df.select_dtypes(include = 'object')가 아닌짛 해서요.