묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)logit 범주형 C() 처리안녕하세요! 작업형 3번중 종속변수 말고 범주형 변수에는 C()를 다 붙여도 된다고 하셨는데 수강생 작성model = logit("Survived~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() print(model.summary()) 로 작성하게 되면 에러가 발생합니다!혹시 이유를 알 수 있을까요?에러는 참고로 남기겠습니다! > Warning: Maximum number of iterations has been exceeded. Current function value: inf Iterations: 35Makefile:6: recipe for target 'py3_run' failedmake: *** [py3_run] Error 1/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2385: RuntimeWarning: overflow encountered in exp return 1/(1+np.exp(-X))/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2443: RuntimeWarning: divide by zero encountered in log return np.sum(np.log(self.cdf(q * linpred)))Traceback (most recent call last): File "/goorm/Main.out", line 23, in <module> model = logit("Survived ~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 2601, in fit bnryfit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 243, in fit mlefit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/base/model.py", line 582, in fit Hinv = np.linalg.inv(-retvals['Hessian']) / nobs ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 561, in inv ainv = umathlinalg.inv(a, signature=signature, extobj=extobj) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 112, in raiselinalgerror_singular raise LinAlgError("Singular matrix")numpy.linalg.LinAlgError: Singular matrix 강사님 작성model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit() print(model.summary())에러없음 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)y_trainy_train = train.pop("price")를 하는 이유가 궁금합니다. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)5회이 과정은 왜 거치는 것이고, 왜 transmission을 택했는지 궁금합니다. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)일반적으로 for문이 들어가는 부분강의를 듣다보면 for문으로 레이블인코딩을 쉽게 하는 걸로 배웠습니다 헌데 Scaling 할때는 for문이굳이 필요 없나요?cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() 이런식으로 바로 cols를 집어넣으시던데,labelEncoding때에만 for로 하는 경우가 궁금합니다. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)간단질문안녕하세요?1번 : statsmodels.api.stats 에서의 anova_lm 2번 statsmodels.stats.anova에서의 anova_lm 이 두개는 다른건지요? 일원분산분석을 할때는 2번으로,, 이원분산분석은 1번으로 되어 있어서요.. 차이가 있는건지요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형 2 - 라벨인코더작업형2를 풀때, 라벨인코더를 해서 풀고 마지막에 오류로, Train에서는 라벨인코더가 되었는데.. Test데이터에서는 라벨인코더가 되지 않음을 확인하였습니다. gpt는 이 이유가, train간 test데이터 사이에 항목이 달랐기 떄문에 이런 오류가 났다고 설명하는데...(예를 들어 train에 라벨인코더한 항목이 A.B.C로 되어있다면 test데이터는 A,B,C,D로 되어있어 나는 오류) 그럼 라벨인코더를 쓸때는 꼭, train, test간 데이터 종류/갯수가 같은것을 확인하고 쓸 수 밖에 없는건가요..?? 이런경우 그냥 더미변수처리를 해야하는걸까요?ㅠㅠ 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)concat 관련여기서 concat을 사용하는 이유가 X_train과 y_train을 df로 합치기 위해서인데,labelencoding은 왜 X_train으로 진행하신건가요? X_train.select_dtypes(include = 'object')가 아닌df.select_dtypes(include = 'object')가 아닌짛 해서요. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)ilociloc[0:,-2]0인 이유가 뭘까요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)다중회귀모델 독립변수 인코딩다중회귀모델을 학습할 때 독립변수에 포함된 범주형변수를 인코딩 안 하고 학습했을 때의 결정계수값과 인코딩 했을 때의 결정계수 값이 다르게 나오는데, 이런 경우 인코딩을 하고 계산하는 게 맞는건가요? 전자는 자동으로 처리가 된 것 같은데 시험에서는 어떤걸 정답으로 쳐주는지 궁금합니다! 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)uint8 , boolbool이라고 나왔는데 맞나요..? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)시나공 빅분기 교재관련 문의(p.177) 및 정오표관련시나공 빅분기 교재관련 문의p.177 25번 문제에서시간간격이 1일 이하인 사용자를 제외하고 계산하라고 했는데cond1 = time_interval > 0 로 되어 있는데cond1 = time_interval > 1 이 되어야 하는게 맞지 않을까요??혹시 " > 0 " 으로 풀이한 이유가 있을까요?? ps. 교재관련 정오표를 찾고 있는데 어디서 찾을 수 있을까요?? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)2유형 성능향상(분할관련)안녕하세요. 2유형에서 성능을 올리려면 데이터 분할을 안하면 된다고 들었는데요 그러면 분할자체를 하지않고 랜포에 rfr.fit(train) 이렇게 학습시키면되나요? 이런 케이스도 코드예시 올려주시면 좋겠어요 아에 분할을 안하는 2유형 전체코드요 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)문제8, 문제9 풀이에서 numeric_only=True 옵션문제8, 문제9 풀이에서 numeric_only=True 옵션에 대해서궁금해서 질문해요문제 8번 풀이에서df =df.groupby(['city','f2']).sum(numeric_only=True).reset_index()df =df.groupby(['city','f2']).sum(numeric_only=True).reset_index() 에서는 컬럼 'city' 와 'f2' 컬럼이수치형 자료라 numeric_only=True 를 설정해야 하는 건가요!? 문제 9번 풀이에서 groupby 로 월 별 데이터 개수를 구할 때는 count(numeric_only=True) 로 설정하면 오류나는 이유는 뭔가용..??? month 가 숫자형이어서 그런가요 아니면 count 가 설정할 필요가 없어서인가요 ? ㅠ.ㅠ numeric_only=True 를 어느 때 써야하고 안 써야하는지 구분하는게 정확히 어떤 기준인지 궁금합니다 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)들여쓰기들여쓰기를 했는데도 에러가 뜨는 데 왜일까요? 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형2 한가지 방법으로 풀기#train['환불금액']=train['환불금액'].drop#test['환불금액']=test['환불금액'].droptrain=pd.get_dummies(train)test=pd.get_dummies(test)target=train.pop('성별')from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0)from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr)pred=model.predict(test)submit=pd.DataFrame({'pred':pred})submit.to_csv('result.csv',index=False)a=pd.read_csv('result.csv')print(a.head()) 위와 같이 한가지방법으로 풀기와 동일하게 진행하였는데 model.fit(X_tr,y_tr) 에서 오류가 납니다. 결측치가 있는 '환불금액'열을 삭제해도 동일한데 한가지방법으로 푸는 코드에 오류나 잘못된 부분이 있을가요?. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)target 값이 object이면 검증하기전에 항상 int형으로 변경해야되나요?안녕하세요? target 값이 object이면 검증하기전에 항상 int형으로 변경해야되나요? RandomForest 나 lgb 사용할 경우에는 그냥 안해도 되는거죠.... 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)다시 학습을 할 필요가 있을까요?안녕하세요검증용 데이터로 나눈 후 학습을 하면 비교적 적은 데이터로 학습이 될텐데요. 그러면 성능 확인 후 검증용데이터로 나누기전의 데이터로 다시 학습시키는 것이 좋을까요? 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)교재 내용 질문, 결측치 인코딩 관련안녕하세요, 강의와 교재로 공부하고 있습니다.교재 작업형2 ch4 회귀 부분에서트레인 테스트 데이터를 합친 후범주형 데이터를 레이블 인코딩 한 후 다시 트레인 테스트로 쪼개고결측치를 채우는 최솟값, 최빈값으로 채우는 과정으로 진행이 되는데요, 레이블 인코딩 과정에서 범주형데이터의 결측치가 하나의 값으로 인코딩이 되어서결측치가 존재하지 않아 중앙값으로 결측치를 대체하는 과정이 불필요한 것 같은데 맞을까요? 또한 원핫 인코딩을 사용하려는 경우 결측치를 먼저 대체한 후에 인코딩을 해야 오류가 안나는게 맞을까요?일반적으로 결측치 처리를 인코딩 후에 하는지 전에 하는지 궁금합니다.감사합니다. 
- 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)logit 모델 구성시 독립변수 교호작용은 안구해도 되는지요logit 모델 구성시 독립변수 교호작용은 안구해도 되는지요?7회 1-2에서 강의에서는 주효과만 구해서 풀어주셔는데, 교호작용까지 하면 값이 좀 달라져서 문의드립니다 
- 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)작업형2 질문작업형2 모델 분석 및 결과 제출에 대해 질문이 있습니다. 회귀분석을 예로들면 랜덤포레스트회귀, XGB회귀, 릿지, 라쏘 등 다양한 모델을 사용해서 모델 마다 도출하는 값이 다른고 그 중 가장 높은 값(r2값이나 mse 값 등 문제에서 평가로 제시된 지표)을 사용한다고 알고 있습니다. val데이터로 학습을하고 가장 높은 값을 찾아서 마지막에 pred = model.predict(test)로 대입하는데, 모델을 선택하는 과정이 없는 것 같습니다. 이렇게 두개의 모델을 사용해서 각각 값을 도출해서 위와 같은 값이 나왔고 이런식으로 test데이터를 예측값에 적용하는데 위 두개에 모델중에 더 나은 모델을 선택하는 과정이 없는건가요??두개의 모델이 다 활성화 되어있는데 저렇게 밑에 model.predict만 적어놓으면 이 모델이 xgb인지 랜덤포레스트인지 어떻게 인식하는걸까요? 
