묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀 문제 종속 변수 표현
안녕하세요. 너무 좋은 강의 항상 잘 보고 있습니다. 궁금한 점은..로지스틱 회귀 문제의 경우 결과가 분류로 나오는 것으로 알고 있습니다.model = logit('gender ~ weight', data = train).fit()weight를 독립변수로 하고 gende를 독립변수로 하는 로지스틱 회귀 모델을 만들고,test 데이터의 gender를 예측하는 문제입니다. pred = model.predict(test) > 0.5>0.5 로 명시하지 않으면 1일 확률값이 나오기 때문에 true/false로 나타내도록 하라고 하셨습니다. 궁금한 점은 logit 함수를 만들 때 gender를 범주형으로 명시하지 않아도 되는지입니다.C()로 gender를 묶어보니 에러가 나오더라구요. ㅎ 아직 모르는 게 많아 질문드리니 알려주시면 정말 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3번문제 정답을 알면 출력 굳이 필요한지 여부 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df.sort_values('순전입학생', ascending=False).head(1)로 봤을때, 전체 학생수를 바로 알 수 있으니까굳이 출력 코드 안짜고 바로 230으로 제출해도 되나요? 아니면 출력 코드도 짜야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2번문제 len 안 쓰고 풀이 맞는지 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2번문제를 len 안쓰고 이렇게 풀어도 되는가요?결과값은 동일하게 144로 나오는데,sum쓰면서 갯수의 합인지? 각 값의 합인지? 헷갈렸습니다. 갯수의 합이 맞다면 각 값의 합도 구할수있나요?bmi = df['Weight']/((df['Height']*0.01)**2) normal = ((18.5 <= bmi) & (bmi <23)).sum() danger = ((23 <= bmi) & (bmi<25)).sum() result = int(abs(normal - danger)) print(result)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 -3 iloc 관련 질문
df['총범죄'] 구할 때 iloc[:, 1:-1] 이라고 풀이하셨는데 날짜 강력범죄 절도범죄 폭력범죄 지능범죄 풍속범죄 교통범죄 경찰서 마지막에서 바로 앞부분까지만 출력하려고 -1을 한 건 이해가 갔습니다근데 기출 5회 작업형 1 -3 문제를 보면 전체학생수를 구하는 문제에서 전체학생수의 위치도 마지막 바로 앞인데 iloc[0,-2] 여기서는 왜 -2 인지 궁금합니다. 마지막 앞부분인 것은 동일한데 왜 하나는 -1 이고 하나는 -2 인지 혼동이 오네욥
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
학습 계획
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 강사님,https://inf.run/w8sEV위 링크에서 안내해주신 가이드에 작업형1에 대한 언급은 없으셔서 그런데, 작업형1은 했다는 가정하에 말씀 주신걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해당 작업형 2유형 문제 OLS로 예측모델 만들기?!
안녕하세요, 선생님.시험이 얼마 안남았지만, 덕분에 잘 준비하고 있습니다!! 다름이 아니라, 문득 어쨋든 회귀분석 문제라면 OLS도 가능하지 않을까 싶어서 한번 시도해봤습니다.레이블 인코딩 진행 후, OLS 회귀모델로 예측모델 만들어서 RMSE 체크해보니, 선생님 선형회귀 에러값 보다 약간 낮게 나오더라고요. 그래서 여쭙는 것은,어쨋든 회귀분석 모델이니 OLS도 작업형 2유형에서 예측모형으로 사용해도 괜찮을지요?그렇다면, 종속변수가 범주형일 때 logistic 회귀분석도 사용해서 예측모형을 만들어도 될지 여쭙니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
practice1 응답값 관련 질문
선생님의 코드와 100% 똑같이 하고 1_weather.py를 실행했는데 맑음, 구름많음과 같은 <data>들은 안뜹니다.. 그냥 홈페이지에 대한 html 코드만 나와요 홈페이지에 직접들어가보면 다음과 같은 내용이 표시됩니다.. 업데이트가 필요할 듯 합니다. ※ 날씨누리에 접속 시 해당화면이 나타났다면 다음을 확인해주세요.- 『 www.weather.go.kr/w/ 』 로 시작되는 URL로 접속- 기상청 날씨누리는 『 www.weather.go.kr/w/ 』 시작되는 페이지만 운영합니다.(21년 이후)- 그 외 접속 페이지는 현재 서비스 및 관리를 하지 않는 페이지 임을 알려드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.select_dtypes(exclude='O').columns
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요['ID', 'Age', 'Work_Experience', 'Family_Size', 'Segmentation'] #num_cols = ['Age', 'Work_Experience', 'Family_Size']위에 처럼 안하고num_cols=train.select_dtypes(exclude='O').columns이거 쓰고 싶은데, ID행만 삭제해서 쓰면되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출9회 작업형 3유형 2-2 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 2-2번을 동일한 코드를 넣어도 저는 답이 0.692가 나오는데 데이터가 제가 틀리게 작성한부분이 있을까요?2-1번까지는 답이 동일하게 나왔습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 저장 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요마지막에 csv 파일 저장할때 오류 문의pd.DataFrame({'index':test.index, 'y_pred':pred}).to_csv('000000000.csv', index=False)--> 664raise ValueError("Per-column arrays must each be 1-dimensional")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 답안제출
작업형 2를 만들떄 변수.to_csv("수험번호.csv", index=False)이렇게 만들고 pd.read_csv("수험번호.csv")이렇게 해서 확인할떄이부분도 같이 제출 해도되나요? 아니면 print문이나 이런불필요한 코드는 다 주석처리하거나 지워야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 검증데이터 분리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수치형이랑 범주형 따로 안나누고 한번에 원핫인코딩을 train_oh, test_oh로 한 다음에는display(train.head()) train_oh=pd.get_dummies(train) test_oh=pd.get_dummies(test) train_oh.head()검증데이터 분리할때 train_oh,y_train 으로 하는게 맞나요?from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train_oh,y_train,test_size=0.2,random_state=0)참고로 인코딩전 에, y_train 분리했습니다.y_train = train.pop("TravelInsurance")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 성능개선
안녕하세요! 궁금한게 있어 질문 남깁니다.작업형2유형에서 랜덤포레스트 모델을 사용할 예정인데 혹시 max_depth,n_estimators 로 성능 개선해서 더 좋은 평가지표가 나온 것으로 제출하면 괜히 감점을 당할까요??괜히 성능개선을 해서 감점을 당했다는 후기를 봐서 여쭤봅니다..! +) 그리고 lightGBM 모델 사용 시 범주형 데이터 인코딩이 필요없다고 하셨는데,혹시 라벨or원핫인코딩 후에 lightGBM 모델을 사용해도 상관없을까요??(보통 데이터 전처리 후에 랜덤포레스트 한번 돌려보고,lightGBM 모델 돌려보는 식으로 작업했어서 여쭤봅니다!)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형1 - 38번 문제 (4-2) 문의
4-1에서는 12353774 로 나왔는데4-2에서는 갑자기 8870004가 분자로 입력된 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제3
선생님의 답과 제 예측결과가 조금씩 다른데, 괜찮은건가요..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 수강 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님 현재 순차적으로 강의 듣고 있는데 각 작업형 섹션 끝나고 바로 모의 문제들이 있고, 기출문제는 밑에 있는데 이 순서로 듣는게 맞나요? 기출문제를 먼저 듣는게 맞다고 생각되는데 그냥 순서대로 쭉 들으면 되는건지, 아니면 기출부터 듣는 게 맞는건지 궁금합니다.수강순서에 관한 가이드를 찾아봐도 없길래 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 제2유형
제2유형에서 시작전에train.info()test.info()하잖아요. 이후에 타입유형(int / float /object) 을 확인 한 후에 어떤 부분을 바꿔줘야하는건가요? 어차피 원핫인코딩 pd.get_dummies와 train, test = train.align(test, join ='left', axis=1, fill_value=0) 해주면 어느정도 형식이 정리되는거 아닌가요? 별도로 처리해줘야 할 게있는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 작업형1 2번문제
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/5_1/5-2bmi.csv") # your code print(df) df['bmi']= df['Weight']/(df['Height']*0.01*df['Height']*0.01) lbmi = df['bmi']<18.5 jbmi = (18.5<= df['bmi'])&(df['bmi']<23) hbmi = (23 <=df['bmi'])&(df['bmi']<25) print(len(df[jbmi]),len(df[hbmi])) print(abs(len(df[jbmi]) - len(df[hbmi]))) 결과값이 1다르게 나옵니다무엇이 잘못된건지 잘 모르겠습니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험때 필기 가능 여부?
실기 시험때 종이에 필기가 가능한가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀 질문
import pandas as pd from statsmodels.formula.api import logit from sklearn.metrics import accuracy_score # 1. 로지스틱 회귀 모델 적합 (test로 직접 학습 — 실전에서는 train 사용 권장) model = logit('target ~ age + sex + cp + trestbps + chol + fbs + restecg + thalach + exang + oldpeak + slope + ca + thal', data=test).fit() # 2. 예측 수행 (test 그대로 사용) pred_probs = model.predict(test) pred = (pred_probs > 0.5).astype(int) # 3. 정확도 → 오류율 계산 error_rate = 1 - accuracy_score(test['target'], pred) print(f'오류율: {error_rate:.4f}') Optimization terminated successfully. Current function value: 0.310865 Iterations 8 오류율: 0.1034 # model = logit('target~age+sex+cp+trestbps+chol+fbs+restecg+thalach+exang+oldpeak+slope+ca+thal',test).fit() import statsmodels.api as sm X2 = test.drop(columns = ['target']) X2 = sm.add_constant(X2) pred = model.predict(X2) pred = (pred>0.5).astype(int) pred from sklearn.metrics import accuracy_score 1-accuracy_score(test['target'],pred) 0.1954022988505747 문제는 test데이터의 독립변수로 target 예측 후 오류율을 구하여라 입니다. 근데 로짓이랑 sm이랑 차이가 좀 심하게 나는데 원래 로지스틱 회귀분석할때 sm으로 해야하나요..?