묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해당 작업형 2유형 문제 OLS로 예측모델 만들기?!
안녕하세요, 선생님.시험이 얼마 안남았지만, 덕분에 잘 준비하고 있습니다!! 다름이 아니라, 문득 어쨋든 회귀분석 문제라면 OLS도 가능하지 않을까 싶어서 한번 시도해봤습니다.레이블 인코딩 진행 후, OLS 회귀모델로 예측모델 만들어서 RMSE 체크해보니, 선생님 선형회귀 에러값 보다 약간 낮게 나오더라고요. 그래서 여쭙는 것은,어쨋든 회귀분석 모델이니 OLS도 작업형 2유형에서 예측모형으로 사용해도 괜찮을지요?그렇다면, 종속변수가 범주형일 때 logistic 회귀분석도 사용해서 예측모형을 만들어도 될지 여쭙니다!
-
미해결공공데이터와 Folium(Python Library)으로 만드는 제주 오름 지도 안내 서비스
지도 및 버스경로(실시간 도착시간) 이런 부분도 추가하고 싶은데 어떻게 하나요?
공공데이터에서 위도, 경도가 들어간 데이터 파일을 가져오긴 했는데, 일부 데이터는 위도, 경도 데이터가 없는 경우가 있고, 또한 저는 버스경로(실시간 도착시간) 이런 부분도 표시하고 싶은데, 잘 모르겠습니다. 질문은 다음과 같습니다. 공공데이터 중 일부 데이터가 없는 경우, 해당 '위도, 경도' 데이터를 일일이 수작업으로 확인하는 것이 아니라, 코드나 다른 방법으로 해당 데이터에 위도, 경도 데이터를 일괄 수집하는 방법이 있을까요?오름 데이터(사실 전 다른 데이터 사용) + 버스경로(실시간 도착시간) 이런 것을 같이 표시하고 싶은데, 이 경우에는 어떤 방법을 사용해야하나요? 공공데이터포털에 '전국버스노선정보'나 'oo시 버스시간' 홈페이지 이런건 있는데, 이를 활용하는 방법이나 어떻게 해야하는지 잘 모르겠어요... 도와주세요.. 아니면, 추가적으로 더 들으면 좋을 강의를 추천해주세요~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.select_dtypes(exclude='O').columns
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요['ID', 'Age', 'Work_Experience', 'Family_Size', 'Segmentation'] #num_cols = ['Age', 'Work_Experience', 'Family_Size']위에 처럼 안하고num_cols=train.select_dtypes(exclude='O').columns이거 쓰고 싶은데, ID행만 삭제해서 쓰면되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출9회 작업형 3유형 2-2 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 2-2번을 동일한 코드를 넣어도 저는 답이 0.692가 나오는데 데이터가 제가 틀리게 작성한부분이 있을까요?2-1번까지는 답이 동일하게 나왔습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 저장 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요마지막에 csv 파일 저장할때 오류 문의pd.DataFrame({'index':test.index, 'y_pred':pred}).to_csv('000000000.csv', index=False)--> 664raise ValueError("Per-column arrays must each be 1-dimensional")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 답안제출
작업형 2를 만들떄 변수.to_csv("수험번호.csv", index=False)이렇게 만들고 pd.read_csv("수험번호.csv")이렇게 해서 확인할떄이부분도 같이 제출 해도되나요? 아니면 print문이나 이런불필요한 코드는 다 주석처리하거나 지워야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 검증데이터 분리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수치형이랑 범주형 따로 안나누고 한번에 원핫인코딩을 train_oh, test_oh로 한 다음에는display(train.head()) train_oh=pd.get_dummies(train) test_oh=pd.get_dummies(test) train_oh.head()검증데이터 분리할때 train_oh,y_train 으로 하는게 맞나요?from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train_oh,y_train,test_size=0.2,random_state=0)참고로 인코딩전 에, y_train 분리했습니다.y_train = train.pop("TravelInsurance")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 성능개선
안녕하세요! 궁금한게 있어 질문 남깁니다.작업형2유형에서 랜덤포레스트 모델을 사용할 예정인데 혹시 max_depth,n_estimators 로 성능 개선해서 더 좋은 평가지표가 나온 것으로 제출하면 괜히 감점을 당할까요??괜히 성능개선을 해서 감점을 당했다는 후기를 봐서 여쭤봅니다..! +) 그리고 lightGBM 모델 사용 시 범주형 데이터 인코딩이 필요없다고 하셨는데,혹시 라벨or원핫인코딩 후에 lightGBM 모델을 사용해도 상관없을까요??(보통 데이터 전처리 후에 랜덤포레스트 한번 돌려보고,lightGBM 모델 돌려보는 식으로 작업했어서 여쭤봅니다!)
-
미해결[리뉴얼] 처음하는 파이썬 백엔드와 웹기술 입문 (파이썬 중급, flask[플라스크] 로 이해하는 백엔드 및 웹기술 기본) [풀스택 Part1-1]
강의 자료 어디서 다운받나요? 없는데요..
- 강의 영상에 대한 질문이 있으시면, 상세히 문의를 작성해주시면, 주말/휴일 제외, 2~3일 내에 답변드립니다 (이외의 문의는 평생 강의이므로 양해를 부탁드립니다.)- 강의 답변이 도움이 안되셨다면, dream@fun-coding.org 로 메일 주시면 재검토하겠습니다. - 괜찮으시면 질문전에 챗GPT 와 구글 검색을 꼭 활용해보세요~- 잠깐! 인프런 서비스 운영(다운로드 방법포함) 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형1 - 38번 문제 (4-2) 문의
4-1에서는 12353774 로 나왔는데4-2에서는 갑자기 8870004가 분자로 입력된 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제3
선생님의 답과 제 예측결과가 조금씩 다른데, 괜찮은건가요..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 수강 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님 현재 순차적으로 강의 듣고 있는데 각 작업형 섹션 끝나고 바로 모의 문제들이 있고, 기출문제는 밑에 있는데 이 순서로 듣는게 맞나요? 기출문제를 먼저 듣는게 맞다고 생각되는데 그냥 순서대로 쭉 들으면 되는건지, 아니면 기출부터 듣는 게 맞는건지 궁금합니다.수강순서에 관한 가이드를 찾아봐도 없길래 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 제2유형
제2유형에서 시작전에train.info()test.info()하잖아요. 이후에 타입유형(int / float /object) 을 확인 한 후에 어떤 부분을 바꿔줘야하는건가요? 어차피 원핫인코딩 pd.get_dummies와 train, test = train.align(test, join ='left', axis=1, fill_value=0) 해주면 어느정도 형식이 정리되는거 아닌가요? 별도로 처리해줘야 할 게있는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 작업형1 2번문제
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/5_1/5-2bmi.csv") # your code print(df) df['bmi']= df['Weight']/(df['Height']*0.01*df['Height']*0.01) lbmi = df['bmi']<18.5 jbmi = (18.5<= df['bmi'])&(df['bmi']<23) hbmi = (23 <=df['bmi'])&(df['bmi']<25) print(len(df[jbmi]),len(df[hbmi])) print(abs(len(df[jbmi]) - len(df[hbmi]))) 결과값이 1다르게 나옵니다무엇이 잘못된건지 잘 모르겠습니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험때 필기 가능 여부?
실기 시험때 종이에 필기가 가능한가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀 질문
import pandas as pd from statsmodels.formula.api import logit from sklearn.metrics import accuracy_score # 1. 로지스틱 회귀 모델 적합 (test로 직접 학습 — 실전에서는 train 사용 권장) model = logit('target ~ age + sex + cp + trestbps + chol + fbs + restecg + thalach + exang + oldpeak + slope + ca + thal', data=test).fit() # 2. 예측 수행 (test 그대로 사용) pred_probs = model.predict(test) pred = (pred_probs > 0.5).astype(int) # 3. 정확도 → 오류율 계산 error_rate = 1 - accuracy_score(test['target'], pred) print(f'오류율: {error_rate:.4f}') Optimization terminated successfully. Current function value: 0.310865 Iterations 8 오류율: 0.1034 # model = logit('target~age+sex+cp+trestbps+chol+fbs+restecg+thalach+exang+oldpeak+slope+ca+thal',test).fit() import statsmodels.api as sm X2 = test.drop(columns = ['target']) X2 = sm.add_constant(X2) pred = model.predict(X2) pred = (pred>0.5).astype(int) pred from sklearn.metrics import accuracy_score 1-accuracy_score(test['target'],pred) 0.1954022988505747 문제는 test데이터의 독립변수로 target 예측 후 오류율을 구하여라 입니다. 근데 로짓이랑 sm이랑 차이가 좀 심하게 나는데 원래 로지스틱 회귀분석할때 sm으로 해야하나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 이상치 관련
test data는 이상치와 결측치가 있어도 행을 삭제하면 안 된다고 하셨는데 그럼 만약에 이상치 혹은 결측치가 하나 정도 있어도 그냥 무시하고 진행해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 test_size
test_size값을 항상 0.2로 해왔었는데 어떤 기준에 따라 조정하는 건지 궁금합니다!그냥 시험에서도 0.2로 해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 제2유형 기출 문의
제2유형에서, 데이터 과적합에 영향을 줄 수 있는 열은 drop 진행해야 되나요? 일반적으로 실제 시험에는 drop을 대부분 안하고 시험문제 푸는 것 같은데 시험이 며칠 안남아서 랜포+원핫인코딩만 달달외우고 시험보는데 drop별도로 공부해야하나 문의드립니다 ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 푸는 방법
아래와 같이 train과 test를 합해서 스케일링과 인코딩을 모두 진행할 경우, 각각 진행하는 것과 차이가 있나요?그리고 스케일링과 인코딩에 추천하는 함수가 있으신가요?df= pd.concat([x_train, x_test], axis=0) num = df.select_dtypes(exclude='object').columnsfrom sklearn.preprocessing import RobustScalerscaler = RobustScaler()df[num] = scaler.fit_transform(df[num]) objs = df.select_dtypes(include='object').columnsfrom sklearn.preprocessing import LabelEncoderfor obj in objs :encoder = LabelEncoder()df[obj] = encoder.fit_transform(df[obj]) x_train2 = df[:len(x_train)]x_test2 = df[len(x_train):]