묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 문제에서 평가지표를 다 외워야할까요?
평가 지표 외우기가 힘든데 R-Squared만 외워도 합격하는데 문제가 없을까요?학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1모의문제2문제4
여기서 .columns를 안 붙여도 삭제가 되는데 붙이는 이유가 있을까요? 안 붙여도 되나요?
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
답변 항상 감사드립니다. 질문 있습니다.
5회 작업형 2문제 입니다. 질문이 좀 됩니다.import pandas as pd import numpy as np X_test = pd.read_csv("X_test.csv") X_train = pd.read_csv("X_train.csv") y_train = pd.read_csv("y_train.csv") #-------------전처리-------------- xtrain = X_train.drop(columns = 'device_id') xtest = X_test.drop(columns = 'device_id') cond = y_train['repair_cost'] <= 0 ytrain = y_train[~cond] #-------------스케일링-------------- from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() xtrain1 = scaler.fit_transform(xtrain) xtest1 = scaler.fit_transform(xtest) #-------------모델링-------------- from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(xtrain1, y_train) pred = model.predict(xtest1) #-------------검증-------------- yhat = model.predict(xtrain1) a = np.corrcoef(yhat, y_train.values.flatten()) print(a)[질문]모델링 관련 질문입니다.저는 전처리 단계에서 ytrain 'repair cost'가음수이거나 0인 값은 빼는 것이 맞다고 판단하여 drop하였습니다.repair cost가 공짜일 순 있으나 음수인것은 말이 안되니까요.학부생일때도 결측값이나 해석하기 애매한 값에 대해서는mean이나 mode로 채우지 않고다 drop 했었는데, 빅분기 2유형에서도 이런 전략이 유효한가 여쭙는 질문입니다.(xtest 테이블에 있는 행들은 하나라도 drop하면 안되는 것으로 알고 있긴합니다.)(예를 들어, 주어진 xtrain '나라' 열에 '미국, 영국, 프랑스' 라는 3가지 값이 있고xtest '나라'열에 '독일, 러시아, 영국'라는 3가지 값이 있으면,원핫인코딩으로 전처리하고 모델돌릴시 에러가 뜨지않습니까?이런 에러 방지를 위해서라도 drop이 편한다고 생각합니다.)모델링 관련 질문입니다.2유형은 분류, 회귀 중 한 문제가 통으로 나온다고 알고 있습니다.찾아보니 LightGBM등 머신러닝 기법 종류는 다양한데,랜덤포레스트 Classifier와 Regressor로 2유형은 정리 가능한지 문의드립니다.당연히 장담은 못 주시겠지만,코딩 대한민국님 기출 강의 먼저 듣고시중에 나와있는 연습문제 풀다보니막히는 곳이 많아서 걱정입니다.(주로 전처리에서 막힙니다. 시중 연습문제들은 기출문제들 같이 데이터 전처리가 간단하지 않네요.)코딩 관련 질문입니다.특히 스케일링시,저는scaler = MinMaxScaler() xtrain1 = scaler.fit_transform(xtrain) xtest1 = scaler.fit_transform(xtest)이렇게 했는데,코딩대한민국님 강의에서는 scaler = MinMaxScaler()scaler.fit(xtrain)xtrain1 = scaler.transform(xtrain)xtest1 = scaler.transform(xtest)이런식으로 하시더라구요.비교해보니 출력값은 같아 보이는데, 차이점이 무엇인지 여쭙습니다.fit은 xtrain만 했는데transform은 xtrain뿐만 아니라, xtest도 알아서 되는 메커니즘이 이해가 안가네요.transform은 fit이 사전에 수행 안되도 되는 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 기출 작업형3 문제 1-3
강의시간 16:46 따로 test["design"]에 안넣고 변수로 지정하여서 예측을 진행한 후 rmse계산을 하였는데 결과가 다르게 나온 이유가 무엇일까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
앞서서 잘못저장된거 어떻게 취소하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요df['출동시간'] = pd.to_datetime(df['출동시간']) df['도착시간'] = pd.to_datetime(df['도착시간']) df.info() 이렇게 했어야했는데 실수로 df['출동시간'] = pd.to_datetime(df['출동시간']) df['도착'] = pd.to_datetime(df['도착시간']) df.info() 이라고해서 0 소방서 100 non-null object 1 출동시간 100 non-null datetime64[ns] 2 도착시간 100 non-null datetime64[ns] 3 도착 100 non-null datetime64[ns] 이라고 나옵니다 실수로 도착이라고 저장된거를 어떻게 취소하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 답안 제출 시 질문입니다.
지금 기출 6회 작업형 1-1번 문제를 풀던 중 갑자기 의문이 생겼습니다. result = df.gruopby('소방서')['diff'].mean()에서 나온 결과물에서 바로 수치를 확인하고 답안을 제출해도 되는지?? 꼭 print(81)로 코드가 입력하여 결과물이 나온 상태로 확인하고 답안을 제출 해야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 문제2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 파이썬 왕초보인점 먼저 밝힙니다 ㅜ df.loc[2000].mean() 을 실행했을 때 왜 저는 선생님처럼 안나오고 np.float64(100.735) 이렇게 나올까요? 똑같은 코드를 썻는데요 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제1번 '상위' 오해 소지는 없을까요?
문제 1번에서 상위 10개 데이터라고 하는데, 언젠가 풀어본 문제에서 "상위 10개"가 값이 큰 순서대로 상위 10개가 아니라, 그냥 주어진 데이터에서 상위 10개를 뽑는 경우가 있었어서 처음에 풀 때 그냥 주어진 값에서 index 0~9까지를 추출했습니다. 근데 풀이내용을 보니, 내림 차순 후 진행하시더라구요...혹시 실제 문제에서 이런 오해의 소지가 있을만한 건 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
필수 인강 리스트
안녕하세요. 현재 커리큘럼에따라 2과목까지는 다 들었는데 시험일정이 촉박하여 모든 인강을 듣고, 실습 연습까지 할 수 는 없을거 같은데필수 인강 리스트와 필수 문제리스트를 추천해주실 수 있으실까요?데이터분석을 대학교때 어느정도해서 기초는 있는 상황입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
proba와 문자형
proba 사용 시에 [:,1]을 사용하는건 문제마다 다른건가요? 정확히 어떤 문제에 [:,1]을 사용하는지 예시와 함께 알고 싶습니다. 또한f1score에서 pos_lable="A"라고 말씀해주셨는데 이 부분도 정확히 이해가 안갑니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 볼때 코랩처럼 약간 정보제공이 되는건가요?
이런식으로 코딩 하다보면 밑에 정보가 나와서 도움이 되는데, 시험환경에선 저런게 없다고 보면되죠??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 선택
강의를 해주시면서XGBoostRandomForesetLGBM위 모델에 대한 설명이 주를 이루고 있는데 해당 모델은 모두 분류,회귀 모두 사용 가능한걸로 알고 있습니다. (제가 이해한 게 맞나요?) 다른 모델들도 포함해서 시험장에 총 2개의 모델로만 활용을 하고싶은데 어떤 모델을 추천하시는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm 실행 시 나오는 경고문구
lightgbm 실행하면 결과값은 나오는데, 그 밑에 경고가 나옵니다.뭐가 잘못된건가요.. 아님 경고 무시고 제출해도 상관 없는건가요# lightgbm from lightgbm import LGBMClassifier model = LGBMClassifier(random_state=0, verbose=-1) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) roc_auc_score: 0.9431438127090301 /usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py:2739: UserWarning: X does not have valid feature names, but LGBMClassifier was fitted with feature names warnings.warn(
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험에 대한 질문드립니다.
인코딩 시 베이직모델, 레이블인코딩, 원핫인코딩 등 여러가지가 있는데 제일 좋은건 전부 비교해서 결과를 따져보고 선택하는거지만 그런거에 자신이 없다고 할때 하나만 선택해서 해도 만점받는데 문제없나요? 만약 문제없다면 어떤걸로 선택해서 인코딩하는게 가장 무난할지 추천부탁드립니다.모델 선택할 때 랜덤포레스트, xgboost 등 여러가지가 있는데 랜덤포레스트 하나만 밀어도 만점받는데 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자료다운로드 csv 파일로 할줄알아야하나요?
수업노트보기에 있는 노트북 링크로만 코딩 연습중인데 csv 파일 받아서 할줄알아야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값의 범위가 헷갈립니다.
이전에 질문에서 p-value 범위에 대해 답변해 주셔서 감사합니다.p-value < 유의수준 : 귀무가설 기각p-value >= 유의수준: 귀무가설 채택 로지스틱 회귀에서 임계값은 범위는pred > 임계값 = Truepred <= 임계값 = False이렇게 이해해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 관련
만약 문제에서'예측결과는 RMSE 평가 지표에 따라 평가함' 이라고 되어있어도, 다른 평가지표를 써도 되는게 맞을까요? 강의에서는 된다고 하셨는데, 감점 사항인지 궁금해서요
-
해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
postgres_loader DAG 에러
해당 강의에서 진행한 postgres_loader DAG를 돌리면 자꾸 sample_table이 존재하지 않는다는 에러가 발생해서 질문 남깁니다.도커에서 설치해서 사용하고 있고 postgres 설치가 잘못된 것 같은데 다른 질문들 보면서 이것저것수정을 해서 더 잘 모르겠습니다 ㅠㅠ +) postgres 설치부터 잘못된 것 같은데.. 해결방법 좀 알려주세요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5. 이원 분산 분석의 질문입니다.
비료 유형에 따른 토마토의 수확량 평균에 차이가 있는가를 검정하기 위한 검정 통계량을 구하시오. 위 문제에서 분명 종속변수는 비료 유형 1개인데ols(수확량 ~ C(비료유형) + C(물주기) + C(비료유형):C(물주기),data=df).fit()으로 풀어야 하는 이유가 궁급합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링
빠르게합격하고싶은데, 스케일링 패쓰해도되죠?전처리 인코딩이랑 결측치 제거만 해줘도충분하죠?