묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문있습니다
안녕하세요작업형2번 풀때 결측치 처리를 해줬을때보다 안해줬을때 roc_auc 스코어가 더 높게 나오면 결측치 처리를 안해주고 답을 내는게 맞을까요? 또 train과 test split을 해줬을때보다 안해줬을때 스코어가 더 높으면 안해준 상태로 답을 제출하는게 맞을까요?점수가 크면 장땡인지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강사님! 원-핫 인코딩 사용할때 궁금한게 있어요!
train과 test 모두 pd.get_dummies를 사용해서 원-핫 인코딩을 해주잖아요. 근데 만약에 그 train의 object unique 수랑 test의 object unique 수가 서로 다르면 (서로 다른 값이 존재한다면) train과 test의 열(속성) 수가 달라져서 train로 학습을 시키고 test로 예측을 할때 열(속성) 수가 달라서 오류가 뜨지 않나요?? 그러면 사전에 object 컬럼에 서로 다른 값이 있는지 확인하고 원-핫 인코딩을 진행해줘야 되나요?? -> 서로 일치하는지 알 수 있는 방법이 있을까요? 이런 오류가 생긴다면 그냥 라벨인코딩하는게 좋을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스탠다드 스케일
안녕하세요,기출 7회 작업형 1 문제1 질문드립니다.스탠다드스케일을 할때, 저는 cond = df['id_assessment'] == 12 a = df[cond]['score'] std = a.std() mean = a.mean() df['standard'] = (df['score']-mean) / std b = df['standard'].max() round(b,3)이렇게 답을 구했더니, 사이킷런 스탠다드 스케일로 구한값과 약간의 차이가 있더라구요,만약 작업형1 시험에서 MinMaxScaler 또는 스탠다는 스케일을 하라고 문제가 나왔을 때, 사이킷런 으로 푸는 것이 정답일까요? 아니면 실제 수식을 적용시켜서 푸는 것이 정답일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 데이터 전처리
안녕하세요, 강사님 !작업형2에서 모델링 하기 전 전처리 하실 때어떤 때는 수치형만 전처리하고, 어떤 때는 범주형만 전처리를 하던데 혹시 어떤 기준에 따라 정해지는 걸까요...?시험 때는 범주형과 수치형 다 전처리를 해주는 게 좋을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8 작업형2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요customerID 가 데이터 갯수만큼 있는지, 반복성이 있는지에 따라 삭제, 라벨인코딩을 한다고 하셨는데, 반복성이 있는지는 어떤걸 보고 판단하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2유형 문제 에러 문의
7회 2유형에서 아래와 같이 코딩을 했는데 에러가 발생합니다. 에러기 왜 발생하는지 모르겠습니다.에러는 train_test_split 함수에서 "TypeError: isinstance() arg 2 must be a type, a tuple of types, or a union" 라고 나옵니다 import pandas as pd train = pd.read_csv('churn_train.csv') test = pd.read_csv('churn_test.csv') y=train.pop('TotalCharges') # print(test.head()) # print(train.shape, test.shape) # print(y.describe()) total = pd.concat([train, test],axis=0) # print (total.shape) total = total.drop('customerID',axis=1) # print (total.shape) total=pd.get_dummies(total) # print (total.shape) # print(total.head()) train = total[0:4116] test = total[4116:] # print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024) # print(X_train.head()) # print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor() rf.fit(X_train, y_train) pred1=rf.predict(X_val) from sklearn.metrics import mean_squared_error print((mean_squared_error(pred1, y_val))**(1/2)) pred= rf.predict(test) result=pd.DataFrame=({ 'pred':pred }) result.to_csv('result.csv', index=False)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 -> 1유형 -> 2번 이처럼 풀이해도 될까요?
import pandas as pd df = pd.read_csv('data6-1-2.csv') # print(df.head()) df['전교생'] = df['1학년'] + df['2학년'] + df['3학년'] + df['4학년'] + df['5학년'] + df['6학년'] df['교사당학생수'] = df['전교생'] // df['교사수'] print(df.sort_values('교사당학생수', ascending=False)) # 19 답은 당연히 동일하게 나오는데요! iloc, loc 사용 않고 별도 컬럼 추가해주면서 계산하는 방식도 또 하나의 풀이 과정으로 볼 수 있겠죠?살짝 하드코딩 느낌이 나서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의 문제 1 (13강 질문)
3번 문제 코딩을#f3의 결측치 0, silver는 1, gold는 2, vip는 3으로 반환 후 총 합을 정수형으로 출력 df.head() df=df['f3'].fillna(0) df.replace('silver',1).replace('gold',2).replace('vip',3)이런 방법으로 풀어나갈 수 있는 방법은 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩과 레이블인코딩
작업형 2에서 카테고리가 많으면 레이블인코딩을 진행하고, 적으면 원핫인코딩을 한다고 이해해도될까요? 그리고 레이블 인코딩은 범주형데이터만 사용하는데, 원핫 인코딩은 그러지 않는 이유가 궁금합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
길벗 책으로 공부 중인데 데이터 불러오는 방법
인강은 자료 다운로드 받아서 드래그앤드롭하면 되는 거 알겠는데책으로 할 때는 자료 어떻게 불러오나요?작업형1 연습문제 풀고 있는데 복붙하면 자료 안 불러져와서 에러 뜨네요빠른 답변 해주세요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 불러오는 방법
구글 코랩에서 사용 중인데, 파일 업로드 어떻게 하나요?코드에import pandas as pd df = pd.read_csv("type1_data1.csv") df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part1/ch3/type1_data1.csv")이렇게 붙여넣기 했는데 이렇게 하는게아닌가요? 드래그앤드롭 하라고 하셨는데 어디다 드래그앤드롭 하라는 건가요?ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 안 불러져오는데 어떻게 해야하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요데이터 안 불러져오는데 어떻게 해야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형 6-2 작업형 질문
전체 학생수의 계산 값이 너무 크게 나옵니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터프레임 만드는데서 오류가 납니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세여기서 계속 오류가 납니다그리고 궁금한게 있는데요 데이터가 세개일때는 train으로 합쳐줘야해서 concat해서 df를 만든것이 train 데이터가 되는거 아닌가요?df=pd.concat([X_train,y_train['Reached.on.Time_Y.N']],axis=1) df위에 코드처럼 df를 만들면 저게 train으로 해서 뒤에 쓰여야 할것 같은데 뒤에라벨인코딩 할 때 왜df[col]=le.fit_transform(X_train[col])가 아니고 X_train[col]=le.fit_transform(X_train[col])l])이렇게 되는지 잘 모르겠어요... df는 그럼 concat으로 생성하고 뒤에 안쓰이는거 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경에 csv파일 생성 예시 코드가 주어지나요?
시험 환경에 csv파일 생성 예시 코드가 주어지나요?케글 모의고사 보니까 주어져 있어서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6-3문제 질문입니다.
import pandas as pd import numpy as np df = pd.read_csv('data6-1-3.csv') print(df.shape) # print(df) df['sum'] = df.iloc[:,1:7].sum(axis=1) # print(df.head()) df['year'] = df['날짜'].str[:4] # 2022 12 # 2020 11 # 2021 9 # 2024 9 # 2023 9 df1 = df.groupby('year')['sum'].mean() # print(df1) df1 문제풀이를 보니까 groupby이후에 그냥 12로 나누셨던데 년도자료마다 갯수가 달라서 12로 나누면 안되는건아닌지 궁금합니다 아래는 선생님 풀이입니다. # 3. 연도별 그룹핑(총범죄).sum() result = df.groupby("연도")['총범죄'].sum()/12
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
벼락치기 3유형
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시간이 너무 없어서, 3유형은 선택과 집중해서 보고 가려고 합니다.from statsmodel.formula.api import olsmodel = ols('키 ~ 몸무게' , data=df).fit()print(model.summary()) newdata = pd.DataFrame({'몸무게':[50]})pred = model.get_prediction(newdata)pred.summary_frame(alpha=0.05) 이 부분 말고도 볼만한 부분이 따로 볼만한 부분이 있을까요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 값
print(train.shape, test.shape) train.head(1) test.head(1) train.info() test.info() train.isnull().sum() test.isnull().sum() train.describe() test.describe() target = train.pop('Segmentation') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val)다음과 같이 작업형 2 기출 4회를 한 셀에 풀고 있는데 target 구문을 겟더미 실행하기 전에 타이핑했습니다. 이후 모델 학습 및 평가를 실행하려고 하니 다음과 같은 에러가 뜹니다. 에러 코드가 복사가 안됩니다. 이 점 양해바랍니다. ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train과 test 컬럼수가 안맞을때
인코딩 한 다음 train과 test 컬럼수가 안맞을때test컬럼이 많을경우train = train.reindex(coulumns = test.columns, fill_values =) 이렇게 해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-6 검증데이터 분리에서 갑분y.. 뭘까요?
안녕하세요3-6 회귀- 검정데이터 분리에from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('charges'), axis=1),하고y값으로 chages를 넣어주면 된다고 하셨는데 이 부분이 이해가 안가요.train, test하다가 갑자기 y값이 나온 것과 train.drop('charges')에서 charges를 제외하는데 y값에 charges를 넣는게 이해안됩니다...