묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 concat 사용 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2 예시문제는 train과 test의 상품의 종류가 달라 원핫인코딩 시 컬럼의 수가 달라 머신러닝에서 에러가 발생하게 된다고 해서 train.pop을 하고 합쳐서 인코딩 후 다시 분리 해서 진행해야 한다고 하셨는데기본형만(하나의템플릿만)외워가려는데 문제없는 자료에서도 concat을 쓰고 진행해도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제1번 질문입니다
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.sort_values('views',ascending=False).head(10) df.iloc[:10,-1]=9690.0 cond = df['age']>=80 print(df[cond]['views'].mean())이렇게 코딩을 하면 답이 다른 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE관련 질문
시나공 책 작업형2 모의고사에는 from sklearn.metrics import mean_squared_error result = mean_squared_error(y_val, pred,squared = False) print("RMSE :" , result)으로 나오고 선생님 기출 강의를 보면 from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5으로 하라고 설명해주시는데 어떤것이 정답인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 질문
강의자료에y_train = train.pop("price") 이렇게 되어있던데 target = train.pop("price") 해도 같은걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 후
1. <class 'pandas.core.frame.DataFrame'>RangeIndex: 6665 entries, 0 to 6664Data columns (total 30 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 6665 non-null int64 1 Age 6665 non-null int64 2 Work_Experience 6665 non-null float64 3 Family_Size 6665 non-null float64 4 Segmentation 6665 non-null int64 5 Gender_Female 6665 non-null bool 6 Gender_Male 6665 non-null bool 7 Ever_Married_No 6665 non-null bool 8 Ever_Married_Yes 6665 non-null bool 9 Graduated_No 6665 non-null bool 10 Graduated_Yes 6665 non-null bool 11 Profession_Artist 6665 non-null bool 12 Profession_Doctor 6665 non-null bool 13 Profession_Engineer 6665 non-null bool 14 Profession_Entertainment 6665 non-null bool 15 Profession_Executive 6665 non-null bool 16 Profession_Healthcare 6665 non-null bool 17 Profession_Homemaker 6665 non-null bool 18 Profession_Lawyer 6665 non-null bool 19 Profession_Marketing 6665 non-null bool 20 Spending_Score_Average 6665 non-null bool 21 Spending_Score_High 6665 non-null bool 22 Spending_Score_Low 6665 non-null bool 23 Var_1_Cat_1 6665 non-null bool 24 Var_1_Cat_2 6665 non-null bool 25 Var_1_Cat_3 6665 non-null bool 26 Var_1_Cat_4 6665 non-null bool 27 Var_1_Cat_5 6665 non-null bool 28 Var_1_Cat_6 6665 non-null bool 29 Var_1_Cat_7 6665 non-null bool dtypes: bool(25), float64(2), int64(3)원핫인코딩을 실행했는데저는 왜 bool값으로 나오죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리
전처리할때target=train.pop('Segmemtation')은train에만 있으니까 빼준다?라는건 알겠는데tartget 값만 트레인에있느거 빼주는 것 같은데 test_ID=test.pop['ID']이건 꼭 해줘야하나요? 다른 문제들 경우 그냥 트레인에 있는 타겟값만 pop처리 이거 하나만 하는 것 같아서요.. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출문제 작업형1
1-3. date_added가 2018년 1월 이면서 country가 United Kingdom 단독 제작인 데이터의 갯수에서제가 df['date_added']=pd.to_datetime(df['date_added']) cond1 = df['date_added'].dt.year ==2018 cond2 = df['date_added'].dt.month ==1 cond3 = df['country']=='United Kindom' print(len(df[cond1&cond2&cond3])) 했는데 저는 0이 나옵니다ㅠ 답은 6이 나와야하는 것 같은데 뭐가 잘못된 것일까요 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print
print 관련 질문드려요보통제일 처음에 df로 해서 데이터 볼때print(df) 안하고 그냥 df만 해도 똑같은건가요?df.info() 이런것들도 이것만해도되는건지print(df.info())를 해야하는건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 값 오차
안녕하세요 선생님, 800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요?import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") cols = test.select_dtypes('object').columns # ## 전처리1. 컬럼삭제 # train = train.drop(cols, axis=1) # test = test.drop(cols, axis=1) ## 전처리2. 레이블인코딩 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 검증-테스트 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split( train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1 ) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=1) model.fit(X_tr, y_tr) pred = model.predict(X_val) # 평가 from sklearn.metrics import root_mean_squared_error print(root_mean_squared_error(y_val, pred)) ## 컬럼삭제 : 1135.0196199 ## 레이블인코딩: 1136.88945667
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 물어보기
작업형1 모의고사 풀어보기 강의에서 코드 제출 버튼을 누르셨지만 실제로는 답안에 출력값만 적는 것이 맞는 건가요? (예를 틀어 첫 번째 문제는 답안에 1115만 쓰면 되는 것)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수생각안날떄
dir help 쓰면 된다는데 이게무슨말인가요?? 지금 74강정도인데 강의서는 이런거 못들어서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 1-3 질문
문제 1-3에서 '문제1-2에서 적합한 회귀모형을 이용하여 test데이터에서 design값을 산출한 후...라고 되어있습니다.model = ols("design ~ c1+c2+c4", data=test).fit() 문제 1-2에서 이렇게 적합된 모델을 먼저 불러오고 test['pred_design']=model.predict(test) 테스트 예측값 산출 식 작성하면 안되나요~?문제에서 1-2에서 적합한 모형 이용이라는 문구가 있어서 헷갈립니다~! ㅠㅠ 이렇게 풀었을때는 8.17이 정답으로 나옵니당..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩과 시험응시환경의 차이점 문의드려요
안녕하세요 강사님! 좋은 강의에 감사드립니다.다름이 아니라 코랩에서는가끔 df로 받는 연산함수같은 경우,다시 한번 눌렀을 때 결과가 계속 달라지는 경우가 있더라구요. (예시) df = len(df) * 0.7 등 하면 점점 df가 줄어든다던지.. 그래서 코랩에서는 다시 클릭하기보다, 다음 +코드로 넘어가서 작성을 하는데요. 시험 환경에서는 무조건 첫줄부터 새로 시작인가요? 중간 과정 확인하다가 연산이 두번 되어서 값이 바뀔까봐 염려되네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출문제(작업형2) 스케일링 질문드립니다.
안녕하세요 강사님! 좋은 강의에 감사드립니다.다름이 아니라, 3회 기출문제(작업형2)에서아래와 같이 robust scaler를 사용하실 때train과 test를 각각 스케일링하는 거랑data = pd.concat[train, test]로 합치는 것과 실전에서 영향이 없을까요?train 범위 표본을 가지고 fit 한 경우와 concat한 큰 data를 가지고 fit 한 경우가 스케일링 결과가 다른 경우가 있을까요? n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅이시 단기준비자 또는 복습용 코랩 링크는 따로 안올려주시나요?
빅이시 단기준비자 또는 복습용 코랩 링크는 따로 안올려주시나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 사용법
캐글에 올려주신 연습문제를 풀어보려고 합니다. 시험처럼 통으로 된 부분을 새로 풀어보고 싶은데 가려지지도 않고 코랩으로 데이터를 불러오려고 해도 불러지지 않네요. 방법이 있을까요?? 미리 감사드립니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 작업형3 기출문제 질문
9회 작업형 3유형 1번문제에서 train, test로 데이터를 분리시키는 이유가 무엇인가요? 어떤 경우에 나눠서 진행해야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID 삭제는 굳이 왜 하는걸까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train = train.drop("ID", axis=1) train.head(1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
a, df
강사님은 a로 작업하셨는데 df로 작업해도 문제가 없는건가요? df로 했을 때 답이 나오긴 했는데 실제 시험장에서도 문제가 없을지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2 질문
4회 기출 작업형2에서 해설처럼# test데이터 ID 복사 test_ID = test.pop('ID') test_IDtest_ID를 따로 분리하지 않고 아래처럼 test['ID'] 이렇게 작성해도 같은 결과값이 나올까요?pred = model.predict(test) result = pd.DataFrame({'ID' : test['ID'] , 'Segmentation' : pred }) result.to_csv('result.csv', index = False) print(pd.read_csv('result.csv'))