묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 pop 함수 사용 환경
안녕하세요. 공부하던 중에 궁금한 게 있어서 글 남깁니다! 작업형2 모의 문제를 풀 때랑 기출 10회 풀 때 사용하는 pop함수가 헷갈리는 게 있어 여쭤봅니다.모의 문제에서는, 예를 들어 5-2에서는 csv 파일 생성 예시가 다음과 같아서 id는 train에서 삭제, test에서는 pop으로 저장해두고 타겟인 price는 검증 데이터 분리 과정에서 삭제하는 것으로 알고 있습니다.id,price 34323697,238 29927138,183 120362,234그런데 기출 10회 풀이를 보면 타겟인 pred(=총가스사용량)에 대하여 pop 함수를 사용하는 것으로 나오는데요. 타겟 값을 pop에 넣는 경우도 있고 안 넣는 경우도 있는 거 같아서 해야만 하는 과정인지 궁금합니다. 혹시 pop을 쓰면 랜덤포레스트 식에서 drop을 안 해줘도 되고, 안 쓰면 drop을 해줘야 하는 거랑 관련된 걸까요?target = train.pop('총가스사용량')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
중간에 rmse, f1_score 등 평가지표 구하는거 어떻게 채점하는걸까요~?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요실제로 제출은 csv 파일로 하는데, 그 중간에 rmse 등 평가지표 구하잖아요이거 뭐 답안 제출하는 곳이 있는건가요? 아니면 코딩한걸 전부 다 보고 확인하는걸까요??아니면 그냥 평가지표 점수로 단순히 모델 선택할떄 쓰는 기준인건가요? 어리석은 질문같지만.. 평가지표를 계속 구하고있는데 실제로는 csv 로 제출하는데 왜 구하는걸까하는..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
명령어 암기 정리된내용이 있을까요?
안녕하세요, 다른 강의와 빅이시 준비 보고 있는데,아무래도 명령어를 외우는 부분에 대해서 부담이 많이 되더라고요각 과목에서 암기해야 한다고 알려주신 명령어들에 대해서 정리한 자료가 있으면 좋다고 생각하는데혹시 그런 강의자료가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 질문
1. aixs=1 이 헷갈립니다 열방향 계산일때 axis=1을 넣는다고 하셨는데,학교명 별로 1학년2학년3학년 4학년5학년6학년 쭉 다 더하는건 ---->가로 방향이면 각 행을 더하는 것 아닌가요?2. 가장 많은 전체/교사로 내림차순 정렬했을때 그 표만 읽고 바로 교사수 19로 답 적어도되나요?아니면 print뭐를 사용해서 19인걸 코드로 나타내야하나요? 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 25번 문제 dt.days
안녕하세요. 연습문제 25번 문제에서 dt 연산자 활용하여 일 단위를 계산하려고 할 때, 원래 dt.day 아닌가요? dt.day로 코딩하려니 오류가 납니다.구글에 아무리 서치해봐도 dt.day 밖에 검색이 되지 않는데, 버전이 업데이트가 되어 바뀐걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 concat 사용 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2 예시문제는 train과 test의 상품의 종류가 달라 원핫인코딩 시 컬럼의 수가 달라 머신러닝에서 에러가 발생하게 된다고 해서 train.pop을 하고 합쳐서 인코딩 후 다시 분리 해서 진행해야 한다고 하셨는데기본형만(하나의템플릿만)외워가려는데 문제없는 자료에서도 concat을 쓰고 진행해도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제1번 질문입니다
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.sort_values('views',ascending=False).head(10) df.iloc[:10,-1]=9690.0 cond = df['age']>=80 print(df[cond]['views'].mean())이렇게 코딩을 하면 답이 다른 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE관련 질문
시나공 책 작업형2 모의고사에는 from sklearn.metrics import mean_squared_error result = mean_squared_error(y_val, pred,squared = False) print("RMSE :" , result)으로 나오고 선생님 기출 강의를 보면 from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5으로 하라고 설명해주시는데 어떤것이 정답인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 질문
강의자료에y_train = train.pop("price") 이렇게 되어있던데 target = train.pop("price") 해도 같은걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 후
1. <class 'pandas.core.frame.DataFrame'>RangeIndex: 6665 entries, 0 to 6664Data columns (total 30 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 6665 non-null int64 1 Age 6665 non-null int64 2 Work_Experience 6665 non-null float64 3 Family_Size 6665 non-null float64 4 Segmentation 6665 non-null int64 5 Gender_Female 6665 non-null bool 6 Gender_Male 6665 non-null bool 7 Ever_Married_No 6665 non-null bool 8 Ever_Married_Yes 6665 non-null bool 9 Graduated_No 6665 non-null bool 10 Graduated_Yes 6665 non-null bool 11 Profession_Artist 6665 non-null bool 12 Profession_Doctor 6665 non-null bool 13 Profession_Engineer 6665 non-null bool 14 Profession_Entertainment 6665 non-null bool 15 Profession_Executive 6665 non-null bool 16 Profession_Healthcare 6665 non-null bool 17 Profession_Homemaker 6665 non-null bool 18 Profession_Lawyer 6665 non-null bool 19 Profession_Marketing 6665 non-null bool 20 Spending_Score_Average 6665 non-null bool 21 Spending_Score_High 6665 non-null bool 22 Spending_Score_Low 6665 non-null bool 23 Var_1_Cat_1 6665 non-null bool 24 Var_1_Cat_2 6665 non-null bool 25 Var_1_Cat_3 6665 non-null bool 26 Var_1_Cat_4 6665 non-null bool 27 Var_1_Cat_5 6665 non-null bool 28 Var_1_Cat_6 6665 non-null bool 29 Var_1_Cat_7 6665 non-null bool dtypes: bool(25), float64(2), int64(3)원핫인코딩을 실행했는데저는 왜 bool값으로 나오죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리
전처리할때target=train.pop('Segmemtation')은train에만 있으니까 빼준다?라는건 알겠는데tartget 값만 트레인에있느거 빼주는 것 같은데 test_ID=test.pop['ID']이건 꼭 해줘야하나요? 다른 문제들 경우 그냥 트레인에 있는 타겟값만 pop처리 이거 하나만 하는 것 같아서요.. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출문제 작업형1
1-3. date_added가 2018년 1월 이면서 country가 United Kingdom 단독 제작인 데이터의 갯수에서제가 df['date_added']=pd.to_datetime(df['date_added']) cond1 = df['date_added'].dt.year ==2018 cond2 = df['date_added'].dt.month ==1 cond3 = df['country']=='United Kindom' print(len(df[cond1&cond2&cond3])) 했는데 저는 0이 나옵니다ㅠ 답은 6이 나와야하는 것 같은데 뭐가 잘못된 것일까요 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print
print 관련 질문드려요보통제일 처음에 df로 해서 데이터 볼때print(df) 안하고 그냥 df만 해도 똑같은건가요?df.info() 이런것들도 이것만해도되는건지print(df.info())를 해야하는건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 값 오차
안녕하세요 선생님, 800대로 나와야 될 RMSE 값이 1100대로 나오는데, 차이가 좀 커서 문제가 있는것 같아요. 혹시 제 코드좀 봐주실 수 있을까요?import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") cols = test.select_dtypes('object').columns # ## 전처리1. 컬럼삭제 # train = train.drop(cols, axis=1) # test = test.drop(cols, axis=1) ## 전처리2. 레이블인코딩 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 검증-테스트 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split( train.drop('총구매액', axis=1), train['총구매액'], test_size=0.2, random_state=1 ) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=1) model.fit(X_tr, y_tr) pred = model.predict(X_val) # 평가 from sklearn.metrics import root_mean_squared_error print(root_mean_squared_error(y_val, pred)) ## 컬럼삭제 : 1135.0196199 ## 레이블인코딩: 1136.88945667
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 물어보기
작업형1 모의고사 풀어보기 강의에서 코드 제출 버튼을 누르셨지만 실제로는 답안에 출력값만 적는 것이 맞는 건가요? (예를 틀어 첫 번째 문제는 답안에 1115만 쓰면 되는 것)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수생각안날떄
dir help 쓰면 된다는데 이게무슨말인가요?? 지금 74강정도인데 강의서는 이런거 못들어서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 1-3 질문
문제 1-3에서 '문제1-2에서 적합한 회귀모형을 이용하여 test데이터에서 design값을 산출한 후...라고 되어있습니다.model = ols("design ~ c1+c2+c4", data=test).fit() 문제 1-2에서 이렇게 적합된 모델을 먼저 불러오고 test['pred_design']=model.predict(test) 테스트 예측값 산출 식 작성하면 안되나요~?문제에서 1-2에서 적합한 모형 이용이라는 문구가 있어서 헷갈립니다~! ㅠㅠ 이렇게 풀었을때는 8.17이 정답으로 나옵니당..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩과 시험응시환경의 차이점 문의드려요
안녕하세요 강사님! 좋은 강의에 감사드립니다.다름이 아니라 코랩에서는가끔 df로 받는 연산함수같은 경우,다시 한번 눌렀을 때 결과가 계속 달라지는 경우가 있더라구요. (예시) df = len(df) * 0.7 등 하면 점점 df가 줄어든다던지.. 그래서 코랩에서는 다시 클릭하기보다, 다음 +코드로 넘어가서 작성을 하는데요. 시험 환경에서는 무조건 첫줄부터 새로 시작인가요? 중간 과정 확인하다가 연산이 두번 되어서 값이 바뀔까봐 염려되네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출문제(작업형2) 스케일링 질문드립니다.
안녕하세요 강사님! 좋은 강의에 감사드립니다.다름이 아니라, 3회 기출문제(작업형2)에서아래와 같이 robust scaler를 사용하실 때train과 test를 각각 스케일링하는 거랑data = pd.concat[train, test]로 합치는 것과 실전에서 영향이 없을까요?train 범위 표본을 가지고 fit 한 경우와 concat한 큰 data를 가지고 fit 한 경우가 스케일링 결과가 다른 경우가 있을까요? n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅이시 단기준비자 또는 복습용 코랩 링크는 따로 안올려주시나요?
빅이시 단기준비자 또는 복습용 코랩 링크는 따로 안올려주시나요?