묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
소수점 질문
만약 각종 값을 구할 때 소수점이 필요하다면 그냥 model.params로 한번에 확인하고 수기로 제출해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 수치
검증 데이터와 평가지표를 통해 평가했을 때, 평균적으로 어느정도가 제출하기 이상적인 수치인지 질문 드려도 될까요..?? 질문이 이상하긴한데.. 궁금하네요 영상에서 0.6정도도 선생님께서 강의 흐름상 그냥 제출하신 것 같은데 그정도도 마음 놓고 제출해도 될지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제, 문제에서 데이타가 링크로 적혀있어요. 어떻게 불러와야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 모의문제1번부터...data:members.csv 를 사용해서 문제를 풀게 되어 있는데코드에 이렇게 링크로 적혀있는데 어떻게 불러오나요?? import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저는 원핫 인코딩으로 진행했는데 이런 코드로 짜보니 결국에는 마지막 에러가..
결국엔 마지막 에러가 '주구매상품_소형가전'이라고 뜨네요제 코드에서 어디를 수정해야할까요?import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#분류문제(랜포RandomForestClassifier)#print(train.shape),print(test.shape)#결측치 이상치 확인train['환불금액']=train['환불금액'].fillna(0)test['환불금액']=test['환불금액'].fillna(0)train=train.drop('회원ID',axis=1)test=test.drop('회원ID',axis=1)#타겟값 지정target=train.pop('성별')#원핫인코딩train=pd.get_dummies(train)test=pd.get_dummies(test)#데이터분할하기from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)#모델함수 불러와서 에측하기from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scoremodel=RandomForestClassifier(n_estimators=1000,max_depth=7,random_state=2022)model.fit(X_tr, y_tr)pred = model.predict_proba(X_val)#성능평가 roc_aucfrom sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val,pred[:,1]))#실제 test로 예측값구하기pred = model.predict_proba(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 채우는건 0혹은 중앙값? 어떤걸 추천하시는지요?
현재 구름환경 들어와서 2유형 풀어보고있는데요혹시 결측치값은 어떤걸로 채우는걸 가장 추천하실런지요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님~ 답변부탁드립니다 ㅠ저는 원핫인코딩으로 했더니 평가가 850대로 나오는데요
그리고 저는 원핫인코딩으로 했는데 mse가 850점대로 나오네요.. 이러면 안되는거지요? import pandas as pd train=pd.read_csv("churn_train.csv") test=pd.read_csv("churn_test.csv") #데이터전처리 train=train.drop('customerID',axis=1) test=test.drop('customerID',axis=1) #타겟값 설정 target=train.pop("TotalCharges") #원핫인코딩 train=pd.get_dummies(train) test=pd.get_dummies(test) test.head(5) #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val= train_test_split(train, target, test_size= 0.2, random_state=100) #랜포 불러와서 모델링하기 from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor(n_estimators=500,max_depth=5,random_state=2022) model.fit(X_tr, y_tr) pred = model.predict(X_val) #성능평가MAE(Mean Absolute Error) from sklearn.metrics import mean_absolute_error mean_absolute_error(y_val,pred) pred = model.predict(test) result=pd.DataFrame({"pred" : pred}) result.to_csv("111.csv",index=False)
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
실습 code 강의자료 문의
친절한 설명과 함께 강의자료를 공유해 주셔서 감사합니다.그런데 현재 강의자료로 올려주신 pdf 외에, 실습에 사용하신 code도 공유해주실 수 있을까요~?수업 중, 내용흐름을 이해하는데 코드를 별도로 볼 수 있다면 큰 도움이 될 것 같습니다.현재는 실습 중 사용된 변수가 어디에서 정의되었는지, 다시 확인하려면 강의를 돌려보면서 확인해야하는 애로사항이 있습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 질문 있습니다.
y_train을 Replace로 train = xtrain.pop('income').to_frame('income')y_train = y_train['income'].replace('>50K', 1).replace('<=50K', 0) 인코딩을 했는데요화면에서는 '>50K', '<=50K' 각각 나타내어 지고 있습니다. [1,0]으로 보여져야 하는거 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분할 질문 드립니다.
작업형2 New 내용에서 검증 데이터 분할 시 화면에는 train, y_train, test로 데이터 명이 되어 있는데요.각각 인코딩이 완료된 데이터로 분할하는거 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 이상치 제거 부분
영상보다가 처음에 결측치 제거 부분에서 실수로 "value"부분에서 따옴표를 넣어 test의 age컬럼이 object형식으로 저장되었습니다그래서 이상치 파트에서 문자랑 정수가 섞여 조건문 작성시에 오류가 발생하였는데다시 원래대로 결측치 있는 부분을 fillna(vlaue)로 저장시키는 방법은 없나요?test파일을 test = test_backup.copy() 이렇게 해놔야 하나요?value = int(train["age"].mean()) print("평균값: ", value) train["age"] = train["age"].fillna(value) test["age"] = test["age"].fillna("value")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_oh, test_oh 의미
train와 test의 데이터가 15개로 동일하지만 train_oh와 test_oh의 데이터는 왜 다른지 궁금합니다..제가 정확히 train_oh와 test_oh는 각각 train과 test의 문자데이터를 수치형 데이터로 변환하는것으로 이해했는데 그렇다면 train과 train_oh의 데이터 갯수는 동일해야 하는것이 아닌 의문이 들어 질문남깁니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출1 작업형2 코드 질문
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#1 문제정의 #분류 (ROC_AUC ), TARGET = '성별' 제출할 데이터 2482개 # 사용자 코딩#2EDA print(train.shape, test.shape) #제출할 데이터 2482개print(train.info()) print(train.isnull().sum())print(test.isnull().sum()) #환불금액 결측치 2295개 #3 데이터 전처리 #결측치 처리 aa = train['환불금액'].mode()[0] print(aa)train['환불금액'] = train['환불금액'].fillna(aa)test['환불금액'] = test['환불금액'].fillna(aa)print(train.isnull().sum())print(test.isnull().sum())target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)test = ★test.reindex(columns=train.columns, fill_value=0)#검증데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size =0.2, random_state=0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)#학습 및 예측from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc = roc_auc_score(y_val, pred[:,1])print(roc_auc)pred = rf.predict_proba(test)submit = pd.DataFrame({'pred':pred[:,1]})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv').head(3))print(pd.read_csv('result.csv').shape)# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False) 기출1회작업형2번 문제 중 결측치를 최빈값으로 채운 뒤 코드 작성하였지만 오류가 떴습니다. 검색결과 train과 test의 컬럼 개수가 다르다고 합니다. Q. ★test.reindex(columns=train.columns, fill_value=0) 해당 코드를 추가하면 정상적으로 돌아가는데 해당 코드를 추가해도 답에 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 평가지표 관련해서 질문드립니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요다름이 아니라 강의에서 회귀 중 MAPE, RMSE, RMSLE 등은 sklearn.metrics에 없다고 따로 외워야 한다고 하셨는데요 사이킷런 홈페이지 들어가봤는데 다 적혀있기는 해서, 혹시 이제는 metrics 통해 그대로 사용하면 되는 게 맞는지 여쭙습니다!제가 확인한 사이트도 링크 첨부하였습니다. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 2-1문제
예를 들어, Feature4가 있다고 가정하고 이것이 ERP와의 상관관계가 -0.999라고 한다면 답은 Feautre1인가요? Feature4인가요?(즉, 상관관계가 높은 값을 고를 때는 절대값을 취해서 고려하나요?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 1-2문제 코드가 같은데 결과값이 다릅니다 ㅠ
아래와 같이 똑같이 입력했는데 결과값이 아예 다른데 무엇이 문제일까요?ㅠㅠimport pandas as pd df=pd.read_csv("clam.csv") df #데이터분할에서 만들기 train = df.iloc[:210, : ] test=df.iloc[210: , : ] #로지스틱 회귀모델 만들기 #잔차이탈도는 로짓에서 볼수없고 glm에서 볼수있다. from statsmodels.formula.api import glm import statsmodels.api as sm model = glm("gender~ age + length + diameter + height + weight", data=train, familiy=sm.families.Binomial()).fit() print(model.summary())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주가 다른 컬럼의 스케일링 방법 질문
스케일링도 데이터 프레임별 범위에 따라 fit() 할 프레임을 구분해줘야할까요?train['a'] 컬럼이 1~100 범위이고test['a'] 컬럼은 1~200 범위라면B먼저 fit하고 A는 transform 을 해줘야하나요?아니면 각각 fit_transform 해야할까요? 범주형 컬럼 인코딩의 경우를 생각해보니 문득 위와 같은 상황에서 어떻게 해야하는지 궁금하네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.dropna(subset = 'views') VS df.dropna(subset = ['views'])
df.dropna(subset = 'views') VS df.dropna(subset = ['views'])대괄호 쓴것과 안쓴것에 큰 차이가 있나요? 결측치가 들어있는 행은 똑같이 사라지는 것 같습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
설정 문의!
사진과 같이 corr 쓰고 ( 괄호를 쓰면 저렇게 함수 설명창이 나옵니다.. 글자를 가리게 되므로 끄고 싶은데, 설정에서 체크박스 다 해제했는데도 뜨네요..ㅠ 어떻게 없애야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 문제3
# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") #1 #print(df.shape) df = df.dropna(subset=['views']) #print(df.shape) #2 df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver',1) df['f3'] = df['f3'].replace('gold',2) df['f3'] = df['f3'].replace('vip',3) print(int(df['f3'].sum()))이렇게 작성 후 실행하면 결과가 밑에 처럼 나옵니다.133 <ipython-input-57-2ecc61ea0b50>:14: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)` df['f3'] = df['f3'].replace('vip',3)문제 3번에서 두번째 점과 관련된 질문입니다.강의에서 알려주신 넘파이를 꼭 사용해야 하나요?이전 강의에서 넘파이에 대한 내용이 따로 언급이 없으셔서 혼자 문제 풀어볼 때 넘파이 사용하지 않고 풀어본 것인데.. 깔끔하게 133만 나오지 않아서요ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 rmse
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 코랩말고 이제 시험환경에서도 rmse 지원 되는건가요?