묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정말 냉정한 시각 부탁드립니다.
1유형 : 내주신 문제39개중에 20번대 후반 이후로 잘 못푸는 상태(datetime부분이 약함)2유형 : 40점 만점 가정3유형 : 분산분석 제외 summary에서 찾는것 모두 가능 (카이제곱, 독립성, logit, ols) 이 상태인데 남은 4일동안 1유형을 보강할지,분산분석을 알아갈지 고민인데 어떻게 생각하시나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 연습문제 단일 표본 검정 질문
제가 시험환경에서 돌려보았습니다#1 표본데이터의 평균을 구하시오Caffeine(mg)print(df['Caffeine(mg)'].mean())#2 샤피로 검정 0.9322031137746971print(stats.shapiro(df['Caffeine(mg)']))#단일표본t검정의 검정통계량과-5.501737036221897 pvalue print(stats.ttest_1samp(df['Caffeine(mg)'],95,alternative='less'))samp=stats.ttest_1samp(df['Caffeine(mg)'],95,alternative='less')print(samp.pvalue)print(format(5.8686553916715e-06,'.10f')) 결과ShapiroResult(statistic=0.9826578166170536, pvalue=0.9322031137746971)TtestResult(statistic=-5.501737036221897, pvalue=5.8686553916715e-06, df=24)5.8686553916715e-060.0000058687 ####질문 만약 문제에서 p_value값을 물어보았고 반올림하여라 그런말 없이 물어본다면 지수표기법을 바꿔서 적어야할텐데. 일반표기법을 어디까지 적어야할지요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형
eda 진행하여 object인 컬럼들 모두 라벨인코딩 진행한 후, X_train=X_train.drop(columns=['ID']) X_testID = X_test.pop('ID')from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022) model.fit(X_train,y_train) pred = model.predict_prova(X_test)진행하였는데 모델 학습 돌리는 과정중에 계속 런타임이 빙글빙글 돌아가면서 학습이 되지않습니다 왜 그런걸까요..? ㅠㅠㅠ
-
미해결비전공자를 위한 가장 쉬운 데이터분석 입문
파이썬 아나콘다 설치 링크 오류
파이썬 아나콘다 설치 링크로 들어가면 권한이 없거나 존재하지 않는 페이지입니다. 라고 나옵니다.강의 자료 말고, 아나콘다 설치 링크 및 방법 공유해 주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred[:,1]
작업형 2에서 pred를 그냥 쓰는게 아니라 pred[:,1]를 쓸때 이해가 안가서 그냥 이대로 암기했었습니다.이걸 쓰는 이유를 정확히 알고 싶은데roc_auc는 양수의 확률 값을 예측한걸 평가하는 것이고,나머지 분류지표는 0또는 1을 예측한걸 평가하는 지표이기 때문에roc_auc경우에만 양수인 컬럼을 따로 지정하기위해 pred[:,1]를 사용하는 것이 맞을까요?그렇다면 roc_auc일때만 pred[:,1]이렇게 따로 지정해주면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번
cond = df['age']>=80 print(df['views'][cond].mean())이렇게 작성해도 크게 문제가 없나요? views와 cond 자리 바꿈!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_id
test_id = test.pop('id')이렇게 따로 빼두는 이유가 저장할때 id컬럼을 생성하기 위해서라면,굳이 pop함수로 빼지 않고 저장할때 직접적으로pd.DataFarme({'id':test['id'], 'y_pred':pred}) 이렇게 test['id']로 적으면 안되는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 코드 실행 에러
안녕하세요. 섹션5-27 강의 수강 중 입니다. 인코딩 파트의 가장 윗 부분 코드와 관련하여y_train = train.pop("income")단독 실행 시 KeyError 에러가 발생합니다.다만, 상단의 모두 실행으로 실행 시 정상 작동 됩니다.에러 메시지에서도 '위의 예외는 다음 예외의 직접적인 원인이었습니다.' 라고만 표시되어 어떻게 조치를 취해야 하는지 감이 잘 오지 않습니다ㅠㅠ + 상단의 데이터 불러오기에서 데이터를 확인했을 때 income 컬럼이 있는 것 확인했습니다. + 바로 아래의 원핫인코딩 코드에 커서를 놓고 런타임-이전 셀 실행 으로 실행하니까 이때는 또 정상 작동을 하네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 런타임
랜덤포레스트 사용에서 model.fit으로 학습시키는 코드를 실행시키면 굉장히 오래 돌아가는데 왜그러는걸까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 인코딩 후 스케일링 관련
2유형에서 원핫인코딩이나 레이블 인코딩 후에 민맥스나 스탠다드 스켈링을 하는데요스케일링할 때 범주형 데이터를 제외하는 작업을 하지 않고 그냥 통으로 train과 test 스케일링을 하고 있거든요. 혼자 공부하니까 제대로 하고 있는지 의문이 되네요그냥 통으로 스케일링 해도 결과값에 영향이 없나요?from sklearn.preprocessing import MinMaxScaler, StandardScalersc = MinMaxScaler()train = ms.fit_transform(train)test = ms.transform(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값 > 0.5 관련
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님, 아래 두 코드 중 하나를 쓰면 될까요?두 코드는 똑같은 의미인가요?해당 문제로 적용했을 때, 같은 값이 나오긴 합니다만,,현재 강의에서는 첫번째 코드[작업형3] 9. 로지스틱 회귀에는 두번째 두 줄짜리 코드로 적혀있어서둘 중 하나로 외워두면 될지 궁금합니다.(임계값이 따로 나오지않으면 >0.5 를 적용하는것으로 전제하에..)pred = model.predict(test) > 0.5pred = model.predict(test) pred = (pred > 0.5).astype(int)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시 문제 작업형2번
이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형3
이렇게 작성되어 있을 때는 다중 선형 회귀 모델의 독립 변수에 'solar', 'o3'를 적어주는 게 맞는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 섹션21 ~ 30중 no.27
[문제]Section 27. 시간 범위, 속도(km/h)점심시간(10시부터 13시 전까지)에 주문된 배달 데이터를 찾으시오.점심시간 주문 건 중 과속(평균 속도가 50km/h 이상)하는 주문 수를 정수로 구하시오.배달시간 = 실제도착시간 - 주문시간속도(km/h) = 거리(km) / 시간(h)[질문] 정답이 '1'이 아닌 21이 계속 출력되는데, 문제점을 못찾겠어요. import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/delivery_time.csv") df['주문시간']= pd.to_datetime(df['예상도착시간']) df['실제도착시간']= pd.to_datetime(df['실제도착시간']) df['예상도착시간'] = pd.to_datetime(df['예상도착시간']) # 점심시간(10시부터 13시 전까지)에 주문된 배달 데이터를 찾으시오. df['시간']=df['주문시간'].dt.hour con1= df['시간'] >= 10 con2= df['시간'] < 13 df= df[con1&con2] # 점심시간 주문 건 중 과속(평균 속도가 50km/h 이상)하는 주문 수를 정수로 구하시오. df['배달시간'] = df['실제도착시간']- df['주문시간'] # 배달시간 = 실제도착시간 - 주문시간 # 속도(km/h) = 거리(km) / 시간(h) ## dt.total_seconds()/60 :분단위 ## dt.total_seconds()/60/60 : 시간단위 df['배달시간']= df['배달시간'].dt.total_seconds()/60/60 df['속도'] = df['거리']/ df['배달시간'] sum(df['속도']>= 50)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 실제시험에서 제가 선생님처럼 데이터전처리하면서 커스터머아이디를 드랍할 여유가 없을것같은데 그냥 타겟에다가 팝만 하면 안될까요? 그러면 아예 오답이 돼버릴까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 제출 질문
1.코드를 이렇게 작성했는데 시험환경에서 이 상태로 바꿀것 없이 그냥 제출 버튼 누르면 되는건가요?2.원핫인코딩 진행시 데이터가 10,000개가 넘어가서 45초정도 걸리는데 레이블인코딩을 진행할시 코드는 df로 concat하고 그대로 레이블인코딩 진행 후 다시 나누어 주면 되나요?import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_test.csv") # print(train.info()) target = train.pop('price') # print(train.shape, test.shape) df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:10505,:] test = df.iloc[10505:,:] # print(train.shape, test.shape) # 라벨인코더 # from sklearn.preprocessing import LabelEncoder # cols = train.select_dtypes(include = 'object') # for col in cols: # le = LabelEncoder() # train[col] = le.fit_transform(train[col]) # test[col] = le.transform(test[col]) # 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) # # LightGBM # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state = 0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표 RMSE from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) # print(rmse) # 원핫 + 랜포 = 3779.676969452687 선택 # 원핫 + LGB = 4216.406340322749 pred_final = rf.predict(test) # 제출 submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(인코딩)
강의에서 '데이터 전처리2(인코딩, 스케일링)' 부분 중 인코딩 부분에 대해 질문드립니다. 영상 중 7분 50초 쯤에 심화 내용으로 train, test 데이터를 concat으로 합쳐서 원핫 인코딩을 하는 방법이 있다고 하셨습니다. 그런데 학습 과정에 이 합쳐진 데이터를 넣어서 해도 되는건가요? test 데이터를 모델에 넣어서 학습시키는게 맞는건지 헷갈려서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10f질문
안녕하세요시간이 별로 남지 않아 일단 강의만 후루루룩 본 상태라 이제 중요사항만 다시 반복하려고 합니다ㅠ pd.set_option('display.float_format, '{:.10f}.format()제 기억엔..이거랑 하나 더 있었던 것 같은데 외우라고 하셨는데ㅠ 강의를 일단 후루룩 본 상태라서ㅠ어디 강의에서 말씀하셨는지 기억이 잘 안나네요ㅠ (혹시 알 수 있을까요..) 그리고 저 코드랑 비슷한거 하나 더 해서 외우라고 하셨는데.. 그 나머지 하나랑.... 저게 어떤 상황에서 쓰는 코드인지 다시 질문드립니다데이터가 저런 식으로도 자주 나오는지도 궁금합니다! 좋은 강의 항상 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test.pop
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출7회 작업형 3 강의 때는 accuracy_score 구할 때, target = test.pop('gender')을 하는 단계가 있었는데요, (아래코드)from sklearn.metrics import accuracy_scorefrom statsmodels.formula.api import logit# 데이터셋 분할train = df.iloc[:210]test = df.iloc[210:]# 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1)model = logit("gender ~ weight", data=train).fit()target = test.pop("gender")pred = model.predict(test) > 0.5# 2) 실제 값과 예측 값을 사용하여 정확도 계산acc = accuracy_score(target, pred)# 3) 오류율 계산print(round(1-acc,3)) 지금 예시문제에서는 따로 없어서 작업형 3에서는 어떨 때 target = test.pop('gender') 를 해야하는지 궁금해요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값조건
자료에는 0.5 미만 : 00.5 이상 : 1이라고 되어있는데, 코드 및 설명은0.5 이하 : 00.5 초과 : 1이라고 보여져요. 어떤게 맞나요?