묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LabelEncoder 질문드립니다.
안녕하세요 강사님!LabelEncoder 작업 중 한 번씩 오류를 마주하는 경우가 생깁니다. 아마 강의 중에 말씀해주셨던 train_data 와 test_data 를 합친 후 인코딩 작업을 진행하면 될거라는(?) 얘기와 관련이 있을 것 같은데.. (혹시 제가 잘못 이해하고 있는거면 정정 부탁드립니다 ㅠㅜ) 인코더 돌릴 때 테스트 데이터랑 합친 후 학습한다고 가정했을 때, fit_transform() 과 transform() 중 어떤 걸 사용해야하는지와 두 메소드의 차이점이 궁금합니다. 제가 이해한 내용으로는 train_data 는 fit_transform(),test_data 는 transform() 을 사용해야한다고 이해했는데 합쳐서 작업해야한다고 할 때 뭘 사용해야하고, 어떻게 사용하는게 맞는 방법인지 잘 모르겠습니다 ㅠ 매 번 질문에 답변해주셔서 감사합니다!많이 배워가고 있습니다! ======== 질문 추가 ========혹시 아래와 같은 방식으로 진행되면 될까요...? for col in col_obj: encoder = LabelEncoder() encoder.fit(pd_concat[col]) X_tr[col] = encoder.transform(X_tr[col]) X_val[col] = encoder.transform(X_val[col])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_train 의 값
train_test_split() 함수내에서 y_train 을 나누는 방법에 차이가 있는 이유가 무엇일까요?첫번째 사진은 y_train['Reached.on.Time_Y.N'] 으로 했고 열에 값이 출력되지 않았는데,두번째 사진은 y_train.drop('ID', axis=1) 로 했는데 열값이 1이 나왔습니다. 두 방법 모두 결국에는 y_train에서 'Reached.on.Time_Y.N' 만 남기는 것은 동일한데 왜 열값의 출력이 다른지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[질문] 모델 학습 후 평가 시 오류
위와 같은 오류가 나오는데 roc_auc는 평가가 되는데 accuracy는 평가 중에 오류가 나옵니다... 혹시 다음과 같은 오류는 문제점이 무엇인지 잘 모르겠습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 작업형2 모델&평가 부분에서 동일한 값 출력
안녕하세요. 작업형 2 회귀모델 사용하고 평가지표로 모델 평가하는 부분에서 질문이 있어서 문의합니다 넘파이 없이 해보려고 아래처럼 간단하게 만들어봤는데요. from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error # 릿지 모델 from sklearn.linear_model import Ridge rd = Ridge(random_state=100) rd.fit(X_tr,y_tr) pred_rd = rd.predict(X_val) mse = mean_squared_error(y_val,pred_rd) # rmse 간단 사용을 위해 우선 mse()를 변수 할당 rmse = mse ** 0.5 # 그런 다음 rmse 처리 방식에 맞는 변수 생성 print("r2:",r2_score(y_val,pred_rd)) print("mae:",mean_absolute_error(y_val,pred_rd)) print("mse:",mean_squared_error(y_val,pred_rd)) print("rmse:",rmse) r2: 0.06396849293045404mae: 75.39756630227993mse: 62725.96352602316rmse: 250.4515193126669 # 라쏘 모델 from sklearn.linear_model import Lasso ls = Lasso(random_state=100) rd.fit(X_tr,y_tr) pred_ls = rd.predict(X_val) mse = mean_squared_error(y_val,pred_ls) rmse = mse ** 0.5 print("r2:",r2_score(y_val,pred_ls)) print("mae:",mean_absolute_error(y_val,pred_ls)) print("mse:",mean_squared_error(y_val,pred_ls)) print("rmse:",rmse) r2: 0.06396849293045404mae: 75.39756630227993mse: 62725.96352602316rmse: 250.4515193126669 선형회귀,XGB,랜덤포레스트 등은 결과값이 모델별로 각각 다르게 나왔는데(랜덤포레스트의 결정계수 값이 제일 높아서 실습하면서 저도 랜덤포레스트를 적용했습니다)릿지랑 라쏘 이 2가지 모델은 위에서 처럼 결과값 출력이 완전 동일하게 나와서.....(rmse는 선형회귀를 제외한 나머지 4가지 전부 동일 값이 출력 되었습니다...이건 뭘 잘못한걸까요..?)검증데이터 예측값 계산 변수 다 할당했고, 할당한 예측 변수를 각 평가 모델에 대입했는데... 왜 이런 결과가 나오는지, 뭔가 잘못한 부분이 있으니 값이 같게 나오는거 같은데... 어느 부분이 잘못 되었는지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 관련 질문 있습니다.
안녕하세요 강의 잘 듣고 있습니다!작업형2 관련 질문 세개 있습니다.Q1) 랜덤포레스트 하이퍼파라미터 조절 max_depth나 n_estimator(아래처럼 ) 분류가 아닌 회귀분석일때도 사용해도 되나요??Q2) 데이터개수가 너무 많으면 원핫인코딩보다 라벨인코더가 낫다고 하셨는데 개수가 많은 기준이 보통 어느 정도인지 궁금합니다! Q3) 검증데이터 분리 시에 test_size는 어느 정도가 적당한지 궁금합니다. 데이터가 적으면 0.1 ~ 0.15 아니면 0.2 정도로 해도 될까요?
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
5.1 제약 데이터 수집 오류 해결
안녕하세요, 섹션 10의 [5/6] 강의 실습을 진행하는데 result의 column이 다른 경우가 있어서 후에 concat을 하는 과정에 에러가 발생합니다. 이런 경우 어떻게 해결할 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사_작업형1-1 질문
선생님, 강의 내용a = a[:int(len(a)/2)]cond = a['target'] == 0a = a[cond]print(int(a['proline'].mean()))에서a = a[:int(len(a)/2)]a = a['target'] == 0 <-- cond 대신 aa = a[a] <-- cond 대신 aprint(int(a['proline'].mean()))로 실행해보았습니다. 데이터 프레임 값을 새로 갱신해 저장하는데, 'proline'에서 오류가 나는 이유가 궁금합니다. 새로운 조건명(con)을 넣어야만 실행되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
영상으로 4:53초에 나오는 코드입니다. 선생님이 작성하셨을 때는 되는데 제가 작성해서 칼럼 별 유니크 값을 보려고 하니 오류가 뜨네요. 혹시 파이썬 버전의 문제일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출]공식예시문제 -> 예시문제 작업형3(구버전)/가설검정
[기출]공식예시문제 -> 예시문제 작업형3(구버전)/가설검정 강의는 구버전 이라고 적혀있는데 들어야하는 강의가 맞는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모델링 여러개 돌려보고 평가지표 제일 높은걸로 최종제출해야하나요??
안녕하세요, 작업형2 문제를 풀 때 여러 모델로 돌려보고평가지표 제일 높은걸로 최종제출해야 하나요??혹시, 모델 한가지로만 돌려보고 제출하게되면 감점요인이 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱 독립성(동질성 검정) 코드에서요~
처음에 노션 이론 부분에서 stats.chi2_contingency(table, 이 담에 correction=True) 로 되어있었는데 코랩 실습에서 "correction=True"를 안 쓰셔서요. 안 써도 되는 건가요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형(작업형1) 문제 질문
좋은 강의 감사드립니다. 기출 문제를 풀던 중 의문사항이 몇 가지 생겨 질문드립니다.<첫 번째 질문>2번 문제의 '전체 교사 수'를 구하라고 되어있는데, 선생님의 풀이를 보면 교사1인당 수가 출력되어 있습니다. 전체 교사 수를 출력해야하니 교사수 열의 값이 답으로 도출되어야 하지 않습니까? 문제의 오타인지, 제가 오해하고 있는 것인지 알려주시면 감사하겠습니다. <두 번째 질문> 총 범죄 건수의 월평균 값을 출력하라고 되어 있는데, 선생님의 풀이를 보면 월합계가 출력되어 있습니다. 해당 연도의 총 범죄 건수의 월평균 값을 구하려면 월합계 / 6이 되어야 하는 것이 아닌가 싶어 질문드립니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
점수의 기준은 어떻게 되는건가요?
여기서 나온대로 코드를 짜진 않았고 제 마음대로 했는데요.macro f1-score으로 평가한다고 해서 평가모델을 만들어서 넣어봤는데, 0.52가 나왔습니다..이 0.52 라는 숫자가 작은 것 같은데 하이퍼파라미터튜닝을 해도 고만고만 하더라고요.근데 3회차에서 roc_auc_score로 검증해봤을땐0.7 정도가 나왔던거 같아요..제가 검증하는 숫자가 낮은지 높은지 기준은 없는건가요? 그리고 최종 파일을 컴피티션에 올리면 점수가 나온다고 했는데, 거기서는 0.31이 나왔는데요..선생님은 0.3 쯤이 나왔는데 별 신경을 안쓰시길래.. 무슨 차이인지 몇점이 나오든 그거는 상관 없나요? @.@;;
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-1 코드 봐주실 수 있나요??
아래 코드에서 잘못된 부분은 없는지, 어느 부분을 보완하면 좋을지 알고 싶습니다 문제 : 학습용 데이터 (X_train, y_train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) 코드 : # 라이브러리 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # EDA train.shape, test.shape # ((891, 12), (418, 11)) train.isnull().sum() test.isnull().sum() # 전처리(결측치, 인코딩, 스케일링, 타겟) train = train.dropna() test = test.dropna() train.shape, test.shape # ((183, 12), (87, 11)) train.describe() train = pd.get_dummies(train) test = pd.get_dummies(test) target = train.pop("Survived") # 모델링 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2024) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 2024) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) # 평가 from sklearn.metrics import accuracy_score accuracy = accuracy_score(y_val, pred) # 제출 result = pd.DataFrame({ "PassengerId" : X_val["PassengerId"] , "Survived" : pred }) result.to_csv("수험번호.csv", index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막에 csv 제출이 안됩니다.
마지막에 저장이 안되는데 제가 뭘 또 잘못한 걸까용..!평가까지는 잘 했는데, 마지막에 요러니 당황스럽군요..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험 환경에서...
선생님, 실제 시험 환경에서 아래처럼 색 알록달록하게 보여주나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 작성할때 ...
선생님!, 기출보고 있는데 코드 수정시 타이핑 하는 글들이 삽입이 아니라 수정으로 되는데 ... 이거는 세팅을 바꿀 수 없나요?쉽게 설명하자면 아래한글 보면, 아래쪽에 수정/삽입 바꿀 수 있는 것 처럼요. 에러나서 코드 다시보면서 작성하는데 타이핑 하는것들이 삽입되는게 아니라 뒤에 글들을 지우면서 쳐집니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타이타닉 loc
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train_data.loc[train_data.Sex=='male']['Survived']로 필사가 되어있는데여기서 굳이 loc를 써야하는 이유를 못찾아서요!train_data[train_data.Sex=='male']['Survived']이렇게 적는다면 이해가 되는데 .....또한 loc 공부할 때특정 행을 추출하는거면 df.loc[행 인덱스명]특정 열을 추출하는 거면 df.loc[:, 열 인덱스명]특정 행과 특정 열을 추출하는거면 df.loc[해당 행의 인덱스명, 해당 열의 인덱스명] 이렇게 메모하고 암기했습니다그러나 train_data.loc[train_data.Sex=='male']이게 앞에 :,가 생략되어도 상관없는건가요? 이렇게 생긴건 행 추출인데 행인덱스명을 안써서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문의입니다.
안녕하세요. 저번에 해주신 조언대로 일단 외우기보다 강의진도를 먼저 빼고 있는데, 점점 양이 많아지다보니 걱정됩니다ㅠ 전에 디스코드 들어오셨냐고 물어보시던데, 디스코드에 들어가면 어떤게 좋은건지요? 과제나 학습이 이루어지는건가요? 강의진도 기출문제만 남겨놓고 거의 끝나가서 공부를 어떻게 해야할지 모르겠어서 문의글 남깁니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-9. Standardization
문제를 2가지 방식으로 풀어보았습니다.1) StandardScaler사용from sklearn.preprocessing import StandardScalersc = StandardScaler()df['f5'] = sc.fit_transform(df[['f5']])print (df['f5'].median()) 2) 평균과 표준편차를 구하여 직접 식에 대입m = df['f5'].mean()s = df['f5'].std()df['f5'] = (df['f5']-m) / sprint (df['f5'].median()) 답이 1)에서는 0.2606196295590152)에서는 0.2593132572746011 2)에서 답이 다른데, 뭐가 문제일까요??