묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[섹션5. 평가지표] y_pred
안녕하세요섹션5. 평가지표 부분에 질문 있습니다.강의에서는 clf.predict(X_val) 을 y_pred 값이라고 설명하셨는데y_ture 와 비교하는 y_pred 값은 clf.predict(y_val) 값이 아닌지 의문이 생겨 질문남깁니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest
T-test의 검정통계량은 무슨의미인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀분석에서 범주형데이터가있어도 ols 함수에서는 C()묶을필요없다고 하셨었는데
다중회귀분석 강의에서 보면 마지막에 범주형데이터(유형)가 있더라도 ols함수에서는 그냥 그대로 집어넣으면 된다고 하셨었는데이원분산분석강의에서 ols함수쓸때에는 범주형데이터를 C로 묶어야 한다고 하시는데..왜 다른건지 두 차이가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Label Encoding 방법에 대한 차이
강의를 듣다보니 범주형 데이터일 때, Label Encoding을 하는 방법이 2가지가 있더라고요from sklearn.preprocessing import LabelEncoderastype('category').cat.codes2가지 경우가 결과물에 어떻게 영향을 미치게 될까요?일단 한 문제로 두 방법으로 인한 roc_auc_score를 검증했을 땐, 유의차가 없었습니다.
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기5 강의에서 질문입니다.해당 강의 2:50 부분부터 Evaluation 코드에 관해 설명을 해주셨는데요,with torch.no_grad() 안쪽의 코드에서는 with torch.no_grad(): model.eval() ret = None for img, fileid in data_loader: img = img.to(device) pred = model(img) ids += list(fileid) # ex) [1, 2] + [3, 4] -> [1, 2, 3, 4] if ret is None: ret = pred.cpu().numpy() else: ret = np.vstack([ret, pred.cpu().numpy()]) return ret, ids pred.cpu().numpy()와 같이detach()를 따로 사용하지 않은 걸 볼 수 있었습니다. detach()의 사용에 관해서 찾아보니, with torch.no_grad() 블록은 역전파(gradient 계산)를 비활성화 하므로,pred는 gradient 계산과 관련이 없기에, detach()를 따로 호출하지 않고 numpy 배열로 변환할 수 있다 라는 내용을 찾을 수 있었습니다. 그 전에 수업 시간에 보여주신 코드에서는 model.eval() with torch.no_grad(): for x_minibatch in x_test_batch_list: y_minibatch_pred = model(x_minibatch) print(len(y_minibatch_pred), y_minibatch_pred.shape) y_pred_list.extend(y_minibatch_pred.squeeze().detach().tolist())이와 같이with torch.no_grad() 안에서도 detach()를 사용하신 코드들을 볼 수 있었는데요,Evaluation 단계에서 detach()의 사용이 필수적인 것인지 여쭙고 싶습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 언제는 분류모델을 써야하고 언제는 회귀모델을 써야할까요?!
보통 작업형2에서는 예측값을 물어보는 문제가 나오던데요.문제가 나올때 어느문제는 분류모델을, 어느문제는 회귀모델을 사용해야하는지 궁금합니다.지금까지 강의+기출문제를 보면서는 분류/회귀를 결정하는 부분이 평가 모델을 통해 진행된다는 느낌을 받았는데요. 1) roc_auc_score, accuracy_score 이 평가모델로 쓰일 경우,분류형 모델 사용(Classifier) 2) rmse, mean_squared_error 이 평가모델로 쓰일 경우,회귀모델 사용(Regressor) 이렇게 생각하면서 작업형2를 접근하는게 맞는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 기출문제 3회 질문
# 수치형 데이터와 범주형 데이터 분리 n_train = train.select_dtypes(exclude='object').copy() c_train = train.select_dtypes(include='object').copy() n_test = test.select_dtypes(exclude='object').copy() c_test = test.select_dtypes(include='object').copy() # 수치형 변수 스케일링 (로버스트) from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() # 범주형 변수 인코딩(원핫 인코딩) display(c_train.head()) c_train = pd.get_dummies(c_train) c_test = pd.get_dummies(c_test) c_train.head() # 분리한 데이터 다시 합침 train = pd.concat([n_train, c_train], axis=1) test = pd.concat([n_test, c_test], axis=1) print(train.shape, test.shape) train.head()수치형/범주형 데이터 분리를 시행하는데,무조건 분리 후 시행해야 하는지 질문드립니다.
-
해결됨실전 인공지능으로 이어지는 딥러닝 개념 잡기
XOR 파트에서 질문 있습니다.
초반에 bias를 열벡터로 표현시다가 강의 6분부터는 행 벡터로 나오는데요 bias에는 Transpose 표기가 되어 있지 않습니다 왜그런지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cross_val_score를 사용할 때도 train, test 데이터를 나누는게 좋나요?
안녕하세요.cross_val_score를 사용할 때는 model 학습할 때 그냥 모두 학습시키켜도 될 것 같은데요.. 이때도 나누는게 좋을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라벨인코딩 le 선언 관련 질문라벨 인코딩 시에 le를 for문 밖과 안 모두에서 선언하는 이유가 있을까요? 각 col마다 새로운 le로 학습하고 변환해야하나요? 원핫인코딩 시 아래 동작 여부의 이유가 궁급합니다.pd.get_dummies 함수를 사용할 때 c_train과 c_train[cols]를 넣었을 때 1)은 c_train만 동작하고 2)는 둘 다 동작합니다.1) 직접 작성 시, cols를 X_train으로 뽑아냈을 때 오류2) 강의 시, c_train으로 cols 뽑아냈을 때는 동작
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
float값
선생님 혹시 컬럼에 float값이 있으면 무조건 민맥스 스케일링 사용하나요?3회는 사용 하셨고 6회 풀이에는 넘어가셨길래 궁금합니다! 그리고 마지막에 제출할때 수험번호 안쓰고 (6회 풀이 입니다)예를 들어 pd.DataFrame({'index':test.index,'y_pred':pred}).to_csv('0000.csv', index=False)요렇게 했는데submit.to_csv('result.csv' , index = False)이렇게 제출하는 형식도 있는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
alternative = 'less'
(df['bp_post'], df['bp_pre'], alternative = 'less')선생님 여기서 alternative = 'less'이걸 작성할때 greater랑 구분짓기가 헷갈린데 어떻게 이해를 할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 작업2
4회 기출유형 작업형 2에서는 train_test_split을 사용안했는데여기서는 왜 사용하는 걸까요? train_test_split을 사용할때와 안할때가 궁금합니다 원핫인코딩과 라벨인코딩 두개를 =어떨때 써야하는지도 궁금합니다 그리고 Y_tr 에 price를 넣으신 이유가 있으실까요 ps. 매번 친절하게 답변해주셔서 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요. 질문드립니다.
안녕하세요. 제가 오늘 수험표를 출력해봤는데요.만약에 수험번호가..007001234이면.. 작업형 2유형 파일생성시..파일이름을..'007001234.csv'로 해야하나요?아니면 '7001234.csv'로 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임
선생님 이번 오징어 게임 미션을 하면서 작업형 2를 풀고 있습니다import pandas as pdtrain = pd.read_csv("../input/big-data-analytics-certification/t2-1-train.csv")test = pd.read_csv("../input/big-data-analytics-certification/t2-1-test.csv")train.head() #pop: 'TravelInsurance' drop:'id'test.head() #pop:'id'train.info() #'Employment Type','GraduateOrNot','FrequentFlyer','EverTravelledAbroad'train.isnull().sum() #'AnnualIncome' 결측값test.isnull().sum() #'AnnualIncome' 결측값target = train.pop('TravelInsurance')test_id = test.pop('id')me = train['AnnualIncome'].mean()train = train.fillna(me)me = test['AnnualIncome'].mean()test = test.fillna(me)from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()train['Employment Type'] = encoder.fit_transform(train['Employment Type'])train['GraduateOrNot'] = encoder.fit_transform(train['GraduateOrNot'])train['FrequentFlyer'] = encoder.fit_transform(train['FrequentFlyer'])train['EverTravelledAbroad'] = encoder.fit_transform(train['EverTravelledAbroad'])test['Employment Type'] = encoder.fit_transform(test['Employment Type'])test['GraduateOrNot'] = encoder.fit_transform(test['GraduateOrNot'])test['FrequentFlyer'] = encoder.fit_transform(test['FrequentFlyer'])test['EverTravelledAbroad'] = encoder.fit_transform(test['EverTravelledAbroad'])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=2022)model.fit(X_tr, y_tr)pred = model.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc_score(y_val, pred[:,1]) 이렇게 코드를 작성했는데 예측하는 단계에서 pred = model.predict_proba(test) 이걸 썼더니 X has 8 features, but RandomForestClassifier is expecting 9 features as input. 이렇게 에러가 뜨는데 뭐가 잘못됐을까요?
-
해결됨실전 인공지능으로 이어지는 딥러닝 개념 잡기
SGD + 모멘텀 등의 코드
안녕하세요 강사님 ㅎㅎ강의 너무 잘 듣고 있습니다.다름이 아니라.15:40 에 많이 사용하는 것이SGC + 스케줄링 또는 SGD + 모멘텀 + 스케줄링 이라고 말씀하셨는데요.해당 부분을 코드로 나타내면 이렇게 되는게 맞을까요?import torch import torch.optim as optim # SGD + 스케줄링 optimizer = optim.SGD(model.parameters(), lr=0.01) # SGD + 스케줄링 + 모멘텀 optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1) for epoch in range(num_epochs): ... for inputs, targets in train_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step() scheduler.step() 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
최빈값 채우기 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 간단한 질문드립니다.최빈값으로 채울때, m = x_train['a'].mode()[0]에서,,,mode함수 뒤에 [0]의 의미가 이해가 않가네요[0]가 없어야 할것 같아서 문의 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-1, 문제 3번, 2번 풀이 sum(),len()
이렇게 풀어봤는데, 이렇게 해도 괜찮은가요? 그리고 문제 2번에서print(sum(df["f3"] == "gold"))대신print(len(df["f3"] == "gold"))으로 하면 안되는 이유가 잘 이해가 안되서 문의드립니다.len()도 데이터 수 구하는 함수 아닌가요?df["f3"] == "gold" 라는 조건을 만족하는 데이터의 수를 구하는데 사용할 수 있을 줄 알았는데, sum() 사용했을 때와 값이 다르게 나와서요. 이 상황에서 두 함수 간 정확히 어떤 차이가 있는지 궁금합니다. 좋은 강의 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 체험 작업형 2 문제 관해서 질문드립니다!
안녕하세요 선생님 실기 체험 작업형 2문제 관련해서 질문드립니다. 고객의 성별 값에 대한 확률을 구하는 문제인데 여자와 남자중에 어떤 성별의 예측 결과를 구하는지 명시가 안되어 있어서요 이럴 때는 여자인 확률을 구하는건가요 아니면 남자인 확률을 구해줘야 하는건가요? 이때 동안 계속 양성인 1의 확률을 구해왔는데 실제 시험 때도 이렇게 명시가 안되어 있나 해서 질문드립니다.성별 (0: 여자, 1:남자)predict_proba[:,0] 여자 : 0 predict_proba[:,1] 남자 : 1
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제
2회 기출유형 작업형2 를 들으면서 강사님이 Xtr Ytr을 합치면 더 풍부한 EDA가 가능하다고 하셨는데요 시험현장에서 Xtr Ytr Xtest 이렇게 나온경우 각각 구분해서 적는게 헷갈려서 그냥 처음부터 Xtr Ytr을 합쳐서 풀어도 되나요? 감점요인은 아닌가요?