묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정규성 검정, 등분산성 검정 in 가설검정, 분산분석
실제 시험 볼 떄, 정규성 검정과 등분산성 검정을 시행하는 코드를 써야하나요?제 생각으로는 그냥 정규성 검정과 등분산성 검정을 해서 정규성의 유무와 등분산성의 유무만 판단 후, 다시 코드를 지우고분산분석이나 가설검정 코드만 써주면 될것같은데... 어떻게 해야할까요? 정규성, 등분산성을 검정했다~라는 것도 표현하기 위해 정규성 검정 코드, 등분산성 검정 코드를 써야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 강의 내용 관련 질문있습니다.
안녕하세요. 선생님. 5-2 강의 내용 중 잘 이해가 되지 않는 것이 있어 질문드립니다.train.nunique()를 통해 나타난 컬럼 중 name, host_name, last_review, host_id 데이터를 삭제하신 이유가 궁금합니다.nunique()함수는 그 컬럼값 중 고유값이 몇 종류나 되는지 알려주는 것으로 알고 있는데, 그 값과 결측치의 개수가 서로 상관이 있어서 그런것인가요?가령, name같은 데이터는 강의에서 거의 전체 데이터 개수와 nunique함수를 통해 나타난 개수가 별로 차이가 나지 않을 만큼 많기에 지운다고 말씀하셨는데, 이 부분이 잘 이해되지 않습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
EDA 데이터 합치기에서 만약 id 순서가 다르거나, 데이터 개수가 다르면 어떻게 합치나요? 시험에서 그런 경우도 있을까요?
데이터를 합칠 때 수업 내용을 보면 ID를 빼고 그냥 합치는 것 같던데 (제가 이해한게 맞다면요.) 혹시 데이터 개수가 다르거나 ID 순서가 다르면 어떻게 해야하나요? 혹시 시험에서 그런 경우도 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby 실행시 오류가 발생해요
주피터 노트북(터미널로 numpy, pandas 설치완료)으로 df.groupby('원두').mean() 실행했는데 오류가 발생해요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업노트 colab 링크??
선생님 수업노트에 colab 링크 남겨주셨다고 하는데 어디있는지 잘 모르겠습니다. 지금 일일이 치는 중이라 알아두면 좋을 것 같아요 어디있는지 알려주시면 감사하겠습니다.
-
미해결수학 없이 시작하는 인공지능 첫걸음: 기초부터 최신 트렌드까지
1강 머신러닝 영문 표기 문의
1강 0:50에 머신러닝의 개념을 설명해주시는데 괄호 안에 영어가 잘못 표기된 것 같습니다.영어로 Machine Learning 이 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df로 굳이 설정해야하는건가요??
저는 df 말고 members = pd.read_csv("members.csv")로 쓰고 싶은데 상관없나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 type2 작업형2 모의고사
18분 20초 부분에 랜덤포레스트로 모델을 만드시고 r2 스코어 시행결과 0.0770341 로 나왔습니다. r2 값은 1에 가까울수록 설명력이 높다고 들었습니다. 그렇다면 만드신 랜덤포레스트 결과물로 제출해버리면 채점관들이 "아 r2 점수가 낮으니 이건 설명력이 낮은 모델이군" 으로 생각해서 감점당할 수 도 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 핸들링을 위한 판다스 기초1 강의에 필요한 csv 파일 안보임 현상
안녕하세요! 데이터 핸들링을 위한 판다스 기초1 강의에 필요한 data.csv 파일이 보이지 않습니다. 말씀주신대로 새로고침도 해보고, 파일 링크도 여러번 복사해서 해봤는데 안보입니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
y_tr 과 y_train 의 차이점
import pandas as pdX_train = pd.read_csv("X_train.csv")X_test = pd.read_csv("X_test.csv")y_train = pd.read_csv("y_train.csv")cols = X_train.select_dtypes(exclude = 'object').columns # cols = ['id', 'age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week']X_train[cols] = X_train[cols].fillna(0)X_test[cols] = X_test[cols].fillna(0)y = (y_train['income'] == '>50K').astype(int)from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(X_train, y, test_size = 0.1, random_state = 2022)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier()rf.fit(X_tr[cols], y_tr)pred = rf.predict(X_val[cols])pred = rf.predict(X_test[cols])submit = pd.DataFrame({ 'id': X_test['id'], 'income': pred})submit.to_csv("990906.csv", index=False) 제가 작성한 코드입니다. 문제1을 심플하게 설명해주셔서 제가 그 과정에 검증데이터 분리과정을 넣어 자체적으로 작성한 것입니다확인해보니 y_train의 크기는 (29304, 2) 이고, y_tr의 크기는 (26373,) 더군요여기서 궁금한 것이 y_train 칼럼은 id, income 인데 단지 "y = (y_train['income'] == '>50K').astype(int) )" 코드가 실행되엇다고 해서 어떻게 y의 칼럼이 "id"가 삭제되고 "income' 만 남아있는지 궁금합니다. y_train.drop("id")를 작성하지 않았는데 id 칼럼이 삭제되어 의문이 들었습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-2 질문드립니다!!
# 포도당을 제외한 이상치, 평균값으로 대체cols = ['BloodPressure', 'SkinThickness', 'Insulin', 'BMI']cols_mean = X_train[cols].mean()X_train[cols] = X_train[cols].replace(0, cols_mean)선생님께서는 이렇게 train 데이터의 결측치만 평균값으로 바꿔주셨는데 X_test도 같이 바꿔줘야 하는게 아닌가 해서 질문드렸습니다. 그리고 만약 바꾸어 주는게 맞다고 하면 밑에 있는 코딩처럼 다시 한번 X_test[cols]값들의 평균을 구한 다음 하는건지 아니면 위에 있는 train 데이터의 cols_mean을 사용하는건지 궁금합니다!!# cols_mean = X_test[cols].mean()# X_test[cols] = X_test[cols].replace(0, cols_mean)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-12 질문!
캐글 T1-12 문제에서 100%가 넘는 접종률은 제거 한다고 되어 있는데 위에 df2 = df[1:] 이게 이상치를 제거 하는게 맞는건가요?처음 실행 했을 때 100이 넘는 값이 나왔고, 실행 할 수록 프린트 되어 나오는 값이 달라집니다.그리고 저게 이상치를 제거한다는게 맞다면 저 코드(?)의 의미는 무엇인지 궁금합니다 [1:] 이부분이...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
id는 굳이 학습 안해도 된다는 내용
5-3 수업 자료에서 train = train.drop('id, axis = 1)test_id = test.pop('id) 를 썻는데 여기 3-5 문제2 에서도 검증데이터 분리 전에 X_train = X_train.drop('id, axis = 1)X_test_id =X_ test.pop('id)을 쓰고 그대로 진행해도 될런지요?? 진행해보았는데 22222.csv 파일 내용을 보면강의와는 수치가 조금 다릅니다id income11574 0.0315847 0.0117655 0.119790 0.4731812 0.05 이런식으로 나오는데 저의 풀이도 맞는지요!
-
해결됨처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기2 강의에서 질문입니다
실제 캐글(Kaggle) 문제 풀고, 제출해보며, 성능 개선 기법 익히기2 강의 17:30 부분에서 질문이 있습니다. 이번 강의에서는 transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])와 같이 이미지 데이터에 Normalization을 적용하였는데요, from transformers import ViTFeatureExtractor feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch32-224-in21k') feature_extractor다음 코드와 같이 vit-base-patch32-224-in21k 모델에서 적용된 image_mean과 image_std를 확인해 보니,"image_mean": [ 0.5, 0.5, 0.5 ], "image_std": [ 0.5, 0.5, 0.5 ] 와 같이 결과가 나왔습니다. 그렇다면, 학습 데이터에 Normalization을 적용할 때에도 [ 0.5, 0.5, 0.5 ], [ 0.5, 0.5, 0.5 ] 값을 적용해야 하는 것이 아닌지 여쭙고 싶습니다. 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 돌리는 과정에서 질문있습니다
안녕하세요 model.fit과 pred사이의 관계가.. 궁금해져서 질문남깁니다. 처음에 공부할 때는 아무생각 없이 따라쓰면서 'rf.fit에는 x_train, y_train['target'] 변수 두개 넣고 rf.predict에는 x_test 넣어야지' 이렇게만 생각했어요. 근데 이번에 '시험환경에 적응하기'강의에서 문제를 푸는데 궁금한것이 생겼습니다. model.fit(X_train, y_train['gender']) ======1pred = model.predict_proba(X_test)라고 하잖아요? =====2 이게 X_test는 이제 막 선언(2)했고(이전에 X_test에 대해 뭐 한 게 없는거 같다는 의미로요 - 뭐 한게 있으니까 결과가 저렇게 나오는거 같긴한데 말이죠,, ) 이전에 X_test와는 독립적인 X_train, y_train이 fitting(1)된건데.. 어떻게 X_test라는 변수로만 생긴 pred가 결과적으로 '남자인 확률'을 맞히게 되는건지 ..모르겠습니다. 이 관계를 모르니까 '남자인 확률'을 구하려고 할 때 왜 predict에 X_test['gender']가 아니고 X_test를 넣는지도 모르게 되고 말이죠 근데 결과적으로 pred 나오면 gender에 대한 prediction이 나와요(아마 y_test['gender'] 때문인듯 하지만.. )질문이 되게 구구절절인데 요약하자면 model.fit(그리고 그 변수)와 model.prediction(그리고 그 변수)의 관계가 궁금합니다..!! 위 내용은 왜 이게 궁금해지게됐는지에 대한 과정이구요 제가 자체적으로 한 필기에서도 관련 내용을 못 찾겠고 어느 강의에 있을지 찾기 힘들 거 같아 질문으로 올립니다 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
주피터 노트북으로 실행하고 싶어요
수업에서는 구글드라이브를 이용한 코랩을 사용하시는데, 저는 주피터 노트북으로 실행하고 파일을 관리하고 싶어서요 ㅠㅠ혹시 강의 노트로 올려주신 코랩에 있는 자료를 주피터 노트북으로 내보내서 사용하는 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
아이패드로도 강의 수강 및 작업 실습이 가능할까요?
혹시 아이패드 이용해서 공부 중이신 분 있으시면 팁 공유 좀 부탁드려요. 노트북이 없어요..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험에서 EDA 수행
코드 답안 작성 시, 암묵적으로 EDA 과정을 거치게 되는데 모의고사 3에서의 EDA는 head(), value_counts(), isnull().sum(), describe()를 사용하여 탐색적 분석을 하게 되는데 이 함수를 실제 시험에서 반드시 써야하는지 궁금합니다(isnull()sum()은 결측치가 있는지 확인하는 함수이니 무조건 사용하여야 할것 같고 value_counts나 describe는 쓰지 않아도 될 것같은 생각입니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
소수점을 버릴 때 trunc 함수를 넣으면 왜 오류가 뜨나요 ?
a = a[:int(len(a)*0.5)]cond = a['target'] == 0 print(trunc(a[cond]['proline'].mean())) 이렇게 작성했는데 trunc함수가 정의되지 않았다고 오류가 나네요... name 'trunc' is not defined
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결과값에 코드가 함께나와요ㅠㅠ
프린트문 아래 보이는 코드는 뭘까요ㅠㅠ제가 뭘 잘못한걸까요?ㅠㅠ<ipython-input-42-94425356488d>:10: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df = df.groupby(['city','f2']).sum().reset_index()