묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
디스코드 스터디
디스코드 스터디 링크가 안들어가지는데 마감된걸까요??시험 한달전 참여할 수 있는 스터디는 따로 없는지 궁금합니다참여하고 싶습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정, 단측검정 유의수준
안녕하세요~대응표본검정 강의 관련 문의 드립니다.귀무가설 기각여부는 양측검정과 단측검정 모두 유의수준 0.05 를 기준으로 판단하나요? 아니면 양측검정은 0.025, 단측검정은 0.05 를 기준으로 판단해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
혹시 명령어를 다음과 같이 작성해도 될까요?답은 202로 동일하게 나왔습니다.df['mean'] = df.mean(axis=1) print(sum(df.loc[2001] > df.loc[2001,'mean']) + sum(df.loc[2003] < df.loc[2003,'mean']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 영상은 건너뛰어도 될까요?!
혹시 커리큘럼중에 위의 사진처럼 구버전은 안듣고 건너뛰어도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 3 훈련율
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 먼저 혼자 풀어보고 강의를 보는식으로 공부를 하는 중입니다. 베이스라인만 작성하여 아무처리 하지않고 데이터 분리후 (test size = 0.15 , random_state=2022) 최대한 영상과 똑같이 모델 훈련을 하였는데요스코어가 roc , auc , f1모두 자꾸 스코어가 1점으로 나와서 훈련율의 문제인가 싶어 런타임을 재실행하거나 그래도 자꾸 1로나오더라구요 그런데 훈련율 파라미터인 max_samples를 0.5로해도 1로 나오던게 0.01로 하니 인강과 비슷한 점수로 from sklearn.metrics import roc_auc_score, accuracy_score , f1_score model = RandomForestClassifier(random_state=2022,max_depth =5,max_samples =0.01 ) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) print('roc:',roc_auc_score(y_val,pred_proba[:,1]),'\n' , 'accuracy:',accuracy_score(y_val,pred),'\n', 'f1:',f1_score(y_val,pred),'\n')>>>roc: 0.9712121212121212 accuracy: 0.8648648648648649 f1: 0.8717948717948718이렇게 나오더라구요 뭐가 문제인걸까요...? 데이터 전체갯수가 300개가 되지않아 과적합된것같단 생각은있는데 인강에서는 저랑 똑같이 진행했는데도 불구하고 점수가 잘나와서 의문이네요 ㅠㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 C() 질문 있습니다.
안녕하세요. 강의 수강 중 질문이 있어 글 남깁니다.________________________________________________________첫 번째 질문이원 분산 분석 5분 30초 즈음, 모든 변수에 C()로 감싸주는게 차라리 속 편하다고 하셨는데, 만약 독립변수 중에 범주형이 아닌 수치형 변수에다가도 C()로 감싸주어도 될까요?+ 인프런 AI 댓글을 보고, 결론을 요약해보았습니다.이원 분산 분석에서1. object형 + 범주형 특성 => 앞에 C()를 붙인다.2. int/float형 + 범주형 특성 => 앞에 C()를 붙인다.3. int/float형 + 범주형 특성 X => 앞에 C()를 붙이지 않는다.요약한 내용이 맞을까요?________________________________________________________두 번째 질문또한 이원 분산 분석이 아니라, 일원 분산 분석에서 독립 변수가 범주형 변수면 C()로 감싸주어야 할까요?________________________________________________________세 번째 질문예시문제 작업형3 /로지스틱 회귀 강의 중 7분 12초 즈음에,model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit()부분에 SibSp 와 Parch는 수치형이지만 범주형 특성을 띄고 있는데, 이 부분에는 C()를 왜 안하는건지 여쭤보고 싶습니다! 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출] 공식 예시 문제 (로지스틱 회귀 포함) 예시문제 작업형1에서
민맥스 스케일링 할 때print('MinMax Scale 변환 전: \n',data['qsec'].head())에서\n 부분은 어떤 역할을 하는건가요??그냥 규칙인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 질문이 있습니다.
시험에 전반적으로 궁금한 점인데요예를 들어 작업형1 모의문제1에서 2번문제 같은경우 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. 이런 조건이 있는데요 이런 문제를 풀때 그냥전체 갯수에서 30%에 해당하는 갯수 확인하고isna().sum()이용해서 30% 넘어가는것 갯수확인하고해당하는 column 확인해서 그냥 지정해서 지워주고 이런식으로 풀면 되는건가요? 아니면count=len(df)*0.3 check=df.columns for i in check: if df[i].isna().sum()>count: df=df.dropna(subset=i)이런 식으로 코드 내에 30%를 확인해서 지워주는 부분을포함해야 하는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 반복문
수치형 민맥스 스케일링 할때는 반복문을 사용하지 않고 한번에 함수에 넣고 fit_transform하였는데 왜 라벨 인코딩 (문자열)은 한번에 처리 안되고 반복문을 통해서 하나씩 함수에 넣어야 하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션4 평가지표 강의 13:50에서
pd.get_dummies(y_true[0])위 코드를 실행하면 강의에서는 0,1로 df이 보여지는데 제 실행결과에서는 True, False로 보여집니다어느 부분에서 차이가 난걸까요?? (이전 셀 모두 실행하기 적용해도 출력이 동일합니다)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 소문제 2-1 궁금합니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요알찬 강의 너무너무 감사드립니다!선생님의 강의와 함께 다음달 시험을 위해서 열심히 달려가는 중입니다..😊😊 기출7회의 소문제 2-1에서 상관관계가 가장 높은 변수를 찾으라고 할때7회의 작업형 1처럼df_corr=df.corr().abs()print(df_corr[1:].idxmax()) 값으로 구했는데요!상관관계 값을 보고싶을 때는 어떤 함수를 작성하면 될까요 ?df_corr.sort_values(ascending=False)이렇게 정렬한 다음에df_corr[1]이렇게 확인하는 것이 맞을까요 ?다른 좋은 방법이 있을까요 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출의 작업형2 인강 관련 궁금한점이 있습니다.
[영상 위치]19분 20초 [문의사항]모델 4가지를 선택해서 불러오고 학습하고 predict 를 한 상황인데요, 영상 기준으로 XG부스터가 가장 예측점수가 높게 나온 상황이고, 마지막에 X_test 를 예측할 때 적용되는 model.predict_proba 에서 바로 위에 있는 XG부스터 모델이 선택된걸로 보면 되는거죠? 요약하자면 로지스틱, 의사결정나무, 랜포의 pred 가 아닌 XGB pred값으로 최종 선택된 상황인게 맞는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[MOCK EXAM] T2. EXAM template-캐글 모의고사
강사님 안녕하세요 🙂kaggle에 올려주신 모의 고사 문제 풀이 중인데 모의고사 문제 작업형2에서 RandomForestClassifier로 진행하여 예측 csv를 만들었지만 다른 방법도 시도해보고자 XGBoost도 실행해보니 오류가 뜨더라구요 이 문제에서는 XGBoost 모델링이 힘든건가 하여 질문드려요 😢 # XGBoost(오류) from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr,y_tr) pred = xgb.predict_proba(X_val)[:,1] roc_auc_score(y_val,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 결과 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 피쳐 엔지니어링 원핫인코딩 결과 display 해보면 저는 왜 0, 1 값이 아닌 True, False로 나올까요.. ? 아래 코드입니다. display(c_train.head())는 정상적으로 출력됩니다. # 원핫 인코딩 n_train, n_test, c_train, c_test = get_nc_data() # 데이터 새로 불러오기 display(c_train.head()) c_train = pd.get_dummies(c_train[col]) c_test = pd.get_dummies(c_test[col]) display(c_train.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 작업형3에서 데이터프레임 형성시 오류요ㅠㅠ
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예측값을 구하려고 데이터프레임을 만들고 있었습니다!숫자라 단순히 숫자만 쓰고 넘어가려고 했는데, 위 사진처럼 오류가 나요...이건 왜그러는 걸까요 ?작업형2에서는 문제없이 되었던것 같은데요ㅠㅜ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
윌콕슨 부호 순위 검정에 대해서
안녕하세요.섹션 6 단일 표본 검정에서 데이터가 정규성을 띄지 않을때비모수검정을 진행하셨는데요.윌콕슨 부호 순위 검정은 평균에 대한 검정이 아니라 중앙값에 대한 검정으로 알고 있습니다.그런데 stats.wilcoxon(df['무게']-120, alternative='less')라고 평균값 120을 무게에서 빼서 진행되었는데 120대신 중앙값을 넣어야 되는것 아닌가해서 질문드립니다.문제 상황에서는 중앙값을 알려주지 않았기 때문에 평균값을 쓴것인지 아니면 윌콕슨 부호 순위 검정에서 평균값을 써도 되는 근거가 있는 것인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.corr(numeric_only=True)
df.corr(numeric_only=True) 실행하면 사진과 같이 나옵니다. 문제가 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
listbox 마지막 앞 단어를 구하는 문제
마지막 앞 단어를 구하는 문제에서# listbox[7:8]# listbox[7:-1]# listbox[-2:-1]답을 이렇게 세가지로 알려주셨는데listbox[7]이것도 답이 될 수 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 결과가 지속적으로 True False로 나옵니다.
안녕하십니까.작업형 2번 원핫 인코딩 부분을 수강하다가 궁금한 점이 생겨 질문 남깁니다.원핫 인코딩을 한 결과, 값이 0또는 1로 나오는 것이 아닌, True False로 결과값이 출력이 됩니다. 강의 3-6 Regression 파트에서cols = ['sex','smoker','region'] train = pd.get_dummies(train,columns = cols) test = pd.get_dummies(test, columns = cols) display(train.head(2)) display(test.head(2)) 위의 코드를 실행하면 범주형 변수들의 원핫 인코딩 결과가 False, True로 밖에 나오지 않습니다. 혹시 이렇게 두어도 머신러닝을 수행하는데 문제가 없는 것인지, 아니면 반드시 0과1로 바꾸는 작업이 필요한 지 궁금합니다.만약 0과 1로 무조건 바꿔야한다면, 코드에서 어떠한 실수를 했는지 의문이 들어 질문 남깁니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 1번 질문입니다!
안녕하세요! 문제 1번 관련해서 질문이 있습니다. 3번째 질문에 <앞에서부터 70% 데이터를 구하는> 코드를df = df.head(int(len(df)*0.7))위와 같이 head 를 사용해서 풀었는데요. 슬라이싱으로 df = df[:int(len(df) * 0.7)] 하는 것이 더 정확하게 푸는 방법인 걸까요? 아니면 같은 개념이니 둘 다 사용해도 괜찮은 걸까요?