묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2과목 풀이 방법 질문입니다.
target값 분리를 하여 진행하는 경우에는 스케일링 전에 하면 되는지 후에 하면 되는지 궁금합니다 원핫인코딩을 하는 경우에는 수치형과 범주형을 구분하지 않아도 된다고 하셨는데 라벨인코더를 사용하는 경우에도 일치 할까요 ? 또한 추가적으로 minmax와 같은 수치형 스케일링이 필수적인지도 여쭤보고 싶습니다 ,,, ! 선택인 경우에는 어떤 경우에 하면 될지도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험문제
시험문제에서 단일표본 검정을 진행해라.독립표본 검정을 진행해라.대응표본 검정을 진행해라. 이런식으로 제시해주나요?조금 헷갈리네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 3 Section 3. 항공권 가격 예측에서
[작업형2] 연습문제 섹션 3 Section 3. 항공권 가격 예측에서 문제 풀이를 보면 train = train.drop('flight', axis=1)test = test.drop('flight', axis=1)원핫인코딩을 하면 컬럼수가 많아서져 flight를 삭제한다고 되어 있습니다.(기본에서요)그런데 이해가 안되는게...flight 의 가격을 예측하는건데이것을 삭제하고 모델을 학습 시킨다는게 이해가 안되거든요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state관련
random_state=0을 아래에서 처럼 분리할때랑 , 학습할때 총 두번넣어줘도 상관없을까요? # 검증용 데이터 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0) # 모델 학습 및 평가from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor(random_state=0)model.fit(X_tr, y_tr) pred = model.predict(X_val)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 문제 어디에서 볼 수 있을까요?
수업에서는 문제가 바로 있었는데 기출문제 강의에는 자료랑 해설만 있고 문제가 어디있는지 못찾겠어요요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때
[작업형2] 연습문제 섹션 4 에서 train과 test를 합하고 나눌때 저는 iloc을 사용했는데 문제 풀이는 iloc을 사용 안 했더라구요.이전? 강의들에서는 사용했던거 같은데...그런데 둘 다 오류는 안나도 답이 나오긴 한네요.무슨 차이 일까요? 제 코드..df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:len(train)] test = df.iloc[len(train):] 강의 코드# train과 test 합쳐서 원핫인코딩 combined = pd.concat([train, test]) combined_dummies = pd.get_dummies(combined) n_train = len(train) train = combined_dummies[:n_train] test = combined_dummies[n_train:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형(작업형1)
문제3에서 주어진 내용이 시험과 동일한건가욥?? 주어진 데이터에서 ‘co’와 ‘nmhc’ 컬럼을 각각 Min-Max 스케일링하시오.스케일링된 ‘co’, ‘nmhc’ 컬럼의 표준편차를 각각 구하시오.‘co’ 컬럼의 표준편차에서 ‘nmhc’ 컬럼의 표준편차를 뺀 값을 소수점 3자리로 반올림하여 구하시오. 해당 3.에서 2.와 같이 '스케일링된'이라는 말이 없어서 뜬금 없지만(?) 스케일링되지 않은 ‘co’ 컬럼의 표준편차에서 ‘nmhc’ 컬럼의 표준편차를 빼서 출력했는데 이렇게 명확한 형용사가 없어도 앞 내용에 맞게 생각해서 출력해야 할까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 연습문제 섹션 6 질문드려요
연습 문제 6에서는 다수의 범주, 수치형 컬럼에 결측치가 있는데, 최빈값, 중앙값이 아닌특별히 범주형은 X로 수치형은 -1 으로 결측치를 채운 이유가 있을까요? RandomForest은 결측치가 마킹을 해도 어느정도 학습이 가능하다고 알고 있는데,다른 모델들도 마찬가지로 X, -1으로 마킹해도 학습이 가능한걸까요?아니면 RandomForest만의 장점인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 연습문제 4~5 일원 분산 분석
연습 문제 일원 분산 분석에서 ols 모델 작성할 때 C( ) 작성 안 하는 게 맞는 건가요? group에 C( )를 해줘야 하는 거 아닌가 궁금해서 질문합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 시험 환경에서 display 함수
display(df) 실행했을때 에러가 뜨는데 왜 display() 함수가 실행이 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 결측치 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df['f1'] = df['f1'].dropna() 안녕하세요 f1컬럼의 결측치 삭제를 선생님처럼 안하고 저처럼하면 왜 결측치 처리가 안될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
따옴표 사용
16:19 지점에서 "",'' 따옴표를 다르게 쓰셨는데 혹시 어떤 기준으로 나뉘는 것인지 혹은 신경안쓰고 그냥 통일하지 않아도 되는지 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 문제6번
이상치 제거한 std값 구하는 코드를 이렇게 작성했는데 제거 전 후 std 값이 정답과 다릅니다. 어느 부분에서 차이가 나는걸까요?norm_col = df[(df['age']>0) & (df['age'].apply(lambda x: True if x == int(x) else False))]['age']std_after = norm_col.std()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
출력값 ?
값은 같게 나오는데밑에 영어로 같이 나오는 게 무엇인지, 이유를 모르겠습니다. 추가로 random_state는 어떤 기준으로 삼는지와 검증데이터분리에서는 2021인데 이후에는 2022로 바뀌는 이유를 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
출력값이 다르게 나와요
11:56 에 나오는 강사님의 출력값과 다르게 나옵니다. 이유를 모르겠어요...
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타겟데이터 분류 순서
타겟데이터 분류는 원핫인코딩이랑 레이블 인코딩 두 가지 모두에서 하는 것 맞나요?타겟데이터 분류는 인코딩 전에 해도 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글가입문제
이미지 선택을 맞게 여러번 눌렀으나 계속 반복적으로 저렇게 확인 창만 떠서 가입이 되지 않습니다. 어떻게 해야할까요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
샘플을 봐도 뭐가 잘못된 건지 모르겠어요ㅜ
둘다 1490rows x 14columns 인데ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3] 5. 이원분산분석
데이터를 보면 비료유형만 범주형변수인데물주기까지 C(물주기) 처리하는 이유가 궁금합니다.기준이뭔가요?C(비료유형) * 물주기 하면 둘다 C처리 안한거랑 결과같은데둘다 C처리해주면 결과가 바뀌네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 nlargest 자료 데이터프레임만들기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 2) 가장 많이 수강한 과목 필터링 id = df['id_assessment'].value_counts().idxmax() cond = df['id_assessment'] == id df = df[cond] 선생님께서는 이렇게 해주셨는데요 저는 cond = df['id_assessment'].nlargest() 이걸로 최대한 활용해서 민맥스 스케일러를 하고싶은데 nlargest로 뽑은 자료를 데이터프레임형태로 어떻게 만들 수 있을까요 ㅠㅠ 답답해 미치겠습니다