묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일합치기 관련하여 문의드립니다.
안녕하세요.2회기출문제의 경우 특이하게 train데이터가 2개로 나뉘어 제공되었는데 concat 함수로 작업을 하셨는데 id가 공통적으로 있긴 하지만, 동일한 순서로 되어있는지 알수 없어서 merge 함수를 사용하여 on = "id" 옵션을 추가하여 train데이터를 하나로 만들었는데concat, merge, join 어떤 걸 사용해도 괜찮을까요 ? 언제나 답변해주셔서 감사합니다 :)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장 관련하여 문의드립니다.
안녕하세요. 퇴근후딴짓 빅데이터 분석기사 실기를 수강중인 학생입니다. 다름이 아니라 빅데이터 분석기사 실기 시험이 11월29일인데 강의 만료일이 11월13일이라 실기 시험 전 16일동안 강의를 듣지 못하네요. ㅠㅠ 시험전까지 동영상을 복습하면서 시험을 준비했으면 하는데요. 시험일까지 수강 기간을 연장할 수 있는지 문의드립니다.제 이메일 주소는 ibluezz@naver.com 입니다.감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수의 회귀계수
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하십니까? 해당 강의 내용 중 회귀계수가 아래처럼 나오게 되는데 그럼 여기서 유형 A에 대한 회귀계수를 알고 싶으면 어떻게 해야하나요?summary로는 유형A의 회귀계수는 보는방법은 없을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 질문사항
작업형2 연습문제 "노트북 가격 예측"에서결측치 처리를 위해 범주형 컬럼에서는 "X"값으로 대체, 수치형 컬럼에서는 -1 값으로 대체하였는데 결측치 처리시 어떤 기준으로 해야하는 지표가 있을까요? 통일성있게 적용하고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2
예시문제 작업형2에서 레이블 인코딩을 하려고 합니다.이전 수업에서 했던 방식대로# 인코딩(레이블)cols = test.select_dtypes(include='object').columnsprint(cols)# from sklearn.preprocessing import LabelEncoder# le = LabelEncoder()# for col in cols:# train[col] = le.fit_transform(train[col])# test[col] = le.transform(test[col])# print(train.info())# print(test.info()) 이렇게 진행했는데 왜 오류가 뜰까요? 강의랑 다르게 cols에 주구매상품, 주구매지점, 환불금액까지 나오긴 했습니다. 혹시 결측치를 mode로 채워서 그런걸까요 ..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 체험환경에서 신뢰구간 구할때
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요? 실기 체험환경에서 신뢰구간 구할때 결과가 이렇게 나오면 신뢰구간을 보려면 어떻게 하나요?3,4번째 컬럼을 따로 지정해서 봐야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강기간 멈춤 가능한가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 이번 11/29 빅분기 시험을 사정상 보기 어려워져서학습기간 멈춤를 신청하고 싶은데 최대 몇개월 학습 중단이 가능할까요?내년 3월이후 다시 준비해서 시험을 치뤄야 될 것 같습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장 환경
시험장에서 자동완성은 어디까지 가능한가요? 미리정의한 변수명은 tab으로 자동완성이 되나요?함수들도 궁금합니다. 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
여러 줄 한꺼번에 주석처리
하는 방법이 있을까요?? 강의에서는 슉슉 빠르게 되는 것이 신기해서 여쭤봅니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 데이터 코랩에서 불러오기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 캐글에 있는 문제들 코랩에서 풀어보려고하는데 데이터를 어떻게 불러와야하는지 모르겠어요ㅜ깃허브 URL이나 이런건 없나요? import pandas as pd import numpy as np df = pd.read_csv('../input/titanic/train.csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립성검정에서 correction 옵션과 관련하여 문의드립니다.
안녕하세요.제목과 같이 독립성검정의 경우 chi2_contingency 함수를 사용하는데 공부하다 보니 chi2_contingency(table, correction = True) 이렇게 되어있는 글을 보게 되어서 검색하여보니 correction 옵션은 자유도와 관련된 부분이라고 해서 자유도가 1인 경우에는 True이고 , True가 기본값이긴 하지만 1보다 클 경우에는 False를 사용해야 한다고 하는데 예시 문제를 살펴보면 ddof = 1인 경우에만 있었는데 혹시 실기에서도 해당 부분을 고려해야 할까요 ? 감사합니다 :)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
concat
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래처럼 concat으로 한 이후에는 model_selection시에train_oh와 test_oh가 더 나오진 않나요??X_tr, X_val, y_tr, y_val = train_test_split(train_oh, target, ,,) 이 되지는 않는지요?? print(train.shape, test.shape)data = pd.concat([train, test], axis=0)data_oh = pd.get_dummies(data)train_oh = data_oh.iloc[:len(train)].copy()test_oh = data_oh.iloc[len(train):].copy()print(train_oh.shape, test_oh.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형데이터 전처리 관련 문의드립니다.
안녕하세요.EDA 단계에서 수치형컬럼들의 기초통계량을 해보니 SeniorCitizen이 0과 1로 나뉘어있는거 같아 변수 확인 후, 해당 컬럼을 범주형으로 변환 후, 작업하였는데 이렇게 변경하여 작업해도 괜찮을까요 ?범주형으로 변경 후, 작업하였을 때# 원핫인코딩 : 946.3475544795037 946.7024808036148# 레이블인코딩 : 951.0960435538027 952.7925407798712다음과 같이 결과 값이 나왔습니다.감사합니다 :)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 탐색적 데이터 분석
작업형2에서 전처리 과정 들어가지전, EDA 수행 시 꼭 확인해야하는 것들이 어떤것이 있을까여?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1-2 질문
# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") cols1 = df.columns[df.isnull().sum() >= len(df) * 0.3] df = df.dropna(subset=cols1) cols2 = df.columns[(df.isnull().sum() < len(df) * 0.3) & (df.isnull().sum() >= len(df) * 0.2)] for col in cols2: df[col] = df[col].fillna(df[col].mode()[0]) print(sum(df['f3'] == 'gold'))문제에서 결측치가 30% 이상인 컬럼을 찾으라 했는데, 저는 이렇게 조건에 해당하는 컬럼들을 리스트 형태로 구해서 subset에 넘겨주었는데, 선생님 풀이를 보니 subset=['f1'] 이런 식으로 조건에 해당하는 컬럼의 이름을 직접 명시하셨더라구요..!이런 문제를 풀 때 조건문을 이용해서 조건에 해당하는 컬럼들을 일괄적으로 선택할 필요는 없나요?제가 아직 이 시험의 문제 유형을 잘 파악하지 못했는데, 이 시험이 혹시 코딩테스트를 예로 들면 "2+3의 값을 출력하시오" 라는 문제의 답을 print(2+3)이 아닌 print(5)로 써도 답은 맞으니 정답 처리가 되는 방식인가요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델, 평가, 예측
예를 들어 평가지표가 여러개인 경우 코드는 다 작성하고 바로 예측하면 되나요?? 평가랑 예측의 상관성을 잘 모르겠습니다. 보통 코드에 평가 지표를 여러개 작성하는데 그게 다 반영돼서 예측하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실행 실패했는데 봐주실 수 있으실까요? ㅠㅠ
안녕하세요 퇴근후딴짓님! 다름 아니라 안내대로 작성했는데 계속 실행실패가 나와서 왜 그런것인지 궁금합니다 ㅠㅠ.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 자료 선택
2유형 개념 강의 중 classification(분류) 문제 질문있습니다. label 인코딩 할 때 범주형 자료를 선택하기 위해cols = train.select_dtypes(include='object')를 사용한다고 했습니다. 그 후 Min-Max 스케일링을 진행할 때 강의에서는 리스트 형태로 cols 변수에 직접 수치형 컬럼을 입력했지만cols = train.select_dtypes(exclude='object') 또는 include=['int','float'] 으로도 선택할 수 있을 것을 것이라 생각해서 실행했더니 에러가 발생합니다.ValueError: Boolean array expected for the condition, not int64 제 방법대로 진행했을 때 cols에 선택된 데이터를 보면 강의에서 직접 리스트 형태로 입력한 컬럼에 추가로 'id' 컬럼이 더 선택된 것으로 보입니다. 이렇게 진행했을 때 왜 에러가 발생하는지, 에러가 발생하지 않아도 id 컬럼이 추가로 선택된 상태로 진행했을 때 문제가 있는지 질문 드립니다! 강의 내용cols = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week'] def get_data(): train_copy = train.copy() test_copy = test.copy() return train_copy, test_copy train_copy, test_copy = get_data() from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() display(train_copy[cols].head(2)) train_copy[cols] = scaler.fit_transform(train_copy[cols]) test_copy[cols] = scaler.transform(test_copy[cols]) display(train_copy[cols].head(2))제 코딩 내용은 위 코드에서cols = ['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss', 'hours.per.week']부분을cols = train.select_dtypes(include=['int','float']) 또는 cols = train.select_dtypes(exclude='object')이렇게 바꿨습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3 소문제3번 등분산
등분산이라는 명확한 언급이 없어서 등분산이라고 가정하고 t검정을 수행하신건가요??분석 흐름 때문에 등분산이라고 생각하셨다고 하는데 구체적인 이유가 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
비교 연산자 == 의 해석이 어려워요
19강 작업형1 모의문제2 문제 6번에서 df['age']==round(df['age'],0) 위의 코드가 어떤 방식으로왼쪽과 오른쪽 값이 같으면 '정수형'이고 다르면 '소수점'이라는 판단을 내릴 수 있건지 이해하기가 어렵습니다.