묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형 2 수치형/범주형 분리
기출 3회 작업형 2에서 피처엔지니어링 전 df.select_dtypes(exclude = "o").copy() .... 로 트레인 데이터와 테스트 데이터를 수치와 범주형으로 나눈 후수치형 MinMaxScaler범주형 원핫인코딩으로 각각 피처링을 하셨는데이때 수치형을 보면 cols = ["A", "B"...]로 오브젝트형을 지정하셨더라구요. 피처엔지니어링때 cols =[ ] 를 별도 지정하더라도 위 데이터를 나누는 과정이 필수일까요?? 아래처럼 해도 되면 concat도 필요없을거 같아서요.예) df.select_dtypes(exclude = "o").copy() << 이과정없이from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()cols = ['Age', 'FamilyMembers']train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.transform(test[cols]) from sklearn.preprocessing import LabelEncodercols = ['Nationality']for col in cols:le = LabelEncoder()train[col] = le.fit_transform(train[col])test[col] = le.transfrom(test[col])
-
미해결비트코인 선물거래 자동매매 시스템(저자직강)
수업질문
안녕하세요 혹시 파이참이랑 주피터 말고 아나콘다로 vs 코드 실행하여 수업을 들어도 무방한가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 베이스라인/라벨인코딩/원핫인코딩 질문
강의를 보니 베이스라인의 경우 object칼럼을 날리고 수치형으로만 했음에도 정확도가 높은 결과가 나왔습니다그런데 실제 시험에서도 저렇게 임의로 칼럼을 날리면서 진행해도 큰 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 10. 예시문제 작업형3(신 버전) 강의 질문있습니다!
선생님! 6:05초에 logit("종속변수 ~ 독립변수 + " ) 넣어줄때요, 종속변수는 문제에서 생존여부(Survived)를 예측하고자 한다고 했기때문에 종속변수가 되는걸까요? 아니면 문제 1번에서 Gender 와 Survived 간의 독립성 검정을 한다고 했을때 문제 2번에 Gender가 독립변수인게 적혀있기 때문에 Survived 는 자동으로 종속변수가 되는걸까요? 종속변수를 어떻게 확인해야 하는지 잘 모르겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번 실기셤 까지 듣고 싶어요.
안녕하세요~!수강기간이 얼마 안남았네요. 이번 실기시험까지는... 강의 연장 가능할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 피쳐엔지니어링 인코딩 부분에서 질문
안녕하세요. 3-4 피쳐엔지니어링에 인코딩 부분에서 질문이 있습니다. 파일에선 범주형 칼럼을 추출하기 위해 X_train.columns[X_train.dtypes == object] 를 사용했는데 cols = X_train.select_dtypes(include= "O").columns 로 해도 동일하게 작업이 가능한가요? 최대한 단순하게 외우고 싶어서 이게 가능하다면 select_dtypes() 사용하는걸로 외우려고요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형(작업형2)
4회 기출 유형(작업형2)까지 수강하였을 때, 제가 이해한 내용은 다음과 같습니다. <모델의 성능을 평가하는 방법>데이터 분리 (X_tr, X_val, y_tr, y_val) → 모델 학습 & 하이퍼 파라미터 튜닝 → 평가 (f1 score, roc_auc_score 등) 하이퍼 파라미터 튜닝의 값을 조절해가며 평가 점수 확인데이터 분리 없이, 모델 학습 & 하이퍼 파라미터 튜닝 → 교차검증 (cross_val_score) 이때 질문드립니다.제가 이해한 대로, 모델의 성능을 평가하는 방법이 위의 2가지가 있는게 맞을까요?강사님이 영상에서 교차검증을 사용한 이유는 문제에서 평가 방식을 '평가: Macro f1-score'라고 제시해주었기 때문인가요?혹시 실제 시험 상황에서 평가 방식을 제시해주지 않는다면, 위의 2가지 방법 중 어떤 것을 사용해도 상관이 없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 원핫인코딩 관련 질문입니다.
원핫인코딩 시, 만약에 test 데이터에 train에서 포함하지 않은 값이 있어 컬럼이 하나 더 생기는 상황이 발생한다면레이블인코딩으로 진행해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum(), len(), count() 각각 언제 사용되는지 차이가 궁금합니다
합계, 길이, 개수 이런식으로 문제에 명시되지 않고 데이터 수를 구하여라 이런 식으로 적혀있을 때, sum이 사용된 적도 있고 len이 사용된 적도 있는데 sum(), len(), count() 각각 언제 사용되는지 궁금합니다수치형, 범주형에 따른 사용 가능 여부 차이도 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8번문제 groupby로 sum하는 경우
Groupby로 Sum하는 경우, 영상처럼 f2, age, fi, f5, views 열만 나오는게 아니라 id, f3, f4 열도 데이터들이 합쳐져서 나오는데 왜 그런가요?선생님은 숫자값이 적혀있는 열들만 합쳐져서 나오는데 저는 string 값도 더해져서 나오는 것 같습니다..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 할때
선생님! iloc같은경우 인덱스값은 그 앞에 까지 뽑기때문에 +1 해주는 범위까지 설정 해 주는것인데, 컬럼 번호 쓸때는 해당 없는거 같네요?! quiz 2번 푸는데 iloc로 메뉴~할인율 까지 할때 범위를 :3으로 하시길래요! 위에 설명할때는 iloc때 범위를 :로 나타낼 때 마지막을 포함하지 않는다고 하셨는데, 인덱스만 포함하지 않는게 맞는거죠?
-
미해결파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
Qouta 리스트에 아무것도 안나옵니다.
spot이라고 검색을 하면 머라고 나와야하는데 아무것도 안나옵니다.. 제가 빠트린 작업이 있을까요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
group by agg function failed 에러
1.5 groupby 까지 안막히고 잘 오다가여기서 막힙니다.df_last.groupby(["지역명"]).mean()작성했을때 TypeError: agg function failed [how->mean,dtype->object]에러가 뜹니다. 그런데 이어서 ["평당분양가격"]을 타이핑 하면 정상 결과가 나옵니다. 무슨 문제일까요.,?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Robustscaler 질문
수치형은 robustscaler를 사용하려고 하는데여from sklearn.preprocessing import RobustScaler scaler = RobustScaler() cols = x_train.select_dtypes(exclude='object') for col in cols: x_train[col] = scaler.fit_transform(x_train[col]) x_test[col] = scaler.transform(x_test[col])이렇게 하면 ,ValueError: Expected 2D array, got 1D array instead:array=[ 888. 1308. 151. ... 173. 1244. 893.].Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.이런 오류가 납니다... 어떻게 수정해야 하나여
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩에서 0,1이 아니고 False,True가 나옴
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요원핫 인코딩에서 0,1이 아니고 False,True가 나옴
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
XML 파일 파싱 시 read_xml()함수 사용
강의 중 xml파일을 파싱하는 내용이 두 강의에 걸쳐서 길게 있는데 판다스 라이브러리 1.30 이상부터 쓸 수 있다는 pandas.read_xml 함수를 이용하면 안될까요? csv는 read_csv()를 자주 사용하는 것 같은데 xml 파일은 매번 복잡하게 데이터 프레임으로 바꿔야 하는건지 두렵네요..ㅎ 혹시 read_xml 함수를 일부로 사용하지 않으시는 거라면 그 이유도 궁금합니다!
-
미해결파이썬 무료 강의 (활용편5) - 데이터 분석 및 시각화
goupby.mean() 오류
그룹화 강의에서 df.groupby('학교').mean() 이 문을 실행했을때 TypeError가 나타나는데 강사님께서는 결과값이 잘 나옵니다. 어떤 차이인지 그리고 어떤 부분이 틀린건지 알고싶습니다.자료형 문제인거 같은데 정확히 모르겠어서 문의드립니다. <데이터><오류 내용>
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측값 채우지관련해서
안녕하십니까? 결측값 채우기 중 최빈값 관련해서,,m = X_train['workclass'].mode()[0] 여기서 mode()과 mode()[0]의 차이는 무엇인지요? 즉 [0]의 쓰임이 무엇인지? 다른 중앙값, 평균 등은 이런게 없는데 왜 최빈값만 이런게 뒤에 붙는지요?
-
해결됨5분빨리 퇴근하자! 파이썬 데이터 분석, 시각화, 웹 대시보드 제작하기
button과 checkbox 조건문과 함수
버튼과 체크박스 모두 조건문을 사용할 때는 바로 아래에 텍스트가 출력되는데, 함수를 사용하면 대시보드 맨 위에 텍스트가 호출되는 것은 왜 그런건가요?(맨 위에 텍스트가 호출되어 출력된 부분이 전부 다 한 칸 씩 밀리게 됨)
-
해결됨5분빨리 퇴근하자! 파이썬 데이터 분석, 시각화, 웹 대시보드 제작하기
annot 수치 표현
age_bin_list = np.arange(10, 80, 10) df['age_bin'] = pd.cut(df['age'], bins = age_bin_list) pivot_df = df.pivot_table( index = 'age_bin', columns = 'region', values = 'charges', aggfunc = 'median' # 각 구간에 해당하는 값을 중간값을 사용하겠다. ) pivot_df # 각각의 값들에 대해 크기를 가늠할 수 있게끔 시각화(주로 색상)하는 방법 # 2D 형식으로 준비된 데이터를 Seaborn heatmap으로 시각화 # annot 인자를 통해 각 셀의 값 표현 가능 fig, ax = plt.subplots() sns.heatmap(pivot_df, ax = ax, annot = True)코드 똑같이 따라했는데 왜 저는 표에 수치가 다 표현이 안되는 건가요?