• 카테고리

    질문 & 답변
  • 세부 분야

    자격증 (데이터 사이언스)

  • 해결 여부

    해결됨

n개 데이터 합치기/분리하기 질문

23.06.07 20:58 작성 23.06.07 21:35 수정 조회수 235

0

  1. 라이브러리 및 데이터 불러오기 그리고 EDA강의중,

17:04->데이터 합치기

19:03->데이터 분리하기 부분입니다.

 

N개의 데이터를 합치고 분리할 때

2개가 주어진 경우와 3개가 주어진 경우를 안다고 가정하고 ['income']을 기준으로 합치거나 분리하시던데,

시험에서는 2개나 3개 중 한가지로만 주어지지 않나요? 그럴 경우 어떤 컬럼을 기준으로 합/분리하는지 어떻게 알 수 있을까요..?

 

  1. 같은 강의의 EDA 전반

    y_train데이터에 대해서는 결측치나 타입,크기 등을 확인하지 않아도 되는건가요..?

 

  1. 데이터전처리 강의에서

    11:00->결측치채우기 -최빈값에서

    mode() [0] 을 쓰시던데 [0]이 의미하는 바가 무엇인지 알고싶습니다!

답변 1

답변을 작성해보세요.

0

  1. 2회를 제외하고 모두 2개로 제공되었어요! 그래서 2개로 연습을 권장합니다. dataq홈페이지 공식 예시문제는 3개로 제공하고 있어요 따라서 만약에 3개로 제공 되었을 때 연습했던 것과 다르면 안되니 합치고 시작하는 것을 추천합니다.
    Xtrain과 ytrain은 일반적으로 순서대로 되어 있어서 기준을 세울 필요는 없습니다. pd.concat([X, y], axis=1)로 옆으로 합칠 수 있어요 axis가 0이면 위아래로 합쳐집니다.
    영상에서 합칠 땐 y_train에 있는 id값을 필요 없으니 (중복) income만 합쳤습니다.

  2. X_train과 합쳐서 함께 확인하면 좋을 것 같네요 :)
    y는 결측치가 있을린 없을 것 같아요! 크기를 확인해보면 보통 컬럼이 1개(레이블만 있음)이거나 2개(아이디와 레이블 있음)입니다. 타입은 확인을 해주셔야 해요! 숫자가 아니면 변경이 필요합니다 :) -> 전처리에서 작업함

  3. mode()는 최빈값을 구해요! 다만 mean(), sum()과 달리 시리즈 자료형으로 반환합니다.
    시리즈로 반환하는 이유는 빈도수가 같은 값이 1개가 아니라 여러개일 수도 있어요!
    1개여도 시리즈 형태로 반환되다보니 값만 반환받기 위해서는 인덱스 [0]을 넣어서 값만 받을 수 있어요
    mode()로 출력해보고 [0]을 붙여서 출력해보면 이해가 되실거에요~

응원하겠습니다 :)

duddl님의 프로필

duddl

질문자

2023.06.07

감사합니다~~!!