-
카테고리
-
세부 분야
자격증 (데이터 사이언스)
-
해결 여부
해결됨
n개 데이터 합치기/분리하기 질문
23.06.07 20:58 작성 23.06.07 21:35 수정 조회수 235
0
라이브러리 및 데이터 불러오기 그리고 EDA강의중,
17:04->데이터 합치기
19:03->데이터 분리하기 부분입니다.
N개의 데이터를 합치고 분리할 때
2개가 주어진 경우와 3개가 주어진 경우를 안다고 가정하고 ['income']을 기준으로 합치거나 분리하시던데,
시험에서는 2개나 3개 중 한가지로만 주어지지 않나요? 그럴 경우 어떤 컬럼을 기준으로 합/분리하는지 어떻게 알 수 있을까요..?
같은 강의의 EDA 전반
y_train데이터에 대해서는 결측치나 타입,크기 등을 확인하지 않아도 되는건가요..?
데이터전처리 강의에서
11:00->결측치채우기 -최빈값에서
mode() [0] 을 쓰시던데 [0]이 의미하는 바가 무엇인지 알고싶습니다!
답변을 작성해보세요.
0
퇴근후딴짓
지식공유자2023.06.07
2회를 제외하고 모두 2개로 제공되었어요! 그래서 2개로 연습을 권장합니다. dataq홈페이지 공식 예시문제는 3개로 제공하고 있어요 따라서 만약에 3개로 제공 되었을 때 연습했던 것과 다르면 안되니 합치고 시작하는 것을 추천합니다.
Xtrain과 ytrain은 일반적으로 순서대로 되어 있어서 기준을 세울 필요는 없습니다. pd.concat([X, y], axis=1)로 옆으로 합칠 수 있어요 axis가 0이면 위아래로 합쳐집니다.
영상에서 합칠 땐 y_train에 있는 id값을 필요 없으니 (중복) income만 합쳤습니다.X_train과 합쳐서 함께 확인하면 좋을 것 같네요 :)
y는 결측치가 있을린 없을 것 같아요! 크기를 확인해보면 보통 컬럼이 1개(레이블만 있음)이거나 2개(아이디와 레이블 있음)입니다. 타입은 확인을 해주셔야 해요! 숫자가 아니면 변경이 필요합니다 :) -> 전처리에서 작업함mode()는 최빈값을 구해요! 다만 mean(), sum()과 달리 시리즈 자료형으로 반환합니다.
시리즈로 반환하는 이유는 빈도수가 같은 값이 1개가 아니라 여러개일 수도 있어요!
1개여도 시리즈 형태로 반환되다보니 값만 반환받기 위해서는 인덱스 [0]을 넣어서 값만 받을 수 있어요
mode()로 출력해보고 [0]을 붙여서 출력해보면 이해가 되실거에요~
응원하겠습니다 :)
답변 1