n개 데이터 합치기/분리하기 질문
라이브러리 및 데이터 불러오기 그리고 EDA강의중,
17:04->데이터 합치기
19:03->데이터 분리하기 부분입니다.
N개의 데이터를 합치고 분리할 때
2개가 주어진 경우와 3개가 주어진 경우를 안다고 가정하고 ['income']을 기준으로 합치거나 분리하시던데,
시험에서는 2개나 3개 중 한가지로만 주어지지 않나요? 그럴 경우 어떤 컬럼을 기준으로 합/분리하는지 어떻게 알 수 있을까요..?
같은 강의의 EDA 전반
y_train데이터에 대해서는 결측치나 타입,크기 등을 확인하지 않아도 되는건가요..?
데이터전처리 강의에서
11:00->결측치채우기 -최빈값에서
mode() [0] 을 쓰시던데 [0]이 의미하는 바가 무엇인지 알고싶습니다!
답변 1
0
2회를 제외하고 모두 2개로 제공되었어요! 그래서 2개로 연습을 권장합니다. dataq홈페이지 공식 예시문제는 3개로 제공하고 있어요 따라서 만약에 3개로 제공 되었을 때 연습했던 것과 다르면 안되니 합치고 시작하는 것을 추천합니다.
Xtrain과 ytrain은 일반적으로 순서대로 되어 있어서 기준을 세울 필요는 없습니다. pd.concat([X, y], axis=1)로 옆으로 합칠 수 있어요 axis가 0이면 위아래로 합쳐집니다.
영상에서 합칠 땐 y_train에 있는 id값을 필요 없으니 (중복) income만 합쳤습니다.X_train과 합쳐서 함께 확인하면 좋을 것 같네요 :)
y는 결측치가 있을린 없을 것 같아요! 크기를 확인해보면 보통 컬럼이 1개(레이블만 있음)이거나 2개(아이디와 레이블 있음)입니다. 타입은 확인을 해주셔야 해요! 숫자가 아니면 변경이 필요합니다 :) -> 전처리에서 작업함mode()는 최빈값을 구해요! 다만 mean(), sum()과 달리 시리즈 자료형으로 반환합니다.
시리즈로 반환하는 이유는 빈도수가 같은 값이 1개가 아니라 여러개일 수도 있어요!
1개여도 시리즈 형태로 반환되다보니 값만 반환받기 위해서는 인덱스 [0]을 넣어서 값만 받을 수 있어요
mode()로 출력해보고 [0]을 붙여서 출력해보면 이해가 되실거에요~
응원하겠습니다 :)
실기시험 제출관련
0
133
2
6.20 작업형 2 과적합
0
145
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
41
2
로지스틱회귀, 회귀
0
47
2
회귀 문제를 풀때 질문입니다.
0
52
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
60
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
46
2
3번문제 등분산 가정
0
46
2
작업형3 target 형 변환 질문
0
34
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
56
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
49
2
수강 기간 연장 가능 여부 문의드립니다.
0
58
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
38
2
2유형 작성관련 질문
0
39
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2
작업형2 ID 컬럼 삭제 질문
0
45
2
2유형 작성관련 질문
0
32
2





