inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라이브러리 및 데이터 불러오기 그리고 EDA (Old)

데이터 분리하기 문의드립니다.

해결된 질문

125

강민균

작성한 질문수 29

0

라이브러리 및 데이터불러오기 20분지점

 

주어진 데이터 분리하기

 

train=pd.read_csv("train.csv")

test=pd.read_csv("test.csv")

 

가 주어졌습니다.

 

이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.

train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,

여기서는 income을 삭제했는데 왜 삭제했는지

이해가 안 갑니다. 설명을 바랍니다.

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

주어진 데이터를 합쳤다가 분리를 진행했어요

train과 test를 합쳤는데 이때 train에는 income데이터가 있고

test에는 income 데이터가 없다보니

합쳤다가 분리하면 test에 income 컬럼이 생기게 됩니다 (모두 결측치)

 

이에 해당 컬럼을 삭제할 필요가 있어 삭제했어요!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.
강민균님, 주어진 데이터에서 traintest를 분리하는 과정은 흔히 머신러닝 모델을 훈련하고 평가하기 위해 사용하는 기본적인 절차입니다.

train 데이터는 모델을 학습시키는 데 사용되며, test 데이터는 학습된 모델의 성능을 평가하는 데 사용됩니다. 이렇게 데이터를 분리하는 이유는 모델이 보지 못한 새로운 데이터를 얼마나 잘 예측하는지 확인하기 위해서입니다.

타겟 레이블(target label)을 생성하는 과정에서, 만약 income 변수와 같은 특정 변수(레벨)가 삭제된다면 이는 보통 해당 변수가 예측의 대상이 되기 때문입니다. 즉, income을 예측하기 위해 다른 변수들을 활용하여 모델을 학습시키고자 하는 경우가 많습니다. 그렇기 때문에 목표 변수는 train 데이터에서 제거될 수 있습니다.

보다 세부적인 설명이나 단계는 해당 강의의 구체적인 지점에서 제공될 수 있기 때문에, 관련된 영상의 해당 위치를 다시 한번 확인해 보는 것도 좋은 방법입니다. 추가로, 수강 전 문의 게시판이나 문의하기 기능을 통해 강의자에게 직접 질문을 남기시면 더 구체적인 답변을 얻으실 수 있습니다.

강의 자료 관련해서는 여기를 참고해 주세요.

뒤로가기 버튼 같은 것이 있나요?

0

28

1

강의 연장 문의

0

32

1

출력값 질문

0

31

2

수업노트가 어디에 있나요?

0

29

1

실기시험 제출관련

0

160

2

6.20 작업형 2 과적합

0

169

3

코딩팡 장업형2 베이스 라인 인코딩 종류 질문

0

54

2

로지스틱회귀, 회귀

0

52

2

회귀 문제를 풀때 질문입니다.

0

59

1

불균형 처리 후 성능이 더 낮아졌다면,

0

66

2

실기 체험 제2유형 에러 문의

0

66

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

52

2

3번문제 등분산 가정

0

50

2

작업형3 target 형 변환 질문

0

38

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

40

3

원핫인코딩과 레이블 인코딩에서 concat

0

62

2

제2유형 질문입니다.

0

49

2

C()

0

44

2

작업형 2에서 strafity 적용 유무

0

53

2

수강 기간 연장 가능 여부 문의드립니다.

0

63

1

ols

0

44

2

2유형 작성관련 질문(일반 심화)

0

41

2

2유형 작성관련 질문

0

42

2

2유형 object컬럼 개수 다르면

0

49

2