inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라이브러리 및 데이터 불러오기 그리고 EDA (Old)

데이터 분리하기 문의드립니다.

해결된 질문

122

강민균

작성한 질문수 29

0

라이브러리 및 데이터불러오기 20분지점

 

주어진 데이터 분리하기

 

train=pd.read_csv("train.csv")

test=pd.read_csv("test.csv")

 

가 주어졌습니다.

 

이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.

train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,

여기서는 income을 삭제했는데 왜 삭제했는지

이해가 안 갑니다. 설명을 바랍니다.

 

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

주어진 데이터를 합쳤다가 분리를 진행했어요

train과 test를 합쳤는데 이때 train에는 income데이터가 있고

test에는 income 데이터가 없다보니

합쳤다가 분리하면 test에 income 컬럼이 생기게 됩니다 (모두 결측치)

 

이에 해당 컬럼을 삭제할 필요가 있어 삭제했어요!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.
강민균님, 주어진 데이터에서 traintest를 분리하는 과정은 흔히 머신러닝 모델을 훈련하고 평가하기 위해 사용하는 기본적인 절차입니다.

train 데이터는 모델을 학습시키는 데 사용되며, test 데이터는 학습된 모델의 성능을 평가하는 데 사용됩니다. 이렇게 데이터를 분리하는 이유는 모델이 보지 못한 새로운 데이터를 얼마나 잘 예측하는지 확인하기 위해서입니다.

타겟 레이블(target label)을 생성하는 과정에서, 만약 income 변수와 같은 특정 변수(레벨)가 삭제된다면 이는 보통 해당 변수가 예측의 대상이 되기 때문입니다. 즉, income을 예측하기 위해 다른 변수들을 활용하여 모델을 학습시키고자 하는 경우가 많습니다. 그렇기 때문에 목표 변수는 train 데이터에서 제거될 수 있습니다.

보다 세부적인 설명이나 단계는 해당 강의의 구체적인 지점에서 제공될 수 있기 때문에, 관련된 영상의 해당 위치를 다시 한번 확인해 보는 것도 좋은 방법입니다. 추가로, 수강 전 문의 게시판이나 문의하기 기능을 통해 강의자에게 직접 질문을 남기시면 더 구체적인 답변을 얻으실 수 있습니다.

강의 자료 관련해서는 여기를 참고해 주세요.

작업형1 강의 수강 완료 후..

0

6

0

작업형1 모의문제 4번에 3)문제 질문

0

15

2

이상치 전처리 작업

0

22

2

평가결과값 문의

0

27

2

시계열 데이터 날짜와 시간 format

0

31

2

평가지표 F1 스코어 질문드립니다.

0

24

2

작업형 2 기출7회분에서

0

36

2

작업형2 모의문제1 (30강)

0

34

2

수강 기간 연장 문의 드립니다.

0

41

2

수강 계획과 관련해 문의 드립니다.

0

28

2

작업형1 - 연습문제 16~39 풀이는 몇강을 보면 되나요?

0

50

2

작업형 1 -연습문제 4-6

0

38

2

작업형 1 유형 부분

0

42

2

작업형 1 (삭제예정, 구 버전)

0

51

2

수강기간 연장 문의드립니다.

0

38

2

2유형 레이블 인코딩 VS 원핫 인코딩

0

37

3

수강기간 연장 문의드립니다.

0

44

2

인덱스 슬라이싱

0

37

2

질문 드립니다.

0

50

2

강의 내용 관련 질문드립니다~

0

46

2

수강 연장 문의

0

63

2

강의자료 일괄 다운로드

0

61

2

수강기간 연장 문의드립니다

0

48

2

list 문제 질문드립니다~

0

38

2