inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

train 데이터 생성시 제거하는 컬럼

190

nathan

작성한 질문수 88

0

안녕하세요
좋은 강의 감사드립니다.
 
ML 모델을 위한 학습과 테스트 테이블(데이터 세트) 생성하기 - 02  
1분 부분에서 train_data 만드는 부분에서 질문이 있습니다.
 
강의와 코드를 보면 user_id, product_id, order_id 를 train_data에 포함하지 않으시는데요
 
order_id는 어차피 train에 하나씩 있으니 상관없다고 해도
user_id와 product_id는 포함을 시켜줘야 하는 것 아닌가요?
어떤 유저가 priors 에서 재주문 비율이 높다면, train에도 user_id 를 넣어주어야 하는 논리로요
(product 도 마찬가지)

bigdata 머신러닝 배워볼래요? apache-spark 데이터 엔지니어링

답변 1

0

권 철민

안녕하십니까, 

음, train 데이터는 학습을 위한 의미가 있는 feature로만 구성합니다.  그러니까, 학습을 위해서 어떤 특성이 있는 값으로 구성을 합니다. 

그런데 id와 같은 식별자는 그런 역할을 하지 못합니다. 오히려 id와 같은 식별자는 식별자적인 특성을 학습하게 되면 오히려 오버피팅이 될 수 있는 가능성이 있습니다.  

그래서 user_id, product_id, order_id와 같은 식별자 컬럼은 학습 데이터를 생성하는 feature 데이터에서는 제외되어야 합니다. 

감사합니다. 

0

nathan

음.. 그럼 유저의 성향(feature)들은 user_mart에 모두 만들어 놓았으니(예: usr_avg_prd_cnt), 이런 "feature" 들을 사용하고, 식별자 역할을 하는 것은 모두 빼줘야 한다는 말씀이신가요?

"식별자" 를 feature에서 제거해줘야 한다는 것은 뭔가 일반적으로 통용되는 원칙 것이겠군요..;?

0

권 철민

네, 맞습니다. 

0

nathan

감사합니다 :)

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

113

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

191

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

405

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

574

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1