스파크 머신러닝 완벽 가이드 - Part 1

train 데이터 생성시 제거하는 컬럼

2022-04-15T18:28:43.989Z

190

nathan

작성한 질문수 88

안녕하세요

좋은 강의 감사드립니다.

ML 모델을 위한 학습과 테스트 테이블(데이터 세트) 생성하기 - 02  

1분 부분에서 train_data 만드는 부분에서 질문이 있습니다.

강의와 코드를 보면 user_id, product_id, order_id 를 train_data에 포함하지 않으시는데요

order_id는 어차피 train에 하나씩 있으니 상관없다고 해도

user_id와 product_id는 포함을 시켜줘야 하는 것 아닌가요?

어떤 유저가 priors 에서 재주문 비율이 높다면, train에도 user_id 를 넣어주어야 하는 논리로요

(product 도 마찬가지)

bigdata 머신러닝 배워볼래요? apache-spark 데이터 엔지니어링

답변 1

권 철민

2022-04-16T07:46:21.147Z

안녕하십니까,

음, train 데이터는 학습을 위한 의미가 있는 feature로만 구성합니다. 그러니까, 학습을 위해서 어떤 특성이 있는 값으로 구성을 합니다.

그런데 id와 같은 식별자는 그런 역할을 하지 못합니다. 오히려 id와 같은 식별자는 식별자적인 특성을 학습하게 되면 오히려 오버피팅이 될 수 있는 가능성이 있습니다.

그래서 user_id, product_id, order_id와 같은 식별자 컬럼은 학습 데이터를 생성하는 feature 데이터에서는 제외되어야 합니다.

감사합니다.

nathan

2022-04-16T15:09:51.509Z

음.. 그럼 유저의 성향(feature)들은 user_mart에 모두 만들어 놓았으니(예: usr_avg_prd_cnt), 이런 "feature" 들을 사용하고, 식별자 역할을 하는 것은 모두 빼줘야 한다는 말씀이신가요?

"식별자" 를 feature에서 제거해줘야 한다는 것은 뭔가 일반적으로 통용되는 원칙 것이겠군요..;?

권 철민

2022-04-16T15:13:34.829Z

네, 맞습니다.

nathan

2022-04-16T17:14:10.564Z

감사합니다 :)

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

2026-05-01T07:27:56.124Z

데이터 브릭스 이슈

2025-11-03T14:32:48.268Z

111

데이터 브릭스 가입

2025-11-02T14:40:24.139Z

pyspark local 설치

2025-10-30T02:29:24.403Z

101

community edition 가입 문의

2025-08-18T13:16:34.830Z

113

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

2025-05-12T06:29:36.632Z

171

클러스터 버전 설정

2025-05-05T04:55:51.933Z

136

instacart market basket analysis

2025-04-16T04:49:37.543Z

191

spark 추가 학습 관련 질문

2024-10-04T01:21:25.214Z

235

MLOps 관련 MLFLow 및 Databricks 모델 서빙

2024-02-14T05:24:58.312Z

405

train파일 업로드 중에 해당 경로가 없다고 뜹니다

2024-01-26T06:55:27.106Z

376

강의가 재생되지 않음

2023-12-13T13:21:08.737Z

266

후속 강의 계획 질문드립니다.

2023-09-05T14:53:52.420Z

374

spark_xgboost_lightgbm 강의부분 관련

2023-06-29T14:50:42.435Z

476

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

2023-06-10T08:52:13.470Z

327

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

2023-04-06T02:46:31.368Z

574

SPARK 2 강의 오픈

2023-03-21T12:09:48.459Z

499

Spark ML 모델 서빙

2023-03-19T11:56:32.964Z

571

mac os ) zip 파일 dataframe 오류

2023-03-02T03:18:59.285Z

674

ModuleNotFoundError : No module named 'mmlspark' - 20230218

2023-02-18T08:42:43.503Z

631

TrainValidationSplit과 randomSplit 사용 질문

2023-02-14T02:36:30.523Z

403

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

2023-01-11T10:51:30.220Z

519

cluster 생성 Database runtime version 질문

2023-01-04T09:43:32.251Z

277

Pandas vs Spark: 비용, 처리시간 비교

2023-01-03T01:41:15.217Z

1241