train 데이터 생성시 제거하는 컬럼
190
작성한 질문수 88
답변 1
0
안녕하십니까,
음, train 데이터는 학습을 위한 의미가 있는 feature로만 구성합니다. 그러니까, 학습을 위해서 어떤 특성이 있는 값으로 구성을 합니다.
그런데 id와 같은 식별자는 그런 역할을 하지 못합니다. 오히려 id와 같은 식별자는 식별자적인 특성을 학습하게 되면 오히려 오버피팅이 될 수 있는 가능성이 있습니다.
그래서 user_id, product_id, order_id와 같은 식별자 컬럼은 학습 데이터를 생성하는 feature 데이터에서는 제외되어야 합니다.
감사합니다.
0
음.. 그럼 유저의 성향(feature)들은 user_mart에 모두 만들어 놓았으니(예: usr_avg_prd_cnt), 이런 "feature" 들을 사용하고, 식별자 역할을 하는 것은 모두 빼줘야 한다는 말씀이신가요?
"식별자" 를 feature에서 제거해줘야 한다는 것은 뭔가 일반적으로 통용되는 원칙 것이겠군요..;?
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
63
3
데이터 브릭스 이슈
0
111
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
101
2
community edition 가입 문의
0
113
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
171
2
클러스터 버전 설정
0
136
3
instacart market basket analysis
0
191
3
spark 추가 학습 관련 질문
0
235
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
405
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
376
2
강의가 재생되지 않음
0
266
2
후속 강의 계획 질문드립니다.
0
374
1
spark_xgboost_lightgbm 강의부분 관련
0
476
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
327
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
574
1
SPARK 2 강의 오픈
0
499
1
Spark ML 모델 서빙
0
571
1
mac os ) zip 파일 dataframe 오류
0
674
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
631
1
TrainValidationSplit과 randomSplit 사용 질문
0
403
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
519
1
cluster 생성 Database runtime version 질문
0
277
1
Pandas vs Spark: 비용, 처리시간 비교
0
1241
1





