inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

데이터 분석 도메인의 이해 - 02

수치 데이터의 경우 도메인을 정의할 수 있나요?

해결된 질문

213

박창언

작성한 질문수 2

0

안녕하세요. 제가 주로 다루는 데이터는

특정 지역에서 나타난 어떠한 것들의 개수 인데요.

이런 수치데이터만 있는 경우는 도메인, 데이터 수집과 가공이

잘 매치가 안되는데 수치만 있는 데이터들도

도메인을 정의하고 데이터가공이 가능한지 궁금합니다.

머신러닝 배워볼래요? kaggle

답변 2

1

권 철민

안녕하십니까,

데이터 타입에 관계 없이 데이터  도메인은 충분히 분석되고 정의될 수 있습니다. 

하지만 질문의 의도는 이것 보다는 일반적으로 feature/컬럼들이 매우 많은 metric이나 수치값으로 이뤄져있고,  제대로 도메인, 정의 매칭이 어려운 경우를 지칭하는 걸로 판단됩니다.

데이터 분석 도메인을 세운다는 것은 분석하려는 데이터의 본질적인 의미가 무엇인지 파악하는 것이 첫째 입니다.  데이터가 어떤 기준으로 새롭게 만들어 지는지, 이 데이터의 본질적인 식별자(데이터를 유일하게 만드는 식별자), 해당 피처들의 개별적인 의미가 무엇인지 지속적으로 파악하고 분석하자는 것입니다.

하나씩 파고들면 어떤 피처들은 좀더 그룹화/카테고리화 되어 질수 있습니다. 강의의 예에서는 고객이라고 한다면, 고객의 등급, 고객의 성별, 고객 관리 조직등 특성들에 따라서 여러가지 속성들을 그룹화 할 수 있습니다. 이렇게 그룹화 하면서 새로운 피처들이 추가될 수 있는지, 또는 아예 새로운 그룹을 만들수 있는지 보다 다양한 분석의 요소를 끄집어 낼 수 있습니다.

이게 어떤 규칙이 있는게 아닙니다. 그룹화 또는 세분화 작업을 수행하면서 데이터(또는 테이블) 자체의 본질적인 의미, 개별 피처들이 어떠한 그룹 속성에 속하는지, 그리고 분석하고자 하는 목표에 맞춰서 추가적인, 또는 기존 피처들을 가공해서 새로운 피처들을 만들어 내고자 하는 시도를 계속적으로 하면 추상적이었던 데이터 개념이나 피처들의 의미가 보다 명확해지고 이를 기반으로 분석 고도화를 가능하게 할 수 있습니다.

해당 데이터가 너무 많은 수치값으로 되어 있다고 포기하지 마시고, 먼저 비슷한 속성끼리 묶어서 그룹화 하면서 적절한 그룹명을 생각해 보시고, 이런 식으로 하나씩 확장해 가면서 데이터 도메인을 스스로 정해 보시는게 분석 능력을 향상 시키는데 큰 도움이 될 것입니다.

감사합니다.

0

박창언

안녕하세요.

20여 개의 지역에서 20년 동안 나타난 수백개의 품목들에 관한 내용이라서 수치가 오로지 개수 밖에 없는 상황인데

선생님 말씀 듣고 지역, 연도, 품목 별로 따로 떼어내서 본다던지 묶어서 본다던지에 대해 어느정도 답을 얻은 것 같습니다.

품목 속성도 제 나름대로 붙여 볼 수 있을 것 같습니다. 

정성껏 써주신 답변 덕분에 도움이 많이 되었습니다.

감사합니다.

sql사용

0

45

2

좋은 강의 감사드립니다.

0

73

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

599

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

초거대 데이터셋을 Submission하려면?

0

190

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

588

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1981

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

359

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

538

1

컬럼 관련 질문

0

280

1

히스토그램 x 값

0

364

1

n_iter 횟수 넘음 질문

0

488

2