강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

taehyeonjang님의 프로필 이미지
taehyeonjang

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

팩터형 변수가 많을 경우

작성

·

223

0

안녕하세요 작업형2 예제 문제에서 주구매상품이랑 주구매지점의 경우 팩터형 변수로 지우고 분석해도 모델성능에 큰 차이는 없다라고 하셨습니다.

혹시 다른 데이터 예시에서 변수는 20개 정도 되고 팩터형 변수가 15개 정도(레벨수 2~4개) 된다고 하면 분석을 어떻게 해야할까요?

팩터형 변수를 전부 삭제하는 방법은 안될 것 같아서요..

답변 1

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

안녕하세요.

 

강의때도 말씀드렸지만 레벨수가 2~4개 정도된다고 하면 그대로 이용하시면 됩니다.

스크립트도 자동으로 원핫인코딩이 들어가는 코드이기 때문에 특별히 처리하실 것도 없습니다.

 

저는 팩터형변수를 삭제하는 것을 권하지 않습니다.

정확한 숫자를 지정하긴 어렵지만 팩터형변수의 레벨이 너무많다면

(특히 자료내의 오타등으로 인해서 발생함) 삭제하는 것을 권합니다. 

 

str나 levels등의 명령어로 레벨을 확인했는데 이상한 값이 들어가서 레벨이 너무 많다면 삭제를

그렇지 않고 애초에 레벨이 많은 변수이고 전체 데이터셋에 그런 변수가 한 개정도라면 이용을 권합니다.

 

기본적으로 빅데이터분석기사는 국가공인시험이고 단답형이 아니고 풀이를 요구하기 때문에

만약 위와 같은 경우 팩터형 변수 하나를 삭제했다고 해서 모델의 성능이 급격이 떨어지지 않습니다.

그렇게 한 가지 방법을 강제하는 문제를 낼 수 없기 때문입니다.

특정 변수의 중요도가 높은 유형의 문제를 내기도 어렵습니다. 

이 점을 이용해서 위와같은 경우에만 삭제하는 것이 낫다고 말씀드렸습니다.

 

그럼 좋은하루되세요!

 

taehyeonjang님의 프로필 이미지
taehyeonjang

작성한 질문수

질문하기