강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

요리꿈나무님의 프로필 이미지
요리꿈나무

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

모델 생성 전 preProcess 적용 시 성능에 대한 질문

작성

·

258

0

안녕하세요.

모델 생성 하기 전 df를 preProcess 함수를 적용하여 표준화 또는 일반화를 하고나서

모델을 생성하게되면 성능이 더 좋아지는지요?

실제 시험에서도 표준화, 일반화 등을 하면 좋을지요?

 

그리고 bagImpute를 실제 시험에서 적용하여 NA값을 조정해주어도 될까요?

NA가 있는 칼럼이 많으면 각각 조정하는게 헷갈리거나 실수가 생길 수 있을 것 같아서요.

답변 2

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

네. 솔직히 작업 2유형이 정해진 스크립트대로 움직이면 기본점수는 획득이 가능하고

모델 성능차이가 엄청 크게 나지 않기 때문에 가장 편하다고 생각합니다.

 

단답형은 필기공부하셨을 때 기억만 되살리면 최소 70%는 맞을 수 있을 것 같습니다.

말씀하신대로 작업1유형이 어디로 튈지 몰라서 가장 애매하긴 합니다.

 

그래서 결측치가 존재하는 airquaility와 편하게 다룰수 있는 iris로 많이 연습이 필요합니다.

예상문제를 만들고 등록하는 건 단시간내에 어렵지만 추후에 등록할 수 있도록 해보겠습니다.

 

제 경험을 말씀드리면 위의 데이터셋으로 혼자 문제를 내고 풀어보는 것을 많이 했습니다.

강의 전체적으로 보면 다루고 있는 문제수가 적지 않기 때문에 변수명과 처리방법을 바꿔가면서

다양하게 풀어보시면 될 것 같습니다.

이미 이런 고민을 하시는 것 자체가 합격가능성이 매우 높은 분이라는 생각이 듭니다.

이만 줄이겠습니다! 좋은결과 있으실꺼예요!

큰 용기를 주셔서 너무 감사합니다.ㅠㅠ

덕분에 많이 배우고 있습니다.

고맙습니다.

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

안녕하세요. 

1) 잘 아시다시피 표준화, 정규화가 필요한 알고리즘이라면 반드시 수행해야 합니다. (거리기반 알고리즘 등)

 그런데 제가 스크립트로 드린 의사결정나무나 일반회귀 모델은 굳이 필요하지는 않습니다.

 만약 성능이 좋아진다고해도 데이터에 따라 다른 결과가 나올 것으로 보이고 

 알고리즘 자체가 반드시 그 절차를 요구하지는 않기 때문에 필요는 없다고 판단됩니다. 

 실제로 저도 하지 않았습니다. 

 또한, 그 절차로 인해 모델의 성능이 좋아지는 정도가 시험의 당락을 결정할 정도가 아니기 때문에

 굳이 하지 않으셔도 되지만 선택의 문제라서 손 가시는 대로 하시면 될 것 같습니다.

 

2) 네. NA가 많이 있는 변수라면 조정해주는게 맞습니다. 시험에서 출제한 의도도 그렇다고 보여집니다.

 R기준으로 오타등으로 인해 강제로 factor형으로 발생된 칼럼은 과감하게 제외하라고 말씀드렸는데

 numeric 변수라면 NA값이나 이상치를 좀 정리해주고 모델을 구축하는 것이 맞다고 판단됩니다.

 제 스크립트(출제예상.txt)에도 이상치 정리 및 결측치보완을 한 것을 보실 수 있습니다.

 단, bagging 알고리즘 상 데이터 분할전에 미리 하시는 것을 추천드립니다.

 

감사합니다.

답변 감사드립니다.

희안하게 작업 2유형에서 강한 자신감이 들고

단답형은 조금만 공부하면 되겠다 싶은데요.

작업 1유형이 걱정됩니다.

알려주신 함수들 이외에 제가 모르는 문제가 출제될까 두렵네요.ㅠㅠ

혹시 작업 1유형에 대해 완벽하게 준비할 수 있도록 

추가적으로 예상문제 만들어 주실 수 있으실까요?

요리꿈나무님의 프로필 이미지
요리꿈나무

작성한 질문수

질문하기