강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

Youngjun Joe님의 프로필 이미지
Youngjun Joe

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

작업형 2유형 질문

작성

·

241

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

 

 

안녕하세요 선생님의 강의로 준비를 열심히하고있는 학생입니다

나름 이제 방법을 터득해 1유형은 걍 데이터마님 캐글 등의 사이트 문제 반복 풀이, 2유형은 선생님의 말씀대로

Str, summary 를 통한 데이터 확인 후 결측치 있을시 삭제 혹은 평균화, 팩터형으로 바꾸기도하고, level 이 너오무 많을시 팩터형 삭제 등 까지만 하고 바로 datapartion에 들어갑니다

그런데 다른분들을 보니 위의 과정을 거친 후 scale도 하시고 주성분 분석 등 다양한 방법 후 데이터를 학습시키는거같은데..

여기서 질문입니다. 선생님 말씀대로 위의 과정을 간단히 (왜냐하면 변수에 대해 사전지식이 없기때문) 전처리하고 데이터를 학습시키기만 하더라도 완전 고득점까진아니더라도 반타작이상은 하지않을까 싶어서요… 선생님 고견은 어떠신지 여쭙니다

답변 1

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

안녕하세요.

일단, scale의 경우는 제가 쓰는 알고리즘이 거리기반 알고리즘이 아니라서 굳이 수행하지 않아도 됩니다. 사실 train 함수안에 파라미터를 적어서 scale을 하고 모델을 학습할 수 있습니다. 그런데 굳이 필요없는 부분이라 제외했습니다. 만약 거리기반 알고리즘을 사용한다면 반드시 사용해야 합니다.

나머지 주성분분석 같은 차원축소등의 알고리즘은 사용하지 않아도 됩니다. 제가 장담할 수는 없으나 (제4회시험이 4-Class가 나와서 이제 장담을 못하겠네요. 회귀문제가 나올수도있고..) 위에 적으신대로 예측모델을 한 개 이상만 제대로 수행해서 답안제출만 이상없이 한다면 합격 점수 득점이 가능하다고 판단됩니다.

제가 설명을 자주 드린바와 같이 본 강의 목적은 고득점이 아닌 절대평가 기준인 60점을 넘는 것입니다.

예를들어, 단답형에서 8/10문항정도 맞추고 24점 득점 그리고 작업형 1유형에서 2/3문항정도 맞추고 20점 득점만하면 44점입니다. 그리고 작업형 2유형(40점만점)에서 남은 점수인 16점만 득점하면 됩니다. 따라서 우리는 엄청난 모델을 만들어서 40점만점을 득점하는 것이 아니고 일정수준이상의 모델을 만드는 것입니다. 그리고 아이러니하게도 튜닝을 엄청나게 한다고해서 모델의 정확도가 급격하게 상승하지 않습니다. 아마 블로그나 까페를 보시면 그렇게 처리를 한 것과 하지 않은 것의 차이가 많지 않다는 것을 알 수 있습니다. 게다가 채점을 구간별로 해서 점수를 부여하기 때문에 더욱 그렇습니다.

답변을 하다보니 길어졌는데, 1분내에 코드가 다 실행되어야 하고 시각화 기능이 지원되지 않기 때문에 출제하는 입장에서 데이터의 양도 종류도 제한적입니다. 그런 이유로 더더욱 이런 전략이 유효할 것으로 판단됩니다.

요약하자면 제 생각에는 제출에 오류만 없고 단답형/작업형1유형에서 높은점수를 득점한다면 작업형2유형은 반타작만으로도 충분히 합격이 가능하다고 보입니다. 물론 지난 시험처럼 macro F1-score와 같이 혼란스럽게 하는 경우가 나올수 있어서 장담할 수는 없긴합니다. 그렇지만 모델을 만들고 제출하는 것은 동일하기 때문에(심지어 저는 모델을 평가하는 행위도 없어도 된다고 생각하긴합니다.) 충분히 합격할 수 있다고 판단됩니다. 이번에 진흥원 공지사항에 올라온 PDF등을 꼼꼼하게 숙지하면 좋을 것 같습니다.

부디 변수없이 시험문제가 출제되어 합격하시길 기원드립니다.

Youngjun Joe님의 프로필 이미지
Youngjun Joe

작성한 질문수

질문하기