• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

마지막 질문이될것같습니다 선생님!!

22.12.04 23:29 작성 22.12.04 23:41 수정 조회수 136

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요

먼저 선생님덕에 시험 잘 마치고나왔습니다 감사합니다. 유형별 질문 총 3가지있습니다

 

단답형. 가채점 해보니 4개 (1개불확실) 정도 맞았습니다

Q. 불확실한 1개의 질문인데요 f1 스코어 문제로 정답은 0.25 로 추정됩니다. 전 1/4로 적었구요. 이건 같은 답으로 처리가 될지 궁금합니다.(시험에서 어떤 형태로 입력하라는 내용X)

 

유형1. 정수 출력이 전제조건인 문제들입니다(우선 3문제 다 맞춘것같습니다)

1번의 답은 122로 소수점이나왔으나 round(변수, 0) 하여 소수점안나오고 딱 정수가 나왔습니다. 2,3번문제는 정수가 나와 그대로 제출했구요. 커뮤니티에서 조금 논란이되는게 정수형(int) 출력여부입니다.

Q. 공지사항에서 시험 가이드라인.pdf에는 정수로 출력으로만 나와있는데, int로 바꿨어야만 할까요? 답은 맞지만 변수가 num형식일 경우에 감점을 시키면 논란이 되지않을까요?

 

유형2. 데이터가 너무 깔끔했습니다. 여기서 배운대로 간단하게만 처리했으며 스케일이나 별도 데이터를 삭제하거나 하지는 않았습니다.

회귀 문제였기에 팩터형을 지우고 수치만 가지고 모델 만드신 분들이 계시다는데, 데이터가 많지도 않았고 자동차 회사를 다니는 저에게 자동차모델명과 같은 팩터는 조금 중요한 요인처럼 느껴져, 예측 y값은 그대로 두고, 팩터형 변환이 필요한 부분만 팩터화, 전체 데이터를 넣고 랜포를 돌렸습니다. (별도 설정없이 ntree만 100설정). 정상적으로 잘 돌아갔고 rmse 1250 정도에 r2 0.92정도, 과적합인가 의심은 했습니다만 그냥 그대로 제출했습니다

Q. 여기서 궁금한게 회귀형일때에는 팩터형을 다 제거하고 모델을 만드는게 맞는건가요?

 

선생님의 강의덕에 아무탈 없이 잘 제출했습니다 마지막이 될 수 있는 질문입니다 선생님 그동안 감사했습니다!

답변 1

답변을 작성해보세요.

0

 

안녕하세요

A1. 제가 진흥원담당자는 아니라서 확답을 드릴 순 없지만 그간의 경험으로 봤을 때 ,정답으로 처리할 것 같습니다. 만약에 오답으로 처리되면 반드시 이의제기를 하십시오. 그러면 정답인정 될 것 같습니다.

A2. 이것도 확답을 드릴 순 없지만 정수형의 의미가 소수점이 없는 정수라고 생각됩니다. 말씀하신 numeric이나 integer같은 용어들은 python에서는 또 다른 용어로 사용되는데요 (float, int 등). 따라서 정수형이라는 말이 프로그램을 관통해서 통용되기는 어렵지 않나 싶습니다 (정수가 아닌 것에 대한 용어가 다르기 때문). 그런 점을 미루어봤을 때 제출된 답의 형태까지 보지는 않고 정답을 비교하는 프로그램을 돌릴 때 소수점이 있으면 문제가 생겨서 소수점이 없는 상태로 변환해서 제출하라는 것 같습니다. 지극히 개인적인 의견이지만 정답 처리 될 것 같습니다.

A3. 제대로 하신 것 같습니다. 만약 저에게 동일한 시험문제가 주어진다면 팩터형의 레벨이 10개 이상되지 않을 경우 모두 포함시켜서 진행할 것 같습니다. 말씀하신대로 y는 그대로 두고(팩터변환X), 필요한 부분만 팩터로 변경하고 스케일링 없이 (우리가 활용하는 알고리즘은 스케일링이 필요없기 때문에) 전부 랜덤포레스트에 넣었을 것 같습니다.

저는 개인적으로 R2지표보다는 RMSE를 신뢰합니다. RMSE기준으로 커뮤니티에 나온 평균수준이거나 다소 좋은 수준이어서 제출 형식에 문제가 없으셨다면 충분히 고득점을 받을 것 같습니다.

결국, 회귀형/분류형은 예측변수인 y에 해당되는 용어이지 독립변수(설명변수)인 x와는 무관하기 때문에 제거하면 안됩니다.

 

좋은 평가 남겨주셔서 감사드립니다.

질의하신 내용을 보니 답안제출에 문제가 없다면 충분히 여유있게 합격하실 수 있는 수준이신 것 같습니다.

강의 잘 들어주셔서 감사하고 도움이 되었다니 제가 더 감사합니다. 좋은 하루되세요!

 

 

 

감사합니다 선생님

제가 봐도 그렇게 유도리없이 채점하지는 않을것으로 보이기는 합니다. 1/4나 정수형이나, 진흥원 생각대로 채점할경우 컴플레인이 굉장히 많을 것으로 예상되기때문입니다.

 

말씀해주신 유형2의 팩터형에서 모델명변수 팩터는 40여개의 level이 있었습니다. 모델명은 차량 구매시 크리티컬한 구매요인으로 개인적인생각이 들어가 그냥 모델 생성에 넣었습니다.

 

선생님의 친절한 답변 감사하고, 가장 좋은건 저희가 빨리합격하고 쉬 털고 떠나는게 선생님도 좋으시겠죠?ㅎㅎ 수고많으셨습니다 감사합니다

 

안녕하세요.

40개의 레벨인데도 randomforest로 1분안에 코드가 돌았다면 무방합니다.

사실 레벨의 갯수는 분석가의 자의적인 판단이기 때문에 없는 것보다는 넣는게 일반적으로는

모델의 성능관점에서는 좋기 때문에 시간만 허락한다면 넣는게 좋을 수 도 있다고 판단됩니다.

더군다나 도메인 지식이 있으신 분의 판단이면 감히 제가 뭐라할 수 없겠네요 ㅎㅎ

 

부디 좋은 결과 있으실 바랍니다!