소개
빅데이터 분석기사 실기를 R을 이용해서 응시하고자하는 분들을 위해 강의를 만들었습니다.
본 강의는 데이터분석이나 R을 체계적으로 학습하는 강의는 아닙니다.
빅데이터 분석기사 실기시험을 통과하기 위해 전략적으로 코드나 모델링을 진행합니다.
빅데이터 분석기사 실기시험을 준비하시는 분들께 추천드립니다.
강의
전체1수강평
게시글
질문&답변
2023.11.08
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요. 아래 주신 답글에 계층으로 답글을 달 수 없어서 원래 글에 답글을 답니다. 말씀드린바대로 강의자료에 메모장대로 하면 정상적으로 출력됩니다. 아마 녹화된 부분에는 그 부분이 생략되었거나 누락된 것 같은데요. 메모장대로 실행을 부탁드립니다. 결국, 답안으로 제출해야하는 부분은 예측 확률값이기 때문에, 반드시 문제에서 준 관측치는 유지되어야 합니다. 따라서 결측치의 유무나 다른 어떤 이상점의 유무와 관계없이 그 부분을 처리한 뒤 (주로 결측치에 평균, 0, 중앙값 등을 채워넣습니다.) 예측을 진행합니다. 결측치가 포함된 행도 포함해야 합니다. 다만, 예측을 할 때 특정 칼럼을 제외하는 것은 아무 문제가 되지 않습니다. 또한 특정 칼럼을 만드는 것 역시 문제가 되지 않습니다. 주로 성능을 높이기 위해서 파생변수를 만드는 데요. 저희 강의에서는 시험을 편하게 보기 위해서 오히려 특정 칼럼을 제외하는 방법을 사용합니다. (성능에 큰 차이가 없다고 가정합니다.) 그리고 Test데이터에도 동일한 로직을 적용해야 합니다. 모델에 들어간 칼럼숫자 만큼 반드시 예측을 위한 데이터의 칼럼 숫자가 필요합니다. 만들거나 삭제하거나 무관하게 동일하게 처리해서 동일한 숫자의 칼럼이 모델로 투입되지 않으면 동작하지 않습니다. 한번 읽어보시고 혹시 또 추가 문의사항 생기시면 편하게 문의주세요!
- 1
- 2
- 162
질문&답변
2023.11.06
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요. 올려주신 저의 지난번 답변이 계층도 깨지고 시간이 오래되서 명확하게 기억이 나질 않네요. 제가 강의자료로 올린 '출제예상.txt'의 '# 4. 모델구축' 부분에 대한 질문인 것 같습니다. 그 내용을 그대로 복사 붙여넣기 해서 돌리고 아래 스크립트인 최종 제출직전의 p3를 확인해보았습니다. [최종제출코드] result write.csv(result, 'result.csv') 위의 스크립트 직전의 p3값을 확인하면 아래와 같습니다. > str(p3) 'data.frame': 2482 obs. of 2 variables: $ 0: num 0.645 0.769 0.796 0.6 0.517 ... $ 1: num 0.355 0.231 0.204 0.4 0.483 ... 말씀하신대로 최종제출해야되는 관측치의 갯수는 문제와 동일해야 합니다. 예측해서 제출하는 답안지의 관측치의 갯수가 문제보다 늘어서도 줄어서도 안됩니다. 위의 내용을 한 번 확인해보시고 혹시 이상한 부분이 있으면 또 질문 부탁드립니다. 감사합니다.
- 1
- 2
- 162
질문&답변
2023.06.25
predict.randomForest
안녕하세요. 해당에러메시지는 말씀하신대로 Factor의 Level이 너무 많아서 나올 수 있습니다. Factor형은 자동적으로 R에서 원핫인코딩을 해서 칼럼을 새로 만들게 되는데, 그 Factor중 일부만 Train에 남고 나머지가 Test에 있거나 반대의 경우가되면 칼럼숫자가 맞지않아서 위와 같이 매칭되지 않는다고 메시지가 나옵니다. 그럴 경우, 말씀하신대로 그냥 그 칼럼을 제외하고 모델을 만드는 방법을 권장합니다. 물론 모든 칼럼을 잘 전처리해서 넣으면 성능이 좋을 수 있곘지만, 목표를 시험을 통과할만한 점수를 받자로 가정헀으니 굳이 그렇게하지않고 Factor의 Level이 너무많은 (주관적인요소지만.. 한 10개쯤이 넘는) 경우에는 과감히 제외하는 것을 권장드립니다. 좋은 피드백 감사드립니다.
- 1
- 1
- 295
질문&답변
2023.06.22
비지도학습
안녕하세요. 아시다시피 지도학습인 회귀,분류는 예상가능했으나 분류 중에 이진분류 외의 문제는 예상밖이었습니다. (지난4회) 확답할순없지만 이번에는 통계검정 문제도 나오기 때문에 감히 예상하기로 비지도학습까지 변형을 할 것 같진 않습니다. 물론 예상이라 틀릴 수 있습니다.
- 0
- 1
- 181
질문&답변
2023.06.22
predict함수 type 질문
안녕하세요. 문제에서 요구하는 답안의 형태에 따라다릅니다. 확정하기는 어렵지만 일반적으로 회귀 : type지정 불필요 분류 1) 확률 : 예제에 많이 보여드린대로 type에 prob 지정 2) 클래스 : 예제의 4개의 클래스 예측같은 문제로 지정 불필요 따라서 확률을 요구할때만 (주로 auroc로 채점) type 지정이 필요합니다. 감사합니다.
- 0
- 1
- 253