게시글
질문&답변
2023.11.08
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요. 아래 주신 답글에 계층으로 답글을 달 수 없어서 원래 글에 답글을 답니다. 말씀드린바대로 강의자료에 메모장대로 하면 정상적으로 출력됩니다. 아마 녹화된 부분에는 그 부분이 생략되었거나 누락된 것 같은데요. 메모장대로 실행을 부탁드립니다. 결국, 답안으로 제출해야하는 부분은 예측 확률값이기 때문에, 반드시 문제에서 준 관측치는 유지되어야 합니다. 따라서 결측치의 유무나 다른 어떤 이상점의 유무와 관계없이 그 부분을 처리한 뒤 (주로 결측치에 평균, 0, 중앙값 등을 채워넣습니다.) 예측을 진행합니다. 결측치가 포함된 행도 포함해야 합니다. 다만, 예측을 할 때 특정 칼럼을 제외하는 것은 아무 문제가 되지 않습니다. 또한 특정 칼럼을 만드는 것 역시 문제가 되지 않습니다. 주로 성능을 높이기 위해서 파생변수를 만드는 데요. 저희 강의에서는 시험을 편하게 보기 위해서 오히려 특정 칼럼을 제외하는 방법을 사용합니다. (성능에 큰 차이가 없다고 가정합니다.) 그리고 Test데이터에도 동일한 로직을 적용해야 합니다. 모델에 들어간 칼럼숫자 만큼 반드시 예측을 위한 데이터의 칼럼 숫자가 필요합니다. 만들거나 삭제하거나 무관하게 동일하게 처리해서 동일한 숫자의 칼럼이 모델로 투입되지 않으면 동작하지 않습니다. 한번 읽어보시고 혹시 또 추가 문의사항 생기시면 편하게 문의주세요!
- 1
- 2
- 165
질문&답변
2023.11.06
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요. 올려주신 저의 지난번 답변이 계층도 깨지고 시간이 오래되서 명확하게 기억이 나질 않네요. 제가 강의자료로 올린 '출제예상.txt'의 '# 4. 모델구축' 부분에 대한 질문인 것 같습니다. 그 내용을 그대로 복사 붙여넣기 해서 돌리고 아래 스크립트인 최종 제출직전의 p3를 확인해보았습니다. [최종제출코드] result write.csv(result, 'result.csv') 위의 스크립트 직전의 p3값을 확인하면 아래와 같습니다. > str(p3) 'data.frame': 2482 obs. of 2 variables: $ 0: num 0.645 0.769 0.796 0.6 0.517 ... $ 1: num 0.355 0.231 0.204 0.4 0.483 ... 말씀하신대로 최종제출해야되는 관측치의 갯수는 문제와 동일해야 합니다. 예측해서 제출하는 답안지의 관측치의 갯수가 문제보다 늘어서도 줄어서도 안됩니다. 위의 내용을 한 번 확인해보시고 혹시 이상한 부분이 있으면 또 질문 부탁드립니다. 감사합니다.
- 1
- 2
- 165
질문&답변
2023.06.25
predict.randomForest
안녕하세요. 해당에러메시지는 말씀하신대로 Factor의 Level이 너무 많아서 나올 수 있습니다. Factor형은 자동적으로 R에서 원핫인코딩을 해서 칼럼을 새로 만들게 되는데, 그 Factor중 일부만 Train에 남고 나머지가 Test에 있거나 반대의 경우가되면 칼럼숫자가 맞지않아서 위와 같이 매칭되지 않는다고 메시지가 나옵니다. 그럴 경우, 말씀하신대로 그냥 그 칼럼을 제외하고 모델을 만드는 방법을 권장합니다. 물론 모든 칼럼을 잘 전처리해서 넣으면 성능이 좋을 수 있곘지만, 목표를 시험을 통과할만한 점수를 받자로 가정헀으니 굳이 그렇게하지않고 Factor의 Level이 너무많은 (주관적인요소지만.. 한 10개쯤이 넘는) 경우에는 과감히 제외하는 것을 권장드립니다. 좋은 피드백 감사드립니다.
- 1
- 1
- 298
질문&답변
2023.06.22
비지도학습
안녕하세요. 아시다시피 지도학습인 회귀,분류는 예상가능했으나 분류 중에 이진분류 외의 문제는 예상밖이었습니다. (지난4회) 확답할순없지만 이번에는 통계검정 문제도 나오기 때문에 감히 예상하기로 비지도학습까지 변형을 할 것 같진 않습니다. 물론 예상이라 틀릴 수 있습니다.
- 0
- 1
- 183
질문&답변
2023.06.22
predict함수 type 질문
안녕하세요. 문제에서 요구하는 답안의 형태에 따라다릅니다. 확정하기는 어렵지만 일반적으로 회귀 : type지정 불필요 분류 1) 확률 : 예제에 많이 보여드린대로 type에 prob 지정 2) 클래스 : 예제의 4개의 클래스 예측같은 문제로 지정 불필요 따라서 확률을 요구할때만 (주로 auroc로 채점) type 지정이 필요합니다. 감사합니다.
- 0
- 1
- 256
질문&답변
2023.06.21
작업2유형 - 4회 기출 질문 드립니다
안녕하세요. confusionMatrix라는 함수가 caret에도 있지만 ModelMetrics에도 존재해서 발생하는 문제로 보여집니다. confusionMatrix를 실행하실 때, 앞에 caret::을 붙여주시면 문제가 해결됩니다. caret:: confusionMatrix(p1,test$Segmentation) 위와 같이 실행하시면 될 것 같습니다. 해당 문제에는 ModelMetrics를 불러올 이유가 없는데, 만약 그 부분까지 불러와서 코드를 작성해야하면 위와 같이 쓰려고하는 confusionMatrix가 caret임을 명시해주어야 합니다. 감사합니다.
- 0
- 1
- 209
질문&답변
2023.06.21
이상치 처리시
안녕하세요. df1$Ozone_comp is.na (df1$Ozone), median(df1$Ozone, na.rm = T), df1$Ozone) 이 부분 코드를 문의해주신 것일까요? 제가 실행한 코드와 결과가 동일하게 나온다면 아무 문제가 없습니다. 적어주신 코드 그대로 upp 초과인 값들을 평균으로 대체하는 부분인데 특별히 문제되거나 실수하실만한 요소가 없어보입니다.
- 0
- 1
- 205
질문&답변
2023.06.21
dplyr 라이브러리의 select 함수를 궂이 써야하는 이유가 있을까요?
안녕하세요. R도 언어이기 때문에 여러가지 방법으로 동일한 결과를 구현할 수 있습니다. 저는 dplyr을 활용해서 전체 문제를 풀이하고자 했습니다. 아래 댓글 남겨주신바와 같이 파이프라인을 사용하는 것에 의의가 있습니다. 저도 실무에서 작업할떄는 때로는 base로 주어진 indexing방법을 사용하기도 하고 dplyr의 select를 사용하기도 합니다. 결과상에 차이가 없다면 아무것이나 사용하셔도 무방합니다. 감사합니다.
- 0
- 2
- 158
질문&답변
2023.06.11
맨 마지막 p3에서 2,482명이 나와야 되는거 아닌가요???
안녕하세요. 어느 차수에 있는 데이터로 사용하신 것일까요? 내용은 무슨말씀인지 알겠는데 차수만 적어주시면 확인해보겠습니다. 기본적으로 predict함수에 넣은 test 데이터의 관측치의 수만큼 나오게 됩니다. 확인 한 번 해주시고 다시 질문 부탁드려요!
- 0
- 3
- 297
질문&답변
2023.05.29
가설검정결과 채택의 의미에 대해 의문사항이 있습니다!
안녕하세요. 아래 AI 인턴이라는 기능이 생겼나보네요. 제가 말씀 하신 부분을 제가 자세히 들여다보니 제가 귀무가설 설정을 달리한 것 같습니다. 진흥원의 예제문제에서는 '치료후 - 치료전 >0'가 귀무가설로 주어졌기 때문에 alternative를 less로 그대로 두려면 앞에 두 개 파라미터를 바꿔야 할 것 같습니다. t.test(a$bp_after, a$bp_before, paired = T, alternative = 'less')로 말이죠. 만약에 순서를 유지하려면 alternative가 less가 아닌 greater가 되어할 것 같습니다. 제가 녹화한 것을 기준으로 보면 (치료전 - 치료후 >0) 를 귀무가설로 검정을 시행했고 귀무가설이 채택되었으니 치료전 > 치료후가 되어 약의 효과가 있다고 판단됩니다. 위에 수정된 스크립트로 수행하게 되면 a$bp_after가 더 작기 때문에, 귀무가설이 기각되어 대립가설이 채택되고 치료후의 혈압이 더 낮아 약이 효과가 있다고 될 것 같습니다. 감사합니다.
- 1
- 2
- 245