인프런 커뮤니티 질문&답변

구디

작성한 질문수

빅데이터분석기사 실기 R 올인원: 3주에 끝내는 완벽 대비

제1유형 실전문제 풀이(1)

실전문제 풀이(1) - 문제 3

작성

같은 코드를 입력한 것 같은데, lb, ub 값이 많이 다릅니다.

어디서 오류가 생긴건지 알려주실 수 있을까요..?

머신러닝 r 빅데이터 빅데이터분석기사

답변 2

Masocampus

지식공유자

안녕하세요, 마소캠퍼스입니다.

공유해 주신 코드를 살펴 보니, out으로 정의하신 값은 이상값의 합이 아닌 "이상값 개수의 합" 이 되어,
결과가 다르게 나오는 것 같습니다.

원래 문제의 목적인 "이상값들의 값의 합"을 계산하시려면 공유해 주신 코드에서 아래와 같이 수정해 주시면 될 것 같습니다.

out = sum(df_copyStime[df_copyStime < lb_sd | df_copyStime > ub_sd], na.rm=TRUE)
*위의 대문자 S는 모두 $ 입니다.

감사합니다.

마소캠퍼스 드림.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 구디님.

R 코드에서 lb(하한값)와 ub(상한값)가 다르게 나오는 문제에 대해 살펴보겠습니다. 작성하신 코드는 dplyr 라이브러리를 사용하여 데이터 프레임의 time 컬럼의 평균과 표준편차를 기반으로 하한과 상한을 계산하는 것으로 보입니다. 이러한 계산에서 예상보다 다른 값이 나오는 경우는 몇 가지 원인이 있을 수 있습니다.

주요 원인 및 해결 방법

데이터 중복 확인:
- gehan.csv 파일이 동일한지 확인하세요. 데이터가 다를 경우 결과도 다르게 나올 수 있습니다.
time열 값 변동:
- time 열의 데이터가 올바르게 입력되었는지 확인합니다. 또한, na.rm=TRUE 옵션이 적용되는지 확인하여 결측치가 제대로 처리되고 있는지를 살펴보세요.
계산 과정 확인:
- lb_sd와 ub_sd를 계산할 때 정확하게 평균과 표준편차가 사용되었는지 코드 상의 수식들을 여러 번 확인해 보세요.
코딩 오류 점검:
- 코드 상의 대/소문자, 철자 등의 오타가 없는지 점검하세요. 작은 오타가 예상치 못한 결과를 불러올 수 있습니다.
데이터의 특성:
- 데이터 특성 상 특정 부분에 집중된 다양한 값들이 존재한다면, 표준 편차에 의한 계산 결과의 다양성도 고려하여야 합니다.

여기서는 실습과 동일한 환경을 구성하고 아래 링크에서 시작할 수 있는 추가적인 설명과 코드 예제가 도움될 수 있습니다:

[R을 활용한 데이터 분석 실전 문제 풀이] - 코딩 및 통계적 분석 방법 설명.

image 관련 코드 이미지

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

구디

작성한 질문수

전체 Q&A

질문하기