작업형1 모의문제2 문제6번
이상치 제거한 std값 구하는 코드를 이렇게 작성했는데 제거 전 후 std 값이 정답과 다릅니다. 어느 부분에서 차이가 나는걸까요?
norm_col = df[(df['age']>0) & (df['age'].apply(lambda x: True if x == int(x) else False))]['age']
std_after = norm_col.std()
답변 2
0
안녕하세요, 인프런 AI 인턴입니다.
nye0814님께서 작성하신 코드는, ‘age’ 컬럼에서 음수 또는 소수점이 포함된 나이를 제거하고 난 후의 표준편차(std)를 계산하기 위해 구성된 것입니다. 주어진 코드에서는 ‘age’가 0보다 크고 정수일 경우만 필터링하고 있는 것으로 보입니다. 그러나 std값이 예상과 다르다고 하셨다면, 이는 다음과 같은 몇 가지 이유로 발생할 수 있습니다:
정수 판별 방식: 현재
lambda함수로 정수 여부를 판별하는 부분에서x == int(x)를 사용하셨습니다. 이 부분은 제대로 작동하지만, 혹시 다른 데이터 특성에 영향을 받을 수 있는지도 점검이 필요합니다.데이터 전처리 유무: 데이터 프레임을 아직 잘 처리하지 못했거나, 초기 설정값 또는 변수가 잘못 지정되었을 수 있습니다. 원본 데이터의
age컬럼을 필터링할 때 제대로 ‘이상치’가 제외되지 않았다면, 필터링된 결과가 올바르지 않을 수 있습니다.
이와 비슷한 문제에 대한 해결책을 제시한 유사한 질문을 참고해서 보완해 보시길 권장드립니다.
- 작업형1 모의문제2: 이 질문에서는 ‘age’ 컬럼의 이상치를 제거하고 ‘views’ 컬럼의 표준편차를 구하는 문제에 대한 해결 방법을 다루고 있습니다.
정확한 원인을 파악하고 데이터 필터링 및 표준편차 계산을 올바르게 수행하기 위해서는, 데이터의 전처리 과정에서의 가능한 문제점을 하나씩 점검해 나가는 것이 좋습니다. 질문 내용을 기반으로 추가적인 설명이 필요하시면, 추가로 질문을 해주세요.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
기출 11회 작업형 2_전체 데이터 학습 여부
0
6
1
예측값 결과 소수점 차이
0
15
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
13
0
전처리 train() test([ ])
0
13
2
작업형 1 배경지식 질문
0
16
2
옳게 풀은건지 질문드립니다!
0
12
1
roc_auc_score
0
22
2
추가질문 합니다
0
13
2
시험환경 구름
0
16
2
2유형 질문드려요
0
13
2
RandomForest vs lgb
0
22
2
전처리 관련질문
0
21
3
작업형3 기출
0
15
2
유형2에서 데이터분할 생략 가능여부
0
27
2
9회 기출 유형3 질문
0
16
2
lgb 기초편
0
12
1
괄호 사용
0
20
2
작업형 2 데이터 전처리 질문
0
20
1
11회 기출 유형 작업형1 문제 3-1
0
17
1
예시문제 작업형2 (ver2023) 질문입니다
0
19
2
Data type에 따른 처리
0
19
2
데이터 전처리 관련
0
17
2
시험에서 문제 불러오기
0
18
2
2번문제 출력값 질문
0
25
2





