2회 기출유형 작업형1 -2 번 질문

Question

선생님 1-2의 데이터는 행이 100개라서 #앞에서부터 순서대로 80% 데이터만 활용 df = df.iloc[:80] before = df['f1'].std() #f1컬럼의 결측치를 채우기 전의 표준편차 #f1중앙값 df['f1'] = df['f1'].fillna(df['f1'].median()) after = df['f1'].std() print(abs(after - before)) 이런식으로 코드를 작성했는데 왜 답이 0으로 나올까요?

퇴근후딴짓 · Answer

문제가 없어 보이는데 데이터를 새로 불러와도 그럴까요? 이럴경우 before, after등 변수에 있는 값들을 출력해보면서 어디가 잘못되었는지 찾아야 합니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. jocharlie님이 작성하신 코드는 &lsquo;f1&rsquo; 컬럼의 결측치를 중앙값으로 채우기 전과 후의 표준편차의 차이를 계산하게 되어 있습니다. 그런데 답이 0으로 나오는 이유는 중앙값으로 결측치를 채운 후에 다시 &lsquo;before&rsquo; 변수를 재계산하기 때문에 발생합니다. 즉, &lsquo;df[&lsquo;f1&rsquo;] = df[&lsquo;f1&rsquo;].fillna(df[&lsquo;f1&rsquo;].median())&rsquo; 이후에 &lsquo;before&rsquo; 변수가 영향을 받게 되는 문제입니다. 이 문제를 해결하려면, &lsquo;before&rsquo; 변수에 결측치를 채우기 전의 &lsquo;f1&rsquo;의 표준편차 값을 확실하게 저장해 두셔야 합니다. 데이터가 덮어씌워지지 않도록, 두 값을 별도의 변수에 저장하고 나서 차이를 계산하시면 됩니다. 아래 유사한 문제 해결 방안을 참고하시면 도움이 될 것입니다: 2회 기출유형(작업형1), 문제2 : 이 질문에서는 df['f1'] 에 결측치가 채워진 후 표준편차가 다시 계산되어 동일한 값이 나오는 문제를 다룹니다. &lsquo;before&rsquo; 값을 확실하게 분리해서 저장하는 중요성을 강조하며, 코드를 재구성하는 방법을 제시합니다. 이와 같이, 각 중간 단계의 데이터를 잘 관리하는 것은 매우 중요합니다. 문제 해결에 도움이 되길 바랍니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.