일월분산분석

Question

처음 문제는 print(stats.shapiro(df['A']) print(stats.shapiro(df['B']) print(stats.shapiro(df['C']) print(stats.shapiro(df['D']) 처럼 쉽게 표현 했는데 왜 두번째 문제는 CondA = df['groups']='group_A' Print(stats.shapiro(df[CondA]['scores'])) CondB = df['groups']='group_B' Print(stats.shapiro(df[CondB]['scores'])) CondC = df['groups']='group_C' Print(stats.shapiro(df[CondC]['scores'])) CondD = df['groups']='group_D' Print(stats.shapiro(df[CondD['scores'])) 처럼 어렵게 표현해?

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. 김라의님께서 말씀하신 두 가지 접근 방식은 데이터 프레임을 다루는 방법의 차이에서 비롯됩니다. 첫 번째 접근 방식에서는 df['A'] , df['B'] , df['C'] , df['D'] 와 같이 이미 분류된 컬럼을 사용하여 간단하게 Shapiro-Wilk 검사를 수행합니다. 이 방식은 데이터가 이미 그룹별로 잘 정리되어 있을 때 유용합니다. 두 번째 접근 방식에서는 조건문을 사용하여 df['groups'] 에서 원하는 그룹을 필터링한 후, 그에 해당하는 &lsquo;scores&rsquo; 컬럼을 검정합니다. 이 방법은 데이터가 하나의 컬럼에 그룹으로 나뉘어 있는 경우에 유용합니다. 코드에서는 각 그룹을 조건으로 필터링한 후, 해당하는 데이터에 대해 검정을 수행합니다. 두 번째 방식은 데이터 구조가 조금 더 복잡할 때, 혹은 유연하게 다양한 그룹을 처리해야 할 때 사용됩니다. 이는 필터링 과정과 조건 설정을 통해 특정 그룹 데이터만 선택해서 분석할 수 있는 장점이 있습니다. 이미지 출처: 더 궁금하신 점이 있으면 알려주세요!