질문이 있습니다.

Question

Group Data 강의 중 shift 메소드에 대한 말씀을 해주신 것 중 만약 하나의 컬럼만 비어있는데 전의 값이나 후의 값으로 채우고 싶다고 한다면, 새로운 컬럼을 만들고 shift 값을 넣은 다음에 비어있는 값을 shift 값에서 가져오면 된다고 말씀을 해주셨습니다. 여기서 shift 값을 넣은 다음에 비어있는 값을 shift 값에서 가져오면 된다는 말씀이 이해가 되질 않습니다,,

박조은 · Answer

안녕하세요. 시계열 데이터 등에서 중간에 비어있는 값이 있다면 비어있는 값을 그대로 사용하려고 하면 머신러닝이나 딥러닝 알고리즘 등에서 오류가 납니다. 이럴 때 이런 결측치를 어떻게 채워주느냐도 중요한 전처리 요소 중에 하나인데요. 값이 비어 있는 것을 채워주려고 할 때 일단 새로운 컬럼을 만들어서 shift 하면 지정한 위아랫값 등으로 데이터가 생길거에요. 그럼 기존 컬럼에서 예를 들어 df["컬럼명"].fillna(df["shift한 컬럼명"]) 을 넣어주면 이전 혹은 이후 값으로 결측치를 채울 수가 있습니다. 조금 더 간단하게 하고자 하면 interpolate를 사용하면 편하고 다음의 링크를 참고해 주세요. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.interpolate.html