split 옵션 문의.

Question

안녕하세요 강사님.

원본데이터에는 공백이 하나인데, split 할때 공백울 2개씩 넣어줘야하는 이유가 있나요?

원본 데이터 '18.17배 l 3,549원'

df_pe["PER"] = df_pe['value'].str.split('  l  ',expand=True)[0]

제가 복사해서 텍스트 에디터에서 확인하면 공백이 하나입니다. 혹시 복사해서 보면 다르게 보이는건가요?

여기서 공백을 하나만 넣어도 분리는 되지만 다음 결측치 제거에서 공백때문에 공백처리를 한번더 해야합니다.

Answer

빠른 답변 감사합니다.

원인을 찾았습니다. 원인이라기 보다는 현상이라고 생각됩니다. 시리얼로 출력하는것과 dataFrame 으로 출력하면 결과가 다릅니다.

다른 분들도 아시면 좋을거 같아서 공유합니다.

하나는 데이터프레임으로 출력하고 하나는 시리얼 로 출력해 보았습니다. 주피터 내용을 복사해서 텍스트 에디터에 붙여보니 공백이 차이납니다. 데이터 프레임은 공백이 1개로, 시리얼은 공백이 2개로 보여집니다. 그래서 원본 csv 파일을 열어보니, 원본 파일에는 공백이 2개 있는게 맞습니다.

제 환경의 문제일수도 있습니다만, 주피터에서 그렇게 보여주는거 같습니다.

Answer

안녕하세요.

원본에 공백이 하나라면 공백을 하나만 넣어도 되지만 두 개라면 나중에 다시 공백을 제거해야 하는 수고가 있기 때문에 두 개를 넣어준다면 제거 되지 않은 공백을 다시 제거하지 않아도 되기 때문에 텍스트의 공백을 그대로 복사해서 사용했어요.

질문해 주신대로 공백을 하나만 사용하고 나중에 str.strip() 등으로 제거되지 않은 공백을 제거해도 됩니다.

공백문자는 눈으로 잘 보이지 않기 때문에 복사해서 그대로 사용하는걸 추천해요.

MIKE.aeon

split 옵션 문의.

이 글과 비슷한 Q&A

serializer에서 query문 작성

캐글 t1-35 (파이썬) 2번 문제 풀이 부탁드립니다!

검증용 데이터 분리 후 의사결정나무 모델 적용 시 오류

8번문제 groupby로 sum하는 경우