• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    해결됨

unique 함수 처리 결과

24.02.02 12:22 작성 조회수 138

0

다음과 같이 csv 데이터를 불러오고 unique(df$지역) 함수를 실행했는데 강의에서와 다르게 "타시도", "강동구", "서초구"만 출력되는데 이유가 있을까요?

df = read.csv("Seoul_COVID19_20210511.csv", fileEncoding = "cp949")
head(df, 2)

head(df[, 1:6], 2)
unique(df$지역)

답변 1

답변을 작성해보세요.

1

안녕하세요 magnet0922님. 벌써 마지막 까지 오셨네요.

말씀해주신 내용을 확인해본 결과 영상 촬영 당시에는 R의 기본 인코딩이 Windows 운영체제 기준으로 CP949(EUC-KR)이었으나 이후 UTF-8 인코딩으로 변경되어 파일을 읽어오는데 불편함이 있는 것을 확인했습니다. 좀 더 정확하게는 read.csv() 함수가 "Seoul_COVID19_20210511.csv" 파일을 올바르게 읽어오지 못하는 현상을 확인했습니다.

그래서 보다 쉽게 실습하실 수 있도록 "Seoul_COVID19_20210511_2.csv" 파일을 새로 가공하여 추가하였습니다. 물론 해당 파일 대신 "서울시 코로나19 확진자 현황.csv" 파일을 이용하는 것도 방법입니다.

새로 업로드한 데이터는 첫 수업 영상에서 압축파일로 다운로드 받으실 수 있으며 해당 압축파일 명은 "ppt_data_scripts_v20240202.zip" 입니다.

감사합니다.

magnet0922님의 프로필

magnet0922

질문자

2024.02.03

"서울시 코로나19 확진자 현황.csv" 파일과 "Seoul_COVID19_20210511_2.csv" 파일에 대해 read.csv() 함수를 적용하면 다음과 같은 경고 메세지가 뜨는데 이유를 알 수 있을까요? 파일 읽는 문제로 계속해서 진도가 못 나가고 있습니다.

> df = read.csv("서울시 코로나19 확진자 현황.csv", fileEncoding = "UTF-8")
경고메시지(들): 
1: read.table(file = file, header = header, sep = sep, quote = quote, 에서:
  입력 커넥션 '서울시 코로나19 확진자 현황.csv'에서 유효하지 않은 입력을 찾았습니다
2: read.table(file = file, header = header, sep = sep, quote = quote, 에서:
  '서울시 코로나19 확진자 현황.csv'에서 readTableHeader에 의하여 발견된 완성되지 않은 마지막 라인입니다
> df = read.csv("Seoul_COVID19_20210511_2.csv", fileEncoding = "UTF-8")
read.table(file = file, header = header, sep = sep, quote = quote, 에서 다음과 같은 에러가 발생했습니다:
  입력에 가능한 라인들이 없습니다
추가정보: 경고메시지(들): 
read.table(file = file, header = header, sep = sep, quote = quote, 에서:
  입력 커넥션 'Seoul_COVID19_20210511_2.csv'에서 유효하지 않은 입력을 찾았습니다

df = read.csv("Seoul_COVID19_20210511_2.csv", fileEncoding = "CP949")

이렇게 읽어보세요. 방금 정상동작 확인했습니다.

일시: 2024-02-04 18:04
버전: R - 4.2.2
운영체제: Windows