stopwords 궁금...

Question

혹시 lda로 나온 결과 값인데. stopwords가 안되는 이유가 있을까요

stopwords가 제대로 나오기 위한 패키지같은게 따로 있을까요

============= lda로 나온 결과 값

$`4`

1 1 1 1 1 1 1 1 1 1

============= DocumentTermMatrix에서 stopwords=stw

dtm <- DocumentTermMatrix(corpus, control=list(

removePunctuation=TRUE,stopwords=stw,

removeNumbers=TRUE,weighting=weightTf))

dtm<-dtm[apply(dtm,1,sum) != 0,]

============

stw<-c("으로","하는","에서","입니다","합니다","있습니다",

"하고","에게","있는","라고","에도","이고","하게","또한","하기","매일경제",

"모르","재배포","되는","되지","이라고","이고","라는","됩니다","않습니다",

Answer

안녕하세요. dgdg dgdg님.

답변이 너무 늦었네요. 죄송합니다.

윈도우 환경이나 다루고 있는 텍스트의 인코딩에 따라 한글이 깨지거나 텍스트 적용 함수가 잘 먹히지 않을 수 있습니다.

사실 정확히 알기 위해서는 함수를 까보는 방법이 있지만, 함수자체도 까보기 어려운 경우가 있습니다.

대체하는 방법으로는, corpus 로 만들기 전에 워본데이터에서 stopword 를 제거하는 방법이 있을것 같습니다.

gsub 함수나, str_replace 함수등을 이용 할 수 있을 것 같습니다.