stopwords 궁금...
242
작성한 질문수 3
혹시 lda로 나온 결과 값인데. stopwords가 안되는 이유가 있을까요
stopwords가 제대로 나오기 위한 패키지같은게 따로 있을까요
============= lda로 나온 결과 값
$`4`
뉴스 무단전재 밝히 위하 이데일리 이벤트 재배포 진행 창업 통하
1 1 1 1 1 1 1 1 1 1
============= DocumentTermMatrix에서 stopwords=stw
dtm <- DocumentTermMatrix(corpus, control=list(
removePunctuation=TRUE,stopwords=stw,
removeNumbers=TRUE,weighting=weightTf))
dtm<-dtm[apply(dtm,1,sum) != 0,]
============
stw<-c("으로","하는","에서","입니다","합니다","있습니다",
"하고","에게","있는","라고","에도","이고","하게","또한","하기","매일경제",
"모르","재배포","되는","되지","이라고","이고","라는","됩니다","않습니다",
답변 1
0
안녕하세요. dgdg dgdg님.
답변이 너무 늦었네요. 죄송합니다.
윈도우 환경이나 다루고 있는 텍스트의 인코딩에 따라 한글이 깨지거나 텍스트 적용 함수가 잘 먹히지 않을 수 있습니다.
사실 정확히 알기 위해서는 함수를 까보는 방법이 있지만, 함수자체도 까보기 어려운 경우가 있습니다.
대체하는 방법으로는, corpus 로 만들기 전에 워본데이터에서 stopword 를 제거하는 방법이 있을것 같습니다.
gsub 함수나, str_replace 함수등을 이용 할 수 있을 것 같습니다.
cicd 서버 올린 후 기존 마스터 노드 기동 시 네트워크 에러
1
80
2
Protobuff is it sufficient for mmorpg?
0
182
2
void IocpEvent::Init() is correct?
0
127
1
ADP 자격증 대비 강의 개설 문의
0
810
2
캐시 관련 질문입니다.
0
616
1
클라이언트 프로그래머 커리어 고민
0
1254
2
ETag 질문입니다.
0
727
1
Lock-Based Queue 병목현상 질문 드립니다.
0
590
1
캐시의 설정 주체
0
534
1
영속쿠키 질문입니다.
0
503
1
협상(accept-language)
0
686
1
에러 코드의 구현 주체
0
437
1
웹서버가 구현?
0
595
1
필수헤더?
1
559
1
Host와 Port
0
772
1
Session #2 내용중 왜 스레드가 동시다발적으로 접근 불가능한지 질문
0
664
4
다른 도메인이 같은 포트를 사용하는 경우
0
1258
1
listener, session 간의 차이
0
652
3
pre_data.RData
0
163
0
Gephi 가중치 관련 질문
0
424
1
key 에서 데이터 형태가 다르게 나옵니다
0
220
1
q_topics 입력시 오류가 생기는 이유는
0
650
4
pre_pro_news.RData 데이터 관련
1
198
1
LDA 이미지 저장
0
326
2





