inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 하는 네트워크 분석

stopwords 궁금...

242

dgdg dgdg

작성한 질문수 3

0

혹시 lda로 나온 결과 값인데. stopwords가 안되는 이유가 있을까요

stopwords가 제대로 나오기 위한 패키지같은게 따로 있을까요

=============  lda로 나온 결과 값

$`4`

뉴스 무단전재     밝히     위하 이데일리   이벤트   재배포     진행     창업     통하 

       1        1        1        1        1        1        1        1        1        1 

============= DocumentTermMatrix에서 stopwords=stw

dtm <- DocumentTermMatrix(corpus, control=list(

  removePunctuation=TRUE,stopwords=stw,

  removeNumbers=TRUE,weighting=weightTf))

 dtm<-dtm[apply(dtm,1,sum) != 0,]

============

stw<-c("으로","하는","에서","입니다","합니다","있습니다",

       "하고","에게","있는","라고","에도","이고","하게","또한","하기","매일경제",

       "모르","재배포","되는","되지","이라고","이고","라는","됩니다","않습니다",

network R

답변 1

0

코코

안녕하세요. dgdg dgdg님.

답변이 너무 늦었네요. 죄송합니다. 

윈도우 환경이나 다루고 있는 텍스트의 인코딩에 따라 한글이 깨지거나 텍스트 적용 함수가 잘 먹히지 않을 수 있습니다.

사실 정확히 알기 위해서는 함수를 까보는 방법이 있지만, 함수자체도 까보기 어려운 경우가 있습니다.

대체하는 방법으로는,   corpus  로 만들기 전에 워본데이터에서 stopword 를 제거하는 방법이 있을것 같습니다.

 gsub 함수나,  str_replace  함수등을 이용 할 수 있을 것 같습니다. 

cicd 서버 올린 후 기존 마스터 노드 기동 시 네트워크 에러

1

80

2

Protobuff is it sufficient for mmorpg?

0

182

2

void IocpEvent::Init() is correct?

0

127

1

ADP 자격증 대비 강의 개설 문의

0

810

2

캐시 관련 질문입니다.

0

616

1

클라이언트 프로그래머 커리어 고민

0

1254

2

ETag 질문입니다.

0

727

1

Lock-Based Queue 병목현상 질문 드립니다.

0

590

1

캐시의 설정 주체

0

534

1

영속쿠키 질문입니다.

0

503

1

협상(accept-language)

0

686

1

에러 코드의 구현 주체

0

437

1

웹서버가 구현?

0

595

1

필수헤더?

1

559

1

Host와 Port

0

772

1

Session #2 내용중 왜 스레드가 동시다발적으로 접근 불가능한지 질문

0

664

4

다른 도메인이 같은 포트를 사용하는 경우

0

1258

1

listener, session 간의 차이

0

652

3

pre_data.RData

0

163

0

Gephi 가중치 관련 질문

0

424

1

key 에서 데이터 형태가 다르게 나옵니다

0

220

1

q_topics 입력시 오류가 생기는 이유는

0

650

4

pre_pro_news.RData 데이터 관련

1

198

1

LDA 이미지 저장

0

326

2