묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
샘플로 제시해 주신 참고문헌 제공 부탁드리겠습니
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치를 산출하고 시각화하는 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 단어나 음절의 빈도를 정량적인 수치로 나타낼 수 있다(Kang & Lee, 20019). 단어 간 연결방향이 화살표를 통해 시각화되며 화살표의 굵기 크기를 통해 연결강도가 결정된다(Yoo et al., 2019). 또한 연관 단어 간 관계성을 분석하면 단어간 관계 파악에 용이다하다(Kim, 2020). 본 연구에서는 Textom에서 제공하는 N-gram 텍스트마이닝 기법 시 데이터의 흐름과 이해를 하기 위해 가장 먼저 기초 분석 자료로 활용되는 기법이기도 하다. 단어빈도에 기반한 분석은 전체 문서 내에서 특정 단어의 풀현 빈도를 나타낸다. 문서 내에 특정 단어가 등장하는 횟수를 나타내며 이수치값이 클수록 문서에서 자주 사용하는 단어임을 의미한다(Jang et al.,2018). 높은 출현 빈도를 나타내는 단어는 대체로 연구주제와 관련된 함축된 의미를 내재하고 핵심 단어로 작용 할 수도 있다(Lee,2022).
-
미해결R로 하는 텍스트마이닝 (Top keyword부터 감성분석까지)
top Keword 추출 강의 질문
Top Keword 추출 강의에서 수업자료에 commnts와 score 파일이 없는데 어디서 받을 수 있을까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
25. LDA 분석3 강의에서
Coherence Score가 높을수록, Perplexity score가 낮을수록 좋다고 하셨는데, 왜 토픽수가 2가 아닌 4가 좋다고 하신건가요? Perplexity score는 비슷비슷해보이니까, 확실히 Coherence Score가 높은걸 고르는게 맞지 않나요..?
-
미해결빅데이터 분석 솔루션 TEXTOM으로 쉽고 빠르게 배우는 텍스트마이닝
텍스트마이닝 정의에 대한 인용 세부 사항
안녕하세요.강의를 잘 듣고 있습니다.아래의 인용 출처를 자세하게 알려주시면 감사하겠습니다.1강 ppt 13쪽, 텍스트마이닝 정의에 대한 인용: 'fan et al, 2006'1강 ppt 14쪽, 텍스트분석 방법: 'Bargavi et al, 2008'위에 나온 인용 출처를 좀 더 자세하게 알려주시면 감사하겠습니다.예) 저자명, 논문 이름, 연도, 논문지 이름, 책 이름, 페이지 등 감사합니다.
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
기 정제한 데이터의 영문 수정 가능 여부
강의 잘 들었습니다.그림, 표 영문 작성 논문의 경우 워드클라우드의 한글 텍스트를 영문으로 변경하고 싶은데 프로그램 내에서 변경 가능할까요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
n-gram에 들어갈 단어의 수 선택
n-gram에 들어갈 단어는 그 갯수를 사용자가 결정할 수 있는데, 그 수를 결정하는 데에 어떤 근거가 있을까요? 아니면 그냥 사용자가 의미있어보이는 순위까지만 사용하는건가요?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
분석 키워드 소거에 관하여
강의 수강생입니다.질문 내용은 제목과 같습니다.이를테면 '공무원'이라는 키워드로 분석을 실시할 경우,'공무원'이 가장 많은 빈도로 검색될텐데 이 경우 검색어는 소거하고 분석하는 게 맞는지요?
-
미해결빅데이터/텍스트마이닝 분석법 (LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
강의녹화 수정요청
3:21부터 목소리가 안나옵니다.
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
맥 os에서 폰트 경로 지정*코랩 사용
안녕하세요 코랩으로 공부중입니다.워드클라우드 작성시 font_path="C:/windows/fonts/malgun.ttf폰트 경로를 지정해줘야 하는데 운영체제가 mac 일경우에는 폰트 지정을 어떻게 해야하나요?폰트 지정을 안하니 글자까 개져서 나와요
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
Re. Konlpy 설치오류(Okt 오류)
답변에 나온 방법을 토대로 파이썬, java, JPype, jupyter를 모두 제거한 후 재설치를 진행했습니다.python 설치 : 3.8.9 버전으로, python.org에 접속하여 인스톨러로 설치했습니다.cmd 상에서 python --version 입력하였을 시, python 3.8.9가 나오는 것을 확인했습니다.java 19.0.2를 검색하여, oracle 사이트에서 설치파일 다운로드 받아 설치하였습니다. 윈도우 64bit 버전으로 설치했습니다..시스템 환경변수 설정을 했습니다.Jpype를 말씀해주신 버전과 같은 버전으로 설치했습니다.cmd 상에서, pip install konlpy로 설치하였습니다.konlpy 설치 후 알려주신 방법을 따랐지만 기존과 같이 okt = Okt()상에서 에러가 발생합니다. 추가적으로 kkma, hannanum을 실행해보았지만 같은 에러가 발생합니다.
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
Konlpy 설치 오류
konlpy설치과정에서 오류가 발생했습니다.Conda 설치가 회사 네트워크 문제로 되지 않아 프롬프트로 파이썬을 설치했고 Python은 3.8.9버전입니다. (3.9와 최신버전인 3.11로 설치했었는데 에러가 해결되지 않아 3.8로 다운그레이드 했습니다.)Java는 19.0.2(64-bit)로 설치했고 JPype는 1.1.2-cp38-win_amd64로 설치했습니다.JAVA_HOME 환경변수 설정도 확인을 완료했는데 자바 패키지상의 오류가 나타나네요ㅜㅜ
-
미해결파이썬 텍스트 분석 입문 - 데이터 수집부터 분석까지
tfidf 관련
안녕하세요, tfidf관련하여 오류가 발생하여 질문드립니다.csv파일로 뉴스를 토픽모델링하는 과정에서,csv 파일에 뉴스를 추가하면서 계속 토픽모델링을 진행하는 과정에서어느 순간에 아래처럼 오류가 발생합니다. 토픽모델링이 가능했었는데, 왜 자료를 추가하면 진행하면 어느 순간 해당 오류가 생기는지 알 수가 없어서 질문드립니다ㅠㅠ 좋은 강의해주셔서 감사합니다!UnicodeDecodeError Traceback (most recent call last) Cell In[127], line 2 1 vectorizer = TfidfVectorizer(tokenizer=tokenizer, max_df=0.90, min_df=100, max_features=20000) ----> 2 tfidf = vectorizer.fit_transform(topnews['text']).toarray() File c:\Users\My COM\AppData\Local\Programs\Python\Python310\lib\site-packages\sklearn\feature_extraction\text.py:2131, in TfidfVectorizer.fit_transform(self, raw_documents, y) 2124 self._check_params() 2125 self._tfidf = TfidfTransformer( 2126 norm=self.norm, 2127 use_idf=self.use_idf, 2128 smooth_idf=self.smooth_idf, 2129 sublinear_tf=self.sublinear_tf, 2130 ) -> 2131 X = super().fit_transform(raw_documents) 2132 self._tfidf.fit(X) 2133 # X is already a transformed view of raw_documents so 2134 # we set copy to False File c:\Users\My COM\AppData\Local\Programs\Python\Python310\lib\site-packages\sklearn\feature_extraction\text.py:1387, in CountVectorizer.fit_transform(self, raw_documents, y) 1379 warnings.warn( 1380 "Upper case characters found in" 1381 " vocabulary while 'lowercase'" 1382 " is True. These entries will not" 1383 " be matched with any documents" ... ---> 93 result = [(token.getMorph(), token.getPos()) for token in result] 95 if join: 96 result = ['{}/{}'.format(morph, pos) for morph, pos in result] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte