이야기를 나눠요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
[무료]기초 텍스트마이닝: 앱 리뷰 분석 with 파이썬(40분 완성)
웹크롤링 강의
안녕하세요 선생님빅데이터 분석에 관심이 있어 파이썬을 1도 모르는 상태에서 시작해 현재 선생님의 강의를 통해 많은 도움을 받고 있습니다.현재 텍스트 마이닝 분석 방법으로 쓴 논문들을 보면 쇼핑몰 댓글 부터 해서 각종 SNS(페이스북, 인스타그램 등)의 댓글을 분석한 논문들을 많이 살펴볼 수 있는데 현재 파이썬 초보로서 데이터를 수집하는 과정(웹크롤링)이 제일 중요하고도 어려운 것 같습니다.현재 텍스톰이나 빅카인즈 같은 웹사이트를 이용하는 것 말고 파이썬 으로 다양한 데이터를 직접 웹크롤링 해서 데이터를 수집하는 방법을 집중적으로 다룬 강의는 거의 찾아보기 어렵더라구요..ㅠㅠ블로그 등에 검색해보면 코드가 공개된 것도 있지만 여기저기 코드 방식이 다 다양하고 막상 적용해서 실행해보면 또 에러 생기고 이유는 모르겠고 답답하더라구요. SNS 채널 및 쇼핑몰 댓글 등을 웹크롤링 하는 과정을 하나하나 다 보여주는 강의가 있으면 좋겠다고 생각하고 있는데 혹시 이렇게 여러 채널의 웹크롤링 과정만 다룬 강의를 올려주실 계획은 없으신지요?
-
[실전]텍스톰 TEXTOM SV 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
샘플로 제시해주신 참고문헌 출처 부탁드리겠습니다!
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치를 산출하고 시각화하는 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 단어나 음절의 빈도를 정량적인 수치로 나타낼 수 있다(Kang & Lee, 20019). 단어 간 연결방향이 화살표를 통해 시각화되며 화살표의 굵기 크기를 통해 연결강도가 결정된다(Yoo et al., 2019). 또한 연관 단어 간 관계성을 분석하면 단어간 관계 파악에 용이다하다(Kim, 2020). 본 연구에서는 Textom에서 제공하는 N-gram 텍스트마이닝 기법 시 데이터의 흐름과 이해를 하기 위해 가장 먼저 기초 분석 자료로 활용되는 기법이기도 하다. 단어빈도에 기반한 분석은 전체 문서 내에서 특정 단어의 풀현 빈도를 나타낸다. 문서 내에 특정 단어가 등장하는 횟수를 나타내며 이수치값이 클수록 문서에서 자주 사용하는 단어임을 의미한다(Jang et al.,2018). 높은 출현 빈도를 나타내는 단어는 대체로 연구주제와 관련된 함축된 의미를 내재하고 핵심 단어로 작용 할 수도 있다(Lee,2022).