inflearn logo
강의

Course

Instructor

Big Data/Text Mining Analysis Methods (LDA, BERTtopic, Sentiment Analysis, CONCOR with ChatGPT)

데이터 전처리시

259

yeobi852767

10 asked

0

안녕하세요

제가 가진 데이터를 토큰화 한 후에 강의에서 알려주신데로 데이터 전처리 사전을 만들어서 나머지 불용어나 정리안된 단어들을 수정하려고 하는데요..

코드상 문제는 없는데 뭔가 잘 못 된건지 결과에서 단어들이 연속으로 붙어서 중복해서 표시가 되는데 혹시 이부분 해결에 도와주실 수 있을까요?

가별대별대별, 판매자자자, 들어가다다 이런식으로 지울 단어들이 안지워지고 그대로 붙어서 출력이 됩니다.

부탁드리겠습니다 ㅠ

 

빅데이터 텍스트마이닝

Answer 2

0

HappyAI

안녕하세요.

제 메일로 연락주시면 원격으로 도와드리겠습니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다.

님의 문제를 확인해보니, 데이터 전처리 과정에서 특정 단어의 중복된 부분을 제거하는 과정에 어려움을 겪고 계신 것 같습니다. 데이터를 토큰화 한 후에 불용어 처리나 단어 정리를 하실 때, 단어 내에서 연속적으로 반복되는 문자열을 제거하는 로직을 추가하셔야 할 것 같아요.

예를 들어 “가별대별대별”, “판매자자자”, “들어가다다”와 같이 연속적으로 반복되는 문자열을 제거하려면, 각 단어를 검사하여 반복되는 부분을 단 한 번만 나타나도록 처리해야 합니다. Python에서는 정규 표현식을 활용하여 이러한 문제를 해결할 수 있습니다. 다음은 연속되는 문자열을 제거하는 간단한 예시 코드입니다.

import re

def remove_repeated_characters(word):
    # 연속되는 문자를 찾아서 하나만 남기고 제거합니다.
    return re.sub(r'(.)\1+', r'\1', word)

# 예시 단어에 적용
words = ["가별대별대별", "판매자자자", "들어가다다"]
cleaned_words = [remove_repeated_characters(word) for word in words]

print(cleaned_words)

이 코드는 각 단어 내에서 연속적으로 중복되는 문자를 찾아서 하나만 남기고 나머지는 제거하는 기능을 수행합니다. 데이터 전처리 사전을 만드실 때 이러한 함수를 적용하시면, 원하시는 결과를 얻을 수 있을 것입니다.

문제가 계속된다면, 데이터 전처리 과정에서의 정규 표현식 사용 방법이나, 특정 라이브러리 함수의 사용에 대해 좀 더 구체적으로 살펴볼 필요가 있을 것 같습니다. 데이터 전처리는 매우 중요하므로, 단계별로 천천히 접근하시면서 문제를 해결해 나가시길 바랍니다.

심화 강의 개설 여부

0

47

1

48강의 오디오가 나오지 않아요.

0

47

1

혼란도에 대해서 질문드립니다.

0

88

2

구글코랩 실행이 안되서요

0

163

2

질문드립니다.

0

163

2

Ucinet 활용한 CONCOR 데이터 추출이 안 돼요

0

388

3

pyLDAvis 오류

0

207

2

BERTopic에 대해서 질문드립니다.

0

263

2

TF-IDF값에 대해서 질문드립니다.

0

240

3

수업 자료 관련

0

231

3

원하는 결과를 얻기 위한 데이터 전처리 관련

0

230

1

LDA 분석시 빈출 키워드 관련 질문드립니다.

0

192

1

LDAvis 시각화가 되지 않습니다.

0

335

2

데이터 전처리 관련 질문드립니다.

0

242

1

LDAvis 시각화가 안됩니다.

0

269

2

강의 자료

0

184

1

원하는 결과를 얻기위한 데이터 전처리 기법

0

312

1

LDAvis를 이용한 토픽 모델링 시각화 기법

0

496

1

데이터 전처리2 에서 utf-8 저장 시 한글 깨짐

0

317

1

LDAvis 결과 해석법 with ChatGPT- 강의소리

0

196

1

pyLDAvis시각화

0

382

2

불용어 처리 관련 질문드립니다.

0

314

1

워드 클라우드 cloud=wc.fit_words 코드 에러

0

221

1

형태소 분석 및 워드클라우드 질문드립니다.

0

225

1