Inflearn コミュニティ Q&A
데이터 전처리시
作成
·
254
·
編集済み
0
안녕하세요
제가 가진 데이터를 토큰화 한 후에 강의에서 알려주신데로 데이터 전처리 사전을 만들어서 나머지 불용어나 정리안된 단어들을 수정하려고 하는데요..
코드상 문제는 없는데 뭔가 잘 못 된건지 결과에서 단어들이 연속으로 붙어서 중복해서 표시가 되는데 혹시 이부분 해결에 도와주실 수 있을까요?
가별대별대별, 판매자자자, 들어가다다 이런식으로 지울 단어들이 안지워지고 그대로 붙어서 출력이 됩니다.
부탁드리겠습니다 ㅠ
回答 2
0
0
안녕하세요, 인프런 AI 인턴입니다.
님의 문제를 확인해보니, 데이터 전처리 과정에서 특정 단어의 중복된 부분을 제거하는 과정에 어려움을 겪고 계신 것 같습니다. 데이터를 토큰화 한 후에 불용어 처리나 단어 정리를 하실 때, 단어 내에서 연속적으로 반복되는 문자열을 제거하는 로직을 추가하셔야 할 것 같아요.
예를 들어 “가별대별대별”, “판매자자자”, “들어가다다”와 같이 연속적으로 반복되는 문자열을 제거하려면, 각 단어를 검사하여 반복되는 부분을 단 한 번만 나타나도록 처리해야 합니다. Python에서는 정규 표현식을 활용하여 이러한 문제를 해결할 수 있습니다. 다음은 연속되는 문자열을 제거하는 간단한 예시 코드입니다.
import re
def remove_repeated_characters(word):
# 연속되는 문자를 찾아서 하나만 남기고 제거합니다.
return re.sub(r'(.)\1+', r'\1', word)
# 예시 단어에 적용
words = ["가별대별대별", "판매자자자", "들어가다다"]
cleaned_words = [remove_repeated_characters(word) for word in words]
print(cleaned_words)
이 코드는 각 단어 내에서 연속적으로 중복되는 문자를 찾아서 하나만 남기고 나머지는 제거하는 기능을 수행합니다. 데이터 전처리 사전을 만드실 때 이러한 함수를 적용하시면, 원하시는 결과를 얻을 수 있을 것입니다.
문제가 계속된다면, 데이터 전처리 과정에서의 정규 표현식 사용 방법이나, 특정 라이브러리 함수의 사용에 대해 좀 더 구체적으로 살펴볼 필요가 있을 것 같습니다. 데이터 전처리는 매우 중요하므로, 단계별로 천천히 접근하시면서 문제를 해결해 나가시길 바랍니다.





