inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피

필드속성 수정하기

누름틀이나 셀필드와 관계없이 한글파일에서 전체 텍스트 추출하기

1150

한택진

작성한 질문수 2

1

일코님, 안녕하세요.

 

필드 관련 수업을 듣다가 질문드립니다. 지금까지 배운 내용들은 대부분 '부분적'으로 누름틀이나 필드를 사용하여 텍스트를 추출하는 것이었는데,

 

누름틀이나 필드와 관계없이 문서의 전체 내용을 (양식에도 관계없이) 텍스트 형태로 뽑아내는 것이 가능할까요?

 

예를 들어, 보도자로 1000개를 다운로드해서 텍스트로 일일히 붙여넣기 보다는, (역시 양식에 관계없이) 자동으로 텍스트를 추출해서 리스트로 정리하는 겁니다.

 

이러면 특정 기간에 많이 쓰인 단어나, 감성분석, 거시적으로 정부의 보도자료가 어떻게 변해왔는지 등을 알기쉽게 시각화 할 수 있을 것 같은데 살펴봐주시면 감사드리겠습니다.

 

항상 좋은 컨텐츠 만들어주셔서 감사합니다.

python 한컴오피스

답변 3

2

일코

택진님 안녕하세요?

해당 기능은 hwp.GetTextFile이라는 (다소 직관적이지는 않은) 메서드로 가져오실 수 있습니다.

예시를 들어보면

whole_text = hwp.GetTextFile(Format="UNICODE", option=None)

이런 코드로 문서의 전체 텍스트를 한 번에 불러오실 수 있습니다.

image

만약 표나 주석 등 본문 외의 텍스트를 제외하고 싶다면

GetTextFile 대신 GetText를 사용하실 때, 제외옵션을 보다 상세하게 지정하실 수 있습니다.

도움이 되었으면 좋겠습니다^^

(답변이 너무 늦었습니다.. 죄송합니다ㅜ)

0

김용범

안녕하세요 일코님, GetTextFile로 문서에 있는 텍스트를 모두 가져올 수 있다면.. 반대의 방법으로 가져온 텍스트를 수정해서 다시 돌려보내는 방법이 있는지 궁금합니다. 표 같은게 있어도 그런게 가능한지 궁금하네요. 꼭 답변해주시면 감사하겠습니다. !

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴이에요. 한택진님의 질문에 답변드리겠습니다.

누름틀이나 셀필드와 관련없이 한글 파일에서 전체 텍스트를 추출하는 방법은 있습니다. 파이썬의 ‘한글 형태소 분석 모듈’을 사용하면 됩니다. 예를 들어, KoNLPy와 같은 모듈을 사용하여 한글 파일을 불러와 형태소 분석하여 텍스트를 추출할 수 있습니다.

한글 형태소 분석 모듈을 사용하면 텍스트에서 단어를 추출하고, 해당 단어의 빈도수를 계산할 수도 있습니다. 이를 통해 특정 기간에 많이 사용된 단어를 알아볼 수 있고, 감성분석이나 정부의 보도자료 변화를 시각화하는 것도 가능합니다.

하지만, 이러한 분석 작업을 위해서는 프로그래밍 언어 (Python 등)에 대한 기본적인 이해와 한글 형태소 분석에 대한 이해가 필요합니다. 또한, 한글 형태소 분석을 위한 모듈의 설치와 사용 방법에도 익숙해져야 합니다.

따라서, 텍스트 추출 및 분석을 자동화하고 시각화하는 방법에 대해서는 좀 더 구체적인 가이드가 필요하다고 생각됩니다. 프로그래밍에 익숙하지 않으시다면, 파이썬을 공부하시고 한글 형태소 분석에 대한 자료와 예제를 찾아보시는 것이 좋을 것 같습니다.

더 구체적인 방법을 알고 싶다면, 인프런의 다양한 프로그래밍 강의들을 통해 원하는 지식을 습득하시는 것을 추천드립니다. 항상 좋은 컨텐츠를 제공하기 위해 노력하겠습니다. 궁금한 점이 있으면 언제든지 질문해주세요! 좋은 하루 되세요.

섹션7과 같은 수학 수식을 백지에서 시작할 때 어떻게 만들 수 있을까요?

0

77

1

hwp 병렬 작업시 클립보드 충돌문제

0

61

1

본문을 각주로 내리는 법

1

93

1

한글 자동화 삽도 삽입!!

1

387

2

한글 표 내부 위치 찾는 코드좀 알려주세요 ㅠㅠ

1

238

2

빈 문서를 새로 열때는 팝업이 안나오는데 기존 문서를 열면 팝업이 나옵니다

1

120

2

사무실 컴퓨터ㅠ

0

98

2

글자입력 여러번 실행기

0

70

1

현재 커서 문단에 아무런 내용이 없는지 확인하기

1

103

1

특정 스타일을 찾아 이동하는 방법

1

166

2

한/글 파일 open 시 '상위 버전에서...' 메세지 안 뜨게 하는 방법?

1

1125

1

win32com 으로 hwp 문자열 검색하기 문의

1

224

2

[응용] 엑셀문서 값을 필드에 입력하기 질

1

124

1

표 병합하기 관련

0

143

0

메타태그 삽입 자동화

0

191

1

스크립트 매크로 초기화 하고 싶습니다.

1

273

2

한글 창이 여러 개 존재할 때 pyhwpx 모듈로 접근하는 방법을 알고 싶습니다.

1

271

1

표안의 특정 필드에 있는 이미지를 복사하여 한글 외부에 저장하기

1

279

2

스타일 싹 다 지우고 바탕글로 통일하는 방법 문의드립니다.

1

286

0

하위의 여러 폴더 중 특정폴더의 사진만 추출하기

1

347

2

한글 수식을 자동으로 넣는 코드를 만들었는데, 수식 사이의 간격이 계속 벌어집니다.

1

676

1

보유 특허 검색 페이지에서 검색이 되지 않습니다.

1

141

1

hwp 페이지별 분할 저장하는 코드 관련 문의

0

452

0

한글 문서에 사용된 폰트명 추출

1

651

1