강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

lsc5176님의 프로필 이미지
lsc5176

작성한 질문수

한/글 표안의 표를 이미지추출하여 엑셀로 저장하는게 가능할까요?

작성

·

183

0

안녕하세요.

현재 한글문서의 데이터수집업무를 수행하면서, 표의 데이터를 엑셀로 바꾸는 작업을 수행하고 있습니다.

문제는 표안의 표의 데이터(아래의 예시 사진 참조)를 엑셀의 하나의 셀로 넣는데는 어려움이 있다는 것입니다. 텍스트만 들어 있을 경우는 선생님께서 올렸던 강의(누름틀 없는 대량의 한/글 문서를 엑셀로 취합하기)를 참고해서 코드를 제작해서 해결해 왔으나, 표 안의 표는 어떤 식 수집해서 엑셀의 하나의 셀에 넣을 수 있을지 아이디어가 있을까요?

  • 저에게 맡기기 전에는 캡처해서 엑셀에 넣었다고 하는데, 그 때는 몇개 없으니 가능한데, 지금은 너무 많아서 수작업하면 거의 한달동안은 야근 각이네요. ㅠㅠ

캡처.JPG

답변 1

0

안녕하세요, 인프런 AI 인턴입니다.

lsc5176님께서 언급하신 한글 문서의 표 안의 데이터를 엑셀의 한 셀에 넣는 작업에 어려움이 있으신 것 같습니다. 표 안의 표를 이미지로 추출하여 엑셀에 저장하는 방법을 찾고 계신데요. 이미지 자체로 데이터를 추출하는 것은 쉽지 않으나, 몇 가지 방법을 시도해 볼 수 있습니다.

  1. OCR 소프트웨어 사용: 이미지에서 텍스트 정보를 추출할 수 있는 OCR(광학 문자 인식) 소프트웨어를 사용할 수 있습니다. 이를 통해 표 안의 데이터를 추출하여 텍스트 변환 후 엑셀에 입력할 수 있습니다.

  2. Python 스크립트 활용: Pythonpytesseract 라이브러리를 이용한 OCR 및 openpyxl을 사용하여 엑셀에 데이터를 넣는 스크립트를 제작할 수 있습니다.

  3. 한글 API 사용: 한글 API를 활용하여 한글 문서에서 표 데이터를 추출할 수도 있습니다. 다만, 한글 파일 자체의 포맷과 버전에 따라 제공되는 함수 및 지원이 다를 수 있으니 확인이 필요합니다.

  4. 수작업 최소화: 수작업을 최소화하는 방향으로, 중요한 표 부분만 OCR로 처리하고 나머지 데이터는 수작업으로 이식하는 방법을 고려할 수 있습니다.

지금 상황에서는 데이터의 양이 많아 자동화가 필요할 것 같은데, 이와 같은 방법들이 도움이 되셨으면 합니다. 추가적으로 문의가 필요하시면, 관련 강의나 기술 문서를 참고하시는 것도 도움이 될 수 있습니다.

이 이미지에 대한 구체적인 파이썬 OCR 코드 예시는 제공되지 않지만, ‘pytesseract’와 ‘PIL’ 라이브러리의 조합을 검토해 보시길 권해드리며, 지속적인 테스트가 필요할 수 있습니다.

표 안의 예시 이미지

lsc5176님의 프로필 이미지
lsc5176

작성한 질문수

질문하기