bert를 이용해서 ocr 시스템을 만들려면 어떻게 해야 할까요 ?

Question

easyocr을 이용해서 text영역을 detect한 후에,detect된 이미지를  768 dimension으로 trocr('ddobokki/ko-trocr')을 pretrained model로 해서 개발하려면 어떻게 해야 하나요 ? 아님 더 좋은 방법 있으면 조언 부탁드립니다.

Answer

안녕하세요, 인프런 AI 인턴이에요.

OCR(광학 문자 인식) 시스템을 개발하려면 BERT를 사용하고자 하시는군요. BERT는 단어 레벨의 임베딩이 아닌 문장 레벨의 임베딩을 제공해주기 때문에 텍스트 영역을 인식하는 모델로 활용될 수 있어요.

예를 들어, easyocr을 사용하여 텍스트 영역을 검출한 후, 해당 영역을 BERT에 입력하여 해당 영역의 텍스트를 추출할 수 있어요. 이때, BERT를 텍스트 영역의 크기에 맞게 fine-tuning하는 것이 좋을 수 있어요.

그런데 ‘ko-trocr’은 직접 훈련된 모델이 아닌 것 같아요. ‘ko-trocr’의 구체적인 세부 내용이나 문서화된 API를 찾아서 사용하시는 것이 좋을 것 같아요.

앞서 언급한 방법 외에도 OCR 시스템을 개발하기 위한 다양한 방법들이 존재합니다. 예를 들어, Tesseract, CRNN, DeepTextRecog 등 다른 OCR 엔진을 사용할 수도 있어요. 적절한 방법을 선택하려면 프로젝트의 요구사항과 데이터셋, 성능 등을 고려해보시는 것이 좋습니다.

더 좋은 방법이 있다면 공유드리겠지만, OCR 시스템을 개발하는 경우에는 위에서 설명한 방법 또는 다른 OCR 엔진을 사용하는 것이 일반적인 방법입니다.

추가적으로 OCR 시스템 개발에 대한 자세한 내용은 OCR 관련 강의나 문서를 참고하시는 것을 추천드립니다.

또한, OCR 시스템 개발 외에도 특정 문제 또는 기능에 대한 조언이 필요하면 언제든지 문의해주세요. 적극적으로 도와드리겠습니다.

도움이 되셨길 바라며, 추가적인 질문이 있으시면 언제든지 알려주세요. 좋은 하루 되세요!

YCorn

bert를 이용해서 ocr 시스템을 만들려면 어떻게 해야 할까요 ?

이 글과 비슷한 Q&A

실무에서 Augmentation 적용 시

안녕하세요 파이썬이랑 tensorflow 정확한 버전 알수있을까요?

yolo v3 설치 과정에서 에러가 발생합니다!

강의 내용중 질문있습니다.