Object Detection과 OCR 의 차이를 알고 싶습니다.

Question

안녕하세요. 선생님 강의 잘 듣고 있습니다. 다름이 아니라 OCR이이미지나 문서속에 포함된 Text를 추출하고 인식하는거잖아요. Text 추출 및 인식의 경우, Object Detection처럼 Bounding Box를 찾고, Text가 word이면 LSTM을 사용하는 것 같고, Text를 character 단위로 쪼갤수 있다면 CNN 을 사용해도 될 거 같다는 생각이 들어서요. 언뜻 보기에 Object Detection과 거의 비슷한 거 같더라구요. OCR과 Object Detection 이 어떤 차이가 존재하는지, 이 수업에서 배우는 모델중에서 OCR에 적용가능한 게 있는지 궁금합니다.

Answer

안녕하십니까,

오, Deep Learning을 OCR에 적용하는 방법을 잘 아시는 군요.

OCR은 잘 아시다시 이미지 상의 텍스트를 컴퓨터에서 인식가능한 문자열로 변경하는 것입니다.

OCR을 Deep Learning 이전부터 Library로 잘 활용되고 있었습니다.

보통은 텍스트 영역에 해당하는 외곽선, Edge등을 특성을 알고리즘에 담아서 텍스트 영역을 추출한 다음에 이를 문자열로 변경합니다.

이런 OCR 메커니즘을 Deep Learning을 적용하려면 보통은 아래와 같은 처리를 합니다.

이미지에서 텍스트가 있을 영역을 Object Detection으로 bbox영역으로 찾아냄 -> 찾아낸 bbox 영역에 대해서 개별 문자열로 인식하기 위해서 CNN과 LSTM이 결합된 네트웍에 입력 -> 문자열 추론

OCR의 대표적인 Library로 opencv의 Tesseract가 있습니다. Tesseract v4 부터는 LSTM을 지원한다고 합니다.

이 수업에서 배우는 Object Detection 알고리즘 중 아무거나 편하신것을 이용하여 이미지에서 텍스트 영역을 bbox로 찾아내는데 활용하시면 될 것 같습니다.

감사합니다.

베리타르트

Object Detection과 OCR 의 차이를 알고 싶습니다.

이 글과 비슷한 Q&A

같은 질문으로 받은 코드를 돌렸는데 최종 수익률이 다를 수도 있나요?

X_test 결측치 채울때, 오브젝트 vs 수치형 차이

코딩센세님.. 이거 제가 이해를 잘못하는걸까요?

[질문]colab환경에서 텐서보드(TensorBoard)를 이용해서 학습과정 시각화(Visualization)하기강의 관련 질문