작성
·
812
0
질문이 좀 많습니다. 양해 부탁드립니다.
1. 국내 번호판의 경우 그 종류가 다양한데, 대표적으로 2줄로 된 번호판의 경우 CRNN 모델에서 feature sequence가 2줄을 감안해서 추출이 되는지요?
아래 이미지를 ground truth 03어5746으로 하여 학습을 하고 있습니다.
이 경우 feature sequence가 다음 중 어떤 형태로 추출이 되는지 궁금합니다.
또한 CRNN 모델이 위 형태와 같이 1줄이 아닌 다양한 형태의 국내 번호판을 OCR을 수행하는데, 제약은 없는지요?
2. 위 이미지를 보시면 촬영 각도에 따라 왜곡이 심한 경우가 있습니다. 이런 부분들은 데이터셋으로 극복이 가능하다고 판단되는데, CRNN이 왜곡된 이미지를 처리하는데 있어 제약사항이 있을까요?
3. 프로젝트의 실시간성 요소로 인해 CRNN을 우선 검토하고 있고, 강의 중 언급해주신 Attention OCR의 경우 CRNN보다 무겁다는 판단으로 후순위로 하고 있습니다.
CRNN 외에 실시간성이 가능한 OCR 모델이 더 있을까요?
4. 강의중 RNN이 필요한 이유가 context 정보라고 하셨는데, 번호판의 경우 context가 큰 의미가 있는지 의문입니다. 만약 번호판 인식에서 RNN 부분을 제외하고 OCR을 수행하는것에 대한 강사님 의견을 여쭙고 싶습니다.
5. 현재 프로젝트에 번호판 외 다른 객체 검출도 필요한 이유로 yolo를 통해 번호판 detection을 수행하고 있습니다. text detection 모델과 yolo 등의 object detection 모델과의 큰 차이점이 궁금합니다.
답변 2
0
0
안녕하세요~. 반갑습니다.
1. 2줄 번호판의 경우 아래 그림 형태로 추출이 되게 됩니다. 따라서 2줄을 한번에 처리하기엔 부적합할 수 있습니다. 2줄 번호판은 Text Detection 자체를 2줄로 한다든지하는 형태로 우회하는 형태가 어떨까 싶습니다.
2. 왜곡된 형태는 Text Detection을 테두리를 정확히 검출하는 형태로 진행하고 warp를 진행해서 편다음에 CRNN에 넣는게 좋을 것 같습니다. keras-ocr에 warpBox 함수를 참조하세요.
https://github.com/faustomorales/keras-ocr/blob/master/keras_ocr/tools.py#L55
3. CRNN 모델 외 모델은 좀더 검토해보고 알려드리겠습니다.
4. 국내번호판의 경우 중간에 지역 번호나 구분이 되는 1글자 한글이 나온다는정도가 context 정보라서 context 정보가 크게 많은 형태는 아닙니다. 따라서 RNN을 사용하지 않는 모델로도 성능이 잘나온다면 RNN을 제거하는 것도 괜찮습니다.
5. yolo(=object detection)와 text detection의 차이는 검출하는 bounding box의 모양이 다르다는 것입니다. 위에 기울어진 번호판처럼 생긴 부분을 직사각형 형태로 검출하느냐 평행사변형 같은 모양까지 더 디테일하게 bounding box 모양을 만들어서 검출하느냐의 차이입니다. 번호판 이미지 자체가 직사각형 형태가 대부분이라면 object detection으로 해도 큰 상관이 없고 왜곡이 있어서 평생사변형 모양도 많이 있다면 text detection 형태가 더 유용할수도 있습니다.
감사합니다~.