영상 메타데이터 생성 관련 LLM 활용 질문

Question

안녕하세요 ! 너무 유익한 강의라 현재 2회차 수강 중 입니다 ㅜㅠ (좋은 강의 감사해요) 강의와 관련된 부분은 아니지만 궁금한 부분이 있어 질문드립니다 ! 영상 분석을 목적으로 영상 타임스탬프 구간별 메타데이터를 생성하려고 하는데요(누가 등장했는지, 누가 뭐라고 말했는지, 어떤 사물이 등장하는지 등등), 1. Whisper 모델을 사용해봤을 때 도메인 특화 용어에 대해서는 단어의 인식이 아쉬운 부분이 있었습니다. LLM을 사용하여 후보정하는 방법에 대해 간단한 가이드를 들을 수 있을까요? 2. 사용해보신 STT 모델 중에 가장 성능이 좋다고 느끼셨던 모델이 있을까요 ? 3. 누가/어떤 사물이 등장하는지에 대해서는 YOLO같은 딥러닝 모델을 사용해야하는지, 아니면 Gemini/GPT 모델 등으로도 가능할지, 다른 유용한 방법이 있는지 궁금합니다..!

제이쓴 · Answer

안녕하세요! 좋은 질문과 피드백 감사합니다. 사실 제가 직접적으로 해본적은 없어서 경험에 기반한 답변은 못드리지만, 이론상으로는 아래처럼 가능할 것 같습니다. LLM을 사용해서 후보정을 한다면 Whisper로 1차 인식된 텍스트를 추출한 후에, 해당 텍스트를 LLM으로 말씀하신 도메인 특화 용어를 활용해서 후보정하는 방식이 가능합니다 후보정은 가급적이면 작은 단위로 진행을 하는게 좋은데요 (전체 텍스트를 넣게되면 context를 채워서 정확도가 떨어질 가능성이 있습니다). 전체 내용을 한번 요약한 후에 요악한 내용과, 후보정할 단위의 텍스트를 도메인 특화 용어와 같이 넣어주는 식으로 진행하시면 될 것 같습니다 예전에 회의록 요약 서비스 중에 gemini-flash로 후보정을 한다고 했던 글을 본적이 있는데, 업계에서도 꽤 많이 사용하는 방법인 것 같습니다 아쉽지만 저는 회사에서 개발했던 도메인 특화된 자체모델과 Whisper만 사용해봤습니다 ㅠ 요즘은 모델들이 너무 좋아져서 굳이 이미지 특화 모델을 사용하지 않고 Gemini/GPT와 같은 모델로 충분히 가능할 것 같습니다 특히 LLM을 활용해서 후보정을 할 계획이 있으시면 이미 사용중이실테니, 굳이 관리 포인트를 추가하는 것 보다는 이미 사용중인 모델을 사용하는 게 더 편리할 것 같습니다.