영상 메타데이터 생성 관련 LLM 활용 질문
72
9 asked
안녕하세요 ! 너무 유익한 강의라 현재 2회차 수강 중 입니다 ㅜㅠ (좋은 강의 감사해요)
강의와 관련된 부분은 아니지만 궁금한 부분이 있어 질문드립니다 !
영상 분석을 목적으로 영상 타임스탬프 구간별 메타데이터를 생성하려고 하는데요(누가 등장했는지, 누가 뭐라고 말했는지, 어떤 사물이 등장하는지 등등),
1. Whisper 모델을 사용해봤을 때 도메인 특화 용어에 대해서는 단어의 인식이 아쉬운 부분이 있었습니다. LLM을 사용하여 후보정하는 방법에 대해 간단한 가이드를 들을 수 있을까요?
2. 사용해보신 STT 모델 중에 가장 성능이 좋다고 느끼셨던 모델이 있을까요 ?
3. 누가/어떤 사물이 등장하는지에 대해서는 YOLO같은 딥러닝 모델을 사용해야하는지, 아니면 Gemini/GPT 모델 등으로도 가능할지, 다른 유용한 방법이 있는지 궁금합니다..!
Answer 1
1
안녕하세요! 좋은 질문과 피드백 감사합니다. 사실 제가 직접적으로 해본적은 없어서 경험에 기반한 답변은 못드리지만, 이론상으로는 아래처럼 가능할 것 같습니다.
LLM을 사용해서 후보정을 한다면 Whisper로 1차 인식된 텍스트를 추출한 후에, 해당 텍스트를 LLM으로 말씀하신 도메인 특화 용어를 활용해서 후보정하는 방식이 가능합니다
후보정은 가급적이면 작은 단위로 진행을 하는게 좋은데요 (전체 텍스트를 넣게되면 context를 채워서 정확도가 떨어질 가능성이 있습니다).
전체 내용을 한번 요약한 후에
요악한 내용과, 후보정할 단위의 텍스트를 도메인 특화 용어와 같이 넣어주는 식으로 진행하시면 될 것 같습니다
예전에 회의록 요약 서비스 중에 gemini-flash로 후보정을 한다고 했던 글을 본적이 있는데, 업계에서도 꽤 많이 사용하는 방법인 것 같습니다
아쉽지만 저는 회사에서 개발했던 도메인 특화된 자체모델과 Whisper만 사용해봤습니다 ㅠ
요즘은 모델들이 너무 좋아져서 굳이 이미지 특화 모델을 사용하지 않고 Gemini/GPT와 같은 모델로 충분히 가능할 것 같습니다
특히 LLM을 활용해서 후보정을 할 계획이 있으시면 이미 사용중이실테니, 굳이 관리 포인트를 추가하는 것 보다는 이미 사용중인 모델을 사용하는 게 더 편리할 것 같습니다.
마크다운을 텍스트 파일로 변환하기
0
11
1
max token을 제한하는게 왜 성능을 개선하게 되는걸까요?
0
42
2
pyzerox 유니코드 에러
0
75
2
종합부동산세 부분 tool 사용 질문 드립니다.
0
74
2
uv sync 파이썬 버전문제 onnxruntime
-1
106
2
MCP를 활용해서 간단한 에이전트를 만들어보세요
0
97
1
PDF 형식
0
66
1
5.3 langchain-mcp-adpater를 활용한 MCP 도구 사용 tool_list 지연 사유
0
91
2
3.6 human_in_the_loop 3rd case
0
81
1
summary 를. 시스템메세지에 추가하는 부분에 관하여
0
70
3
병렬 처리 중 retrieve 관련 궁금한 사항
0
76
1
query 에 대한 answer 결과값이 나오지 않습니다.
0
96
2
사람과 관련된 표현이 없는데 rewrite 로 이동하지 않는경우
0
77
1
retriever 관련 질문
0
65
1
인터룹 관련 질문
0
49
2
2.4 Self-RAG 결과가 달라요!
0
78
2
md vs txt 차이..
0
140
2
OpenAI API 호출 때문에 발생하는 Error code: 429 문제
0
115
2
단순 도구 사용과 도구를 가진 에이전트를 사용하는 것의 차이가 궁금합니다.
0
88
1
LangChain과 LangGraph v1
0
137
1
2.4 강의 관련 질문(답변을 검증하는 self rag)
0
75
2
후속강의 문의
0
74
2
3.6 강의 관련 질문(interrupt 관련)
0
51
1
그래프 구현 조언 부탁드립니다!
0
77
2

