인프런 커뮤니티 질문&답변

임해빈

작성한 질문수

컴퓨터 비전 이상 탐지, 개발부터 배포까지 올인원 마스터

Azure OpenAI를 이용한 데이터 라벨링 #2 - 라벨링 기초

라벨링을 통한 데이터 생성

해결된 질문

작성

안녕하십니까.

높은 질의 강의를 준비해주셔서 감사합니다.

강의를 들으면서 현재 강의에서 최종적으로 만들고자 하는 MLOps 아키텍쳐 과정에서 궁금한 것이 생겨 이렇게 질문을 하게 되었습니다.

강의에서 '지도학습을 위한 라벨링 데이터를 만들기 어려운 상황이 많기 때문에 LLM을 통해서 라벨링 데이터를 만들겠다.'라는 느낌으로 말씀을 하셨는데 그렇게 되면 해당 데이터로 학습을 한 모델은 위에서 사용된 LLM의 성능에만 근접하도록 튜닝이 되는 것이지 않을까요?

궁금한 점을 좀 더 자세히 말씀드리면, LLM으로 anomaly detection을 수행하면 되는데 어떤 이유에서 LLM으로 만든 데이터셋을 예측하는 머신을 추가적으로 만들어야하는 이유를 잘 모르겠습니다.

LLM API의 Latency 때문일까? 라는 생각을 했지만 정확하지 않은 것 같아 질문을 남기게 되었습니다.

좋은 강의 항상 감사드립니다.

python 머신러닝 딥러닝 azure-databricks 인공지능(ai)

답변 2

데이비드최

지식공유자

깊은 고민이 담긴 질문을 통해, 제 강의가 도움이 되고 있다고 생각해도 될까요?^^ 배움에 대한 열정에 저까지 흐뭇해 집니다.

실제 현장에서 데이터를 보면, '인간은 언어에 의해, 언어를 통해, 언어를 위해' 소통하고 세상을 이해하고 있구나를 참 많이 느낍니다. scalar 로 된 데이터가 아닌 ML(딥러닝, 생성형 모두 포함)의 대상이 되는 모든 비정형 데이터의 근간은 '인간의 언어'라고 봐도 무방할 정도로 그 이상의 데이터를 사실상 경험하기란 불가능합니다. 이게 우리가 사는 세계이며, 우리가 세계를 이해하고 소통하는 방식이기도 합니다. 따라서, LLM 과 같은 생성형 모델의 경우 이러한 언어를 기반으로 생성된 것으로 인간의 사고로 만들어 낼 수 있는 표현과 관련하여 문맥적 흐름에 가장 적합한 '라벨링'을 할 수 있는 것이 가장 큰 장점입니다. 프로젝트를 하다 보면 '모델의 성능이 왜 이래?' 라는 챌린지를 받게 되는데요, 문제의 핵심을 추적하다 보면 결국 문제는 데이터를 생성한 주체 또는 데이터의 원본 소스가 '불완전' 하거나 '오염'되었거나, 'biased' 되어 있거나, '모호'하거나 한 경우가 100%입니다. 심지어 데이터를 가공하는 주체가 '개념' 을 비롯 taxonomy 의 기준을 잘못 만들어 데이터를 생성한 경우가 대부분이며(저는 사실 100%라고 생각합니다), 그 결과 모델이 제 성능을 내지 못하는 경우가 많습니다.

따라서, LLM 의 도움으로 '라벨링'을 생성하는 것의 가장 큰 장점은 이러한 '온전치 못한' 데이터를 생성할 가능성을 크게 줄여줄 수 있습니다. 심지어 post-processing 의 일환으로 human rating을 가미할 여력이 된다면 최종 데이터의 '완결성'을 효과적으로 달성할 수 있게 되는 거죠.

결국, 비용과 효과를 양팔 저울에 올려놓고 현실을 마주할 때(실제 프로젝트는 결국 돈과 시간이란 기회비용대비 기대효과 어느 중간에서 의사결정이 이루어집니다), LLM은 충분히 숙련된 인력으로 작업하는 것 이상 효과를 얻을 수 있다고 봅니다.

열공하세요!

임해빈

질문자

안녕하십니까.

저의 질문에 이렇게 깊은 답변을 해주셔서 너무 감사합니다.

말씀하신 부분을 읽어보았을 때 현대의 LLM은 충분히 해당 사진에 대한 라벨링이 가능한 만큼 발전했다는 것을 이해했습니다. 다만, 제가 아직 해결되지 않은 부분은 LLM을 통해 얻든 라벨링의 신뢰도가 충분히 있다면, anomaly detection을 할 때 머신러닝이 아닌 LLM만 쓰면 되지 않냐? 하는 궁금증 입니다.

충분한 답변을 해주셨음에도 재차 여쭤보아서 죄송합니다.

항상 높은 수준의 강의를 제공해주셔서 감사합니다.

데이비드최

지식공유자

아, 이제 질문의 의도를 조금더 파악한 것 같네요. LLM을 통한 라벨링 전반에 대한 이야기보다는 '사진' 데이터에 대한 LLM 라벨링을 바탕으로 anomaly detection을 대처할 수 있는 가의 질문이었군요.

흠, 매우 참신한 아이디어이네요^^ 충분히 검토해 볼 만한 아이디어입니다. 다만, 라벨링의 학습과정 자체가 사람이 정교하게 만들어낸 라벨링을 바탕으로 이미지 데이터를 인식하는 과정을 거치므로, 결국 모델의 출발은 고도로 숙련된 인간 라벨러에 의해 생산된 데이터라는 부분입니다. 따라서, 현재 anomaly detection 이 어떤 분야인 가에 따라 질문한 것처럼 LLM 만으로도 충분히 좋은 결과를 낼 수 있을 거라는 생각이 듭니다.

반면, 제조업과 같은 현장에서 하자검수 또는 불량품 탐지와 같은 경우, LLM 모델만으로 충분한 성능을 낼 수 없는 경우도 많을 겁니다. 현재 이미지 분석 또는 captioning 같은 multi-modal LLM같은 경우는 학습데이터가 앞서 말한 제조업 현장 등과 같은 특정 도메인에서 생산된 것을 아닐 것이기에, LLM 라벨링 만으로 anomaly detection 을 하기에는 매우 제한적일 겁니다.

결국, 종국적으로는 LLM 이 매우 파괴적인 성능을 갖추어 갈 것이므로, LLM 의 다양한 성능발전 등에 지속적인 관심을 가지는 것이 필요한 것이되, deep learning, machine learning 과 같은 근본적인 기술에 대한 지식을 쌓는 다면, 업계에서 보기 드문 개발자가 되실 거예요. 특히 최근 LLM의 급속한 발전으로 이러한 분야가 외면 받는데, LLM 에만 의존하면 반쪽짜리 개발자밖에 되지 못합니다. 질문에 언급했듯이 latency 문제는 당연하고요, 클라우드 환경에서의 보안 등 LLM 이 태생적으로 가지는 한계를 극복하는 유일한 대안은 deep learning, machine learning 에 대한 기술력 있는 개발자가 될 겁니다.

충분한 답변이 되었으면 합니다.

열공!

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 임해빈님.

질문 주신 주제는 머신러닝과 LLM(대형 언어 모델, Large Language Model) 활용의 차이에 대한 것인데요. 강의에서 LLM을 활용하여 라벨링 데이터를 생성하는 이유와 그 데이터로 모델을 학습하는 이유는 여러 가지입니다. 간단히 설명드리자면:

라벨링 데이터 생성의 용이성: LLM은 대규모 데이터를 바탕으로 훈련되어 있어 다양한 상황에서 유용한 정보를 생성할 수 있습니다. 라벨링이 어려운 데이터를 생성함으로써 초기 데이터 구축에 도움을 줄 수 있습니다.
모델의 특화: LLM은 일반적인 범용 성능을 가지고 있지만, 특정 애플리케이션이나 도메인에 특화된 모델은 필요합니다. 특정한 문제에 대해 최적화된 성능을 발휘하기 위해서는 해당 도메인에 더 특화된 데이터를 바탕으로 모델을 재훈련하거나 보완할 필요가 있습니다.
Latency 문제: 맞습니다, LLM API의 경우 실제 환경에서의 사용 시 지연(latency)이 발생할 수 있습니다. 그리고 클라우드 환경에서의 호출 비용도 고려해야합니다. 이러한 문제를 해결하기 위해 적절히 튜닝된 모델을 로컬 환경에서 실행할 수 있습니다.

이러한 이유로 LLM을 통해 생성된 데이터를 활용해 보다 특정한 목적과 효율성을 가진 모델을 따로 학습하는 접근을 취할 수 있습니다.

이 주제와 관련하여 추가적인 자료나 유사한 질문이 있는지 살펴보았으나, 상세한 참고 링크를 찾지는 못했습니다. 하지만 관련된 원리에 대한 이해에 도움이 될 수 있는 링크를 아래 참고해 주세요:

Google의 머신러닝 크래시 코스

기본 개념과 활용 방법에 대해 더 알고 싶으시다면 이와 같은 자료를 참고하시길 권장드립니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

임해빈

작성한 질문수

전체 Q&A

질문하기