inflearn logo
강의

Course

Instructor

Developing LLM Applications Using RAG (feat. LangChain)

5.2 Now is the Era of AI Agents

강의 내용과는 별개로 궁금한 점이 있습니다

89

choemyeonggeun

9 asked

0

안녕하세요, 좋은 강의 감사합니다 !

강의 내용과는 별개로, 개인 프로젝트 겸 하나 실험해보고 싶은 주제가 있어 간단히 의견 여쭤보고 싶습니다.

유튜브 라이브 채팅 로그를 분석하기 위해, 각 채팅을 의도 기반으로 7~10개 정도의 라벨로 분류해보려 합니다. (채팅은 약 5만~10만개 정도)

다만 라이브 채팅 특성상 다국어가 섞여 있고, 이모지 사용이 많으며, 문장이 매우 짧은 경우가 대부분이라 과연 잘 될지 고민이 됩니다...

이와 관련해 LLM을 활용해 채팅 데이터를 라벨링하는 방식에 대해 어떻게 생각하시는지 궁금합니다.

실제로 비슷한 케이스를 다뤄보신 경험이 있거나, 주의해야 할 점이 있다면 공유해주시면 감사하겠습니다.

또한 LLM을 활용한 라벨링 관점에서, 7~10개 라벨이 모델이 분류하기 적절한 수준인지 아니면 라벨 수를 줄이는 것이 성능 향상에 도움이 될지도 의견을 듣고 싶습니다.

감사합니다!

vector-database llm langchain rag openai-api

Answer 2

0

jasonkang

안녕하세요! 좋은 질문 감사합니다. LLM을 활용한다면 전혀 문제 없을 거라고 생각합니다. 예전에 NLP를 학습할 때는 감정분석이나, 라벨링같은 태스크가 상당히 어려웠는데, LLM으로 하시면 제 생각엔 거의 모든 케이스를 커버할 수 있지 않을까 싶습니다.

만약 학습 측면에서 접근하신다면 GPT-5, Claude Opus 4.5, Gemini 3 과같은 상용 모델보다는 google-bert/bert-base-multilingual-cased같은 걸 파인튜닝해서 시도해보시는게 어떨까 싶네요. 다만 완전(?) 다국어로 간다면 기대하시는 만큼의 성능은 나오지 않을 것 같습니다

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. choemyeonggeun님.

유튜브 라이브 채팅 로그를 분석하여 의도 기반 라벨링을 하시는 프로젝트를 계획하고 계시군요. 다국어, 이모지 사용, 짧은 문장 등 다양한 특성을 고려할 때, LLM을 활용한 라벨링이 상당히 유용할 수 있습니다. 그러나 몇 가지 주의할 점이 있습니다.

LLM을 활용한 라벨링의 장점

  1. 다국어 지원: LLM은 다양한 언어를 지원하므로 여러 언어가 혼합된 데이터 처리에 유리합니다.
  2. 의도 인식: 의도를 판단하는 데 있어 강력한 성능을 발휘할 수 있습니다.

주의사항

  • 이모지 처리: 이모지는 의도를 표현하는 데 중요한 요소일 수 있으므로 이를 적절히 처리하기 위한 추가적인 전처리나 별도의 모델링 전략이 필요할 수 있습니다.
  • 문장 길이: 짧은 문장은 문맥을 이해하는 데 있어 어려움이 있을 수 있습니다. 모델 입력의 전후 문맥을 포함하거나 이를 보완할 데이터가 필요할 수 있습니다.

라벨 수 결정

  • 모델 복잡성 대비 라벨 수: 라벨 수가 많을수록 모델이 더 정교해야 하지만, 지나치게 많은 라벨은 과적합의 위험이 있으므로 적절한 균형을 찾는 것이 중요합니다.
  • 라벨의 명확성: 각 라벨이 명확하게 다른지 확인하고, 가능하면 연관성이 높은 라벨 끼리 구분할 수 있도록 라벨 정의가 필요합니다.

관련 자료 및 링크

비슷한 주제에 대해 추가 정보를 찾을 수 있는 장소로는 다음 URL을 참고해 보세요:
- AI 모델을 이용한 텍스트 데이터 분류 실험

이와 같은 접근 방식이 도움이 되길 바라며, 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다. 감사합니다!

소득세법 docx 파일 공유 요청건

0

65

1

EXAONE 모델 불러오기 안되는 문제

0

89

2

[5.1 강의] LLM Evaluator에 Upstage를 사용하는 방법 + 변경된 Langsmith Docs를 참고하여 구현하는 방법 공유

0

104

2

강의 9에 QA관련된 import가 되지 않네요

0

111

2

🚨 python3.14 를 쓰고 계시면 chroma 에서 ConfigError 가 발생합니다.

1

200

1

강의와 책 관련 질문

0

87

1

문서 전처리 고민

0

111

1

RAG 배포 질문드립니다

0

95

1

폐쇄망 챗봇 모델

0

94

1

AI agent 쿠폰

0

95

2

저는 왜 그대로 했는데 답변이 틀리게 나오는지 모르겠네요

0

102

2

langchain howto/sequence는 지금 doc 공식 사이트 어디서 확인할 수 있나요?

1

95

1

new_question에 대한 답 출력

0

75

2

랭체인 라이브러리

0

148

2

[LangGraph를 활용한 AI Agent 개발] 쿠폰 유효기간

0

107

1

postgresql의 pgvector 벡터는 어떤가요?

0

345

2

doc관련

0

128

2

load_dotenv() 실행 False

0

96

1

RAG 답변 개선을 위한 정답지 활용 구조 검토 요청

0

119

2

3.2 from langchain.chains ~ 에서 모듈을 찾지 못할 때.

1

406

2

강의 완료 오류

0

89

1

hub.pull 이슈

0

131

2

[3.3 강의] Upstage를 사용한 RAG 구현 성공기 공유

1

150

1

RAG 문서 관리 방법

0

107

2