inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

AI 에이전트로 구현하는 RAG 시스템(w. LangGraph)

LLM 모델의 Tool Calling 성능 비교 (OpenAI, Gemini, Llama 70B)

LLM 모델의 Tool calling 성능비교 결과 문의

260

SPAGGY

작성한 질문수 7

0

선생님 안녕하세요, LLM 모델의 Tool calling 성능비교를 해봤는데요.

# 도구 호출이 필요한 LLM 호출을 수행
query = "스테이크와 어울리는 와인을 추천해주세요."
ai_msg = llm_with_tools.invoke(query)

아래 2개 LLM 모델로 성능비교를 해봤습니다. 그런데 (2) 모델의 경우 Content 와 tool_calls 모두 나오는데요. 그러면 (1), (2) 모델 중에 무엇이 더 좋은 성능인가요? 그리고 Content 와 tool_calls 동시에 나오는 경우는 왜 그런건가요?

(1) gpt-4o-2024-05-13

----------------------------------------------------------------------------------------------------

''

----------------------------------------------------------------------------------------------------

[{'args': {'query': 'best wine to pair with steak'},

'id': 'call_p7PJFCZUWXEwyCmK4nzLjx9g',

'name': 'search_web',

'type': 'tool_call'}]

----------------------------------------------------------------------------------------------------

(2) claude-3-7-sonnet-20250219

----------------------------------------------------------------------------------------------------

[{'text': '스테이크와 어울리는 와인에 대한 정보를 찾아보겠습니다.', 'type': 'text'},

{'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',

'input': {'query': '스테이크와 어울리는 와인 추천'},

'name': 'search_web',

'type': 'tool_use'}]

----------------------------------------------------------------------------------------------------

[{'args': {'query': '스테이크와 어울리는 와인 추천'},

'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf',

'name': 'search_web',

'type': 'tool_call'}]

----------------------------------------------------------------------------------------------------

llm langchain rag ai-agent langgraph sonnet tool-calling 성능비교

답변 1

0

판다스 스튜디오

안녕하세요. 판다스 스튜디오입니다.
(1) gpt-4o-2024-05-13와 (2) claude-3-7-sonnet-20250219 모두 도구 호출 기능을 지원합니다.
실행 결과만 보면 성능에 큰 차이는 없어 보입니다.

전자는 OpenAI, 후자는 Anthropic에서 제공하고 있고 공급자에 따라 구현에 조금 차이가 있습니다.
두 모델 모두 비슷한 성능으로 알려져 있으나, 프롬프트와 상황에 따라 실제 성능에는 차이가 있을 수 밖에 없습니다. 모델 성능에 대한 평가 과정이 반드시 필요한 이유입니다.

섹션2-11 내용중 tool_call

0

14

1

gradio 를 통한 챗봇 인터페이스 실습이 진행되지 않습니다.

0

39

1

모델의 성능에 따라서 선택하는 도구가 많이 차이 나나요?

0

140

2

Fan-in 시 여러개 노드에서 하나로 병합되는 과정에서 질문 입니다.

0

77

3

로드맵

0

109

2

강의 46에서 노드의 병렬 수행시 Thread-Safety 문제는 없을까요?

0

104

2

similarity_search 후 왜 다시 LLM을 통해 grade를 측정 하나요?

0

104

2

agent_executor 실행시 JSONDecodeError에러가 발생해요.

0

143

4

툴의 숫자가 많을때 동작

0

120

2

안녕하세요 후속강의 듣고 싶은데, 비용이 부담되어서..

0

137

2

[실습을 위한 환경 설정 방법] 자료가 없습니다.

0

174

3

최근 안내해주신 수강생 이벤트 관련 문의입니다.

0

108

1

AI 에이전트로 구현하는 RAG 시스템 수강생입니다.

0

153

1

수업 자료 문의

0

174

3

docker 환경에서 해당 서비스를 구성해보는 건 어떤가요?

0

173

2

numpy 설치 에러

0

485

1

The onnxruntime python package is not installed.

0

222

1

섹션 5, 사용자 정의 조건부 엣지 관련 질문입니다.

0

129

1

강사님의 LLM 모델의 버전이 어떻게 되나요?

0

223

1

Agent RAG 구현에서 '정보 추출 및 평가' 노드 결과 애러

0

126

2

메시지 그래프/피드백 루프 활용하기에서 질문

0

108

1

에이전틱 루프에서의 병렬 노드 구현 문의

0

138

2

[공유] llama3-groq 모델명 수정 필요

0

195

1

수업자료 문의

1

209

2