LLM 모델의 Tool calling 성능비교 결과 문의

Question

선생님 안녕하세요, LLM 모델의 Tool calling 성능비교를 해봤는데요. # 도구 호출이 필요한 LLM 호출을 수행 query = "스테이크와 어울리는 와인을 추천해주세요." ai_msg = llm_with_tools.invoke(query) 아래 2개 LLM 모델로 성능비교를 해봤습니다. 그런데 (2) 모델의 경우 Content 와 tool_calls 모두 나오는데요. 그러면 (1), (2) 모델 중에 무엇이 더 좋은 성능인가요? 그리고 Content 와 tool_calls 동시에 나오는 경우는 왜 그런건가요? (1) gpt-4o-2024-05-13 ---------------------------------------------------------------------------------------------------- '' ---------------------------------------------------------------------------------------------------- [{'args': {'query': 'best wine to pair with steak'}, 'id': 'call_p7PJFCZUWXEwyCmK4nzLjx9g', 'name': 'search_web', 'type': 'tool_call'}] ---------------------------------------------------------------------------------------------------- (2) claude-3-7-sonnet-20250219 ---------------------------------------------------------------------------------------------------- [{'text': '스테이크와 어울리는 와인에 대한 정보를 찾아보겠습니다.', 'type': 'text'}, {'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf', 'input': {'query': '스테이크와 어울리는 와인 추천'}, 'name': 'search_web', 'type': 'tool_use'}] ---------------------------------------------------------------------------------------------------- [{'args': {'query': '스테이크와 어울리는 와인 추천'}, 'id': 'toolu_01Uc2BwXXyW26n7L78zZ6wGf', 'name': 'search_web', 'type': 'tool_call'}] ----------------------------------------------------------------------------------------------------

판다스 스튜디오 · Answer

안녕하세요. 판다스 스튜디오입니다.
(1) gpt-4o-2024-05-13와 (2) claude-3-7-sonnet-20250219 모두 도구 호출 기능을 지원합니다.
실행 결과만 보면 성능에 큰 차이는 없어 보입니다.

전자는 OpenAI, 후자는 Anthropic에서 제공하고 있고 공급자에 따라 구현에 조금 차이가 있습니다.
두 모델 모두 비슷한 성능으로 알려져 있으나, 프롬프트와 상황에 따라 실제 성능에는 차이가 있을 수 밖에 없습니다. 모델 성능에 대한 평가 과정이 반드시 필요한 이유입니다.