AI Agent 그래서 뭐 써야 되냐 - 인프런 | 클립

AI Agent 그래서 뭐 써야 되냐

2025. 10. 21. 23:59

수정됨

AI 코딩 도구 전쟁에서 승자는 바로 클로드 4.5 소넷이었으며, 실제 코딩 과제를 수행할 때 다른 경쟁자들보다 훨씬 뛰어난 문제 해결 능력과 안정성을 보여주었습니다. 이 노트는 타입 러시 게임 개발과 오픈소스 이슈 해결이라는 두 가지 미션을 통해 코덱스, 클로드, 제미나이 세 모델의 실력을 비교한 내용을 누구나 이해하기 쉽게 풀어드립니다.

1. AI 도구, 너무 많아서 뭐가 제일 좋을까?

요즘 AI 코딩 도구들이 홍수처럼 쏟아져 나와 어떤 것을 써야 할지 헷갈리는 것이 현실입니다.
하지만 모델들마다 가진 핵심 기능들은 이제 서로 베껴가면서 거기서 거기라, 기능 자체만으로는 우열을 가리기 힘들어졌습니다.
그래서 이번 비교는 단순히 기능 목록이 아니라, 실제 어려운 개발 미션을 얼마나 잘 수행하는지로 승부를 가려봤습니다.
최종적으로, 객관적인 문제 해결 성적과 실제 작업 경험을 통해 최고의 도구를 찾으려고 합니다.

2. 대결을 위한 두 가지 빡센 미션

두 가지 실제 코딩 과제를 통해 AI 에이전트들의 실력을 시험했습니다.
첫 번째 미션은 '타입 러시(Type Rush)'라는 타이핑 게임을 무(無)에서 유(有)를 창조하듯이 처음부터 개발하는 것이었습니다.
두 번째 미션은 오픈 소스 프로젝트에서 실제 버그 이슈를 찾아서 고치는 'PR(Pull Request)'을 직접 작성해보는 고난도 작업이었습니다.
이 두 가지 테스트를 통해 실질적인 개발 능력을 비교하고, 각 과정에서 사용된 비용까지 확인했습니다.

3. 미션 1: 게임 개발에서 보인 각자의 스타일 (타입 러시)

세 모델(코덱스, 클로드, 제미나이)에게 똑같은 게임 기획안(PRD)을 주고 동시에 개발을 시작시켰습니다.
코덱스는 가장 비효율적인 방식인 파일을 하나하나 직접 쓰는 방식을 택해서 초기부터 속도가 더뎠습니다.
- 이는 마치 요리사가 레시피 없이 재료를 통째로 썰어 넣는 것과 같아, 불필요한 텍스트를 많이 생성했습니다.
반면, 클로드와 제미나이는 'Create Next App' 같은 자동 명령어를 사용해 프로젝트 뼈대를 튼튼하게 빠르게 잡았습니다.
코덱스는 작업 속도가 느려 의존성 설치나 서버 실행 단계에서 헤매는 모습이 눈에 띄었습니다.
제미나이는 중간에 타입 정의 실수를 인정하고 전면 삭제하는 등 큰 시간 낭비를 보여주기도 했습니다.

4. 미션 1 결과: 클로드의 압승과 충격적인 결과

결과적으로 클로드가 가장 먼저 개발을 완료하고 서버 실행까지 성공적으로 마쳤습니다.
코덱스가 그 뒤를 이었지만, 서버 컴파일 실패 등의 문제를 겪으며 버벅거렸습니다.
제미나이는 진행 상황조차 파악하기 힘들 정도로 심각하게 헤매는 상태로 초반 게임 개발을 마쳤습니다.
클로드가 만든 게임은 UI와 리더보드 기능이 정상 작동하여 요구사항을 충족했지만, 코덱스와 제미나이는 결과물이 형편없거나 아예 실행조차 제대로 못 했습니다.
이처럼 결과물의 품질 차이가 너무 커서 사용된 토큰 비용 비교는 무의미해졌습니다.

5. 미션 2: 실제 코드 수정 능력 시험 (오픈소스 이슈 해결)

두 번째 시험은 '브레들리(Bredli)'라는 오픈 소스 프로젝트의 실제 이슈를 해결하는 PR을 만드는 것이었습니다.
이 과제에서는 이슈를 파악하고, 해결 코드를 작성하며, 가장 중요한 '테스트 코드'를 추가하는 능력이 중요했습니다.
클로드는 가장 먼저 코드를 완성하고 테스트 코드까지 작성하여 검증 과정을 거쳤습니다.
반면, 코덱스와 제미나이는 해결책을 제시했지만, 테스트 코드를 전혀 작성하지 않았습니다.
- 이는 실제 개발에서 '이 코드가 정말 고쳐졌는지'를 검증하지 않는 것과 같아 매우 위험합니다.

6. 검증과 수정 능력의 결정적인 차이

코덱스는 필요 없는 부분까지 수정했으며, 테스트 없이 덜컥 푸시(push)를 해버리는 모습을 보였습니다.
클로드는 로컬 테스트 중 타임아웃이 발생하자, 이를 스스로 인지하고 플리퀘스트에 상세한 설명을 남겼습니다.
제미나이는 다시 요청해야 할 정도로 불안정했고, 겨우 만든 PR도 테스트 코드가 부족했습니다.
이 비교를 통해 클로드는 단순히 코드를 짜는 것을 넘어, 코드의 동작을 검증하고 상세하게 기록하는 능력이 뛰어남을 확인했습니다.

7. 최종 결론: 누가 최고의 코딩 비서인가?

두 가지 미션 결과를 종합해보면, 클로드의 개발 경험이 압도적으로 우수했습니다.
코덱스와 제미나이는 제가 풀고자 하는 문제를 제대로 파악하는 속도가 현저히 느렸습니다.
특히, 결과가 올바르게 작동하는지 스스로 검증하는 능력에서 클로드가 다른 모델들을 크게 앞섰습니다.
비용은 제미나이가 가장 저렴했지만, 엉망인 결과물을 얻는 데 돈을 쓰는 것은 의미가 없습니다.