강의

멘토링

커뮤니티

AI Agent 그래서 뭐 써야 되냐

딩코딩코

2025. 10. 21. 23:59

수정됨



AI 코딩 도구 전쟁에서 승자는 바로 클로드 4.5 소넷이었으며, 실제 코딩 과제를 수행할 때 다른 경쟁자들보다 훨씬 뛰어난 문제 해결 능력과 안정성을 보여주었습니다. 이 노트는 타입 러시 게임 개발과 오픈소스 이슈 해결이라는 두 가지 미션을 통해 코덱스, 클로드, 제미나이 세 모델의 실력을 비교한 내용을 누구나 이해하기 쉽게 풀어드립니다.


1. AI 도구, 너무 많아서 뭐가 제일 좋을까?

  • 요즘 AI 코딩 도구들이 홍수처럼 쏟아져 나와 어떤 것을 써야 할지 헷갈리는 것이 현실입니다.

  • 하지만 모델들마다 가진 핵심 기능들은 이제 서로 베껴가면서 거기서 거기라, 기능 자체만으로는 우열을 가리기 힘들어졌습니다.

  • 그래서 이번 비교는 단순히 기능 목록이 아니라, 실제 어려운 개발 미션을 얼마나 잘 수행하는지로 승부를 가려봤습니다.

  • 최종적으로, 객관적인 문제 해결 성적실제 작업 경험을 통해 최고의 도구를 찾으려고 합니다.


2. 대결을 위한 두 가지 빡센 미션

  • 두 가지 실제 코딩 과제를 통해 AI 에이전트들의 실력을 시험했습니다.

  • 첫 번째 미션은 '타입 러시(Type Rush)'라는 타이핑 게임을 무(無)에서 유(有)를 창조하듯이 처음부터 개발하는 것이었습니다.

  • 두 번째 미션은 오픈 소스 프로젝트에서 실제 버그 이슈를 찾아서 고치는 'PR(Pull Request)'을 직접 작성해보는 고난도 작업이었습니다.

  • 이 두 가지 테스트를 통해 실질적인 개발 능력을 비교하고, 각 과정에서 사용된 비용까지 확인했습니다.


3. 미션 1: 게임 개발에서 보인 각자의 스타일 (타입 러시)

  • 세 모델(코덱스, 클로드, 제미나이)에게 똑같은 게임 기획안(PRD)을 주고 동시에 개발을 시작시켰습니다.

  • 코덱스는 가장 비효율적인 방식인 파일을 하나하나 직접 쓰는 방식을 택해서 초기부터 속도가 더뎠습니다.

    • 이는 마치 요리사가 레시피 없이 재료를 통째로 썰어 넣는 것과 같아, 불필요한 텍스트를 많이 생성했습니다.

  • 반면, 클로드와 제미나이는 'Create Next App' 같은 자동 명령어를 사용해 프로젝트 뼈대를 튼튼하게 빠르게 잡았습니다.

  • 코덱스는 작업 속도가 느려 의존성 설치나 서버 실행 단계에서 헤매는 모습이 눈에 띄었습니다.

  • 제미나이는 중간에 타입 정의 실수를 인정하고 전면 삭제하는 등 큰 시간 낭비를 보여주기도 했습니다.


4. 미션 1 결과: 클로드의 압승과 충격적인 결과

  • 결과적으로 클로드가장 먼저 개발을 완료하고 서버 실행까지 성공적으로 마쳤습니다.

  • 코덱스가 그 뒤를 이었지만, 서버 컴파일 실패 등의 문제를 겪으며 버벅거렸습니다.

  • 제미나이는 진행 상황조차 파악하기 힘들 정도로 심각하게 헤매는 상태로 초반 게임 개발을 마쳤습니다.

  • 클로드가 만든 게임은 UI와 리더보드 기능이 정상 작동하여 요구사항을 충족했지만, 코덱스와 제미나이는 결과물이 형편없거나 아예 실행조차 제대로 못 했습니다.

  • 이처럼 결과물의 품질 차이가 너무 커서 사용된 토큰 비용 비교는 무의미해졌습니다.


5. 미션 2: 실제 코드 수정 능력 시험 (오픈소스 이슈 해결)

  • 두 번째 시험은 '브레들리(Bredli)'라는 오픈 소스 프로젝트의 실제 이슈를 해결하는 PR을 만드는 것이었습니다.

  • 이 과제에서는 이슈를 파악하고, 해결 코드를 작성하며, 가장 중요한 '테스트 코드'를 추가하는 능력이 중요했습니다.

  • 클로드는 가장 먼저 코드를 완성하고 테스트 코드까지 작성하여 검증 과정을 거쳤습니다.

  • 반면, 코덱스제미나이는 해결책을 제시했지만, 테스트 코드를 전혀 작성하지 않았습니다.

    • 이는 실제 개발에서 '이 코드가 정말 고쳐졌는지'를 검증하지 않는 것과 같아 매우 위험합니다.


6. 검증과 수정 능력의 결정적인 차이

  • 코덱스는 필요 없는 부분까지 수정했으며, 테스트 없이 덜컥 푸시(push)를 해버리는 모습을 보였습니다.

  • 클로드는 로컬 테스트 중 타임아웃이 발생하자, 이를 스스로 인지하고 플리퀘스트에 상세한 설명을 남겼습니다.

  • 제미나이는 다시 요청해야 할 정도로 불안정했고, 겨우 만든 PR도 테스트 코드가 부족했습니다.

  • 이 비교를 통해 클로드는 단순히 코드를 짜는 것을 넘어, 코드의 동작을 검증하고 상세하게 기록하는 능력이 뛰어남을 확인했습니다.


7. 최종 결론: 누가 최고의 코딩 비서인가?

  • 두 가지 미션 결과를 종합해보면, 클로드의 개발 경험이 압도적으로 우수했습니다.

  • 코덱스와 제미나이는 제가 풀고자 하는 문제를 제대로 파악하는 속도가 현저히 느렸습니다.

  • 특히, 결과가 올바르게 작동하는지 스스로 검증하는 능력에서 클로드가 다른 모델들을 크게 앞섰습니다.

  • 비용은 제미나이가 가장 저렴했지만, 엉망인 결과물을 얻는 데 돈을 쓰는 것은 의미가 없습니다.