클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법

2026. 4. 9. 20:16Claude Code agent

Claude Code에서 토큰이 빨리 늘어나는 가장 흔한 이유는 긴 컨텍스트다

클로드 코드에서 토큰을 아끼는 첫 번째 방법은 “더 짧게 말하기”가 아니라 “불필요한 문맥을 오래 끌고 가지 않기”다. 공식 문서도 비용은 코드베이스 크기, 질의 복잡도, 대화 길이에 따라 달라지며, 특히 컨텍스트가 커질수록 메시지당 토큰 비용이 커진다고 설명한다. 그래서 전혀 다른 작업으로 넘어갈 때는 같은 세션을 질질 끌기보다 /clear로 문맥을 비우고, 나중에 다시 돌아올 일은 /rename과 /resume으로 관리하는 편이 낫다. 자동 요약과 프롬프트 캐싱이 어느 정도 비용을 줄여주긴 하지만, 결국 가장 큰 절약은 “지금 작업과 상관없는 과거 대화를 계속 먹이지 않는 것”에서 나온다. 스크립트성 실행이라면 --bare를 써서 hooks, skills, plugins, MCP servers, auto memory, CLAUDE.md 자동 탐색까지 건너뛰고 최소 모드로 시작하는 것도 좋은 절약 습관이다. 글자 수를 줄이는 것보다, 세션이 점점 무거워지는 구조를 끊어내는 것이 훨씬 효과적이다.

 

 

 

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법1

 

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법2

 

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법3

 

 

Claude Code 비용을 줄이려면 모델 선택과 thinking 깊이부터 조절해야 한다

두 번째로 중요한 것은 “무조건 좋은 모델”보다 “작업에 맞는 모델”을 쓰는 것이다. 공식 문서에서 Anthropic은 대부분의 코딩 작업은 Sonnet이 잘 처리하면서도 Opus보다 비용이 덜 든다고 안내하고, 더 복잡한 설계 판단이나 다단계 추론이 필요할 때만 Opus를 쓰라고 권한다. 여기에 extended thinking은 기본적으로 켜져 있고, thinking 토큰은 출력 토큰으로 과금되며 기본 예산이 요청당 수만 토큰까지 갈 수 있다고 설명한다. 그래서 간단한 수정, 짧은 리팩터링, 로그 확인 같은 일에는 /effort를 낮추거나, /config에서 thinking을 줄이거나, 필요하면 MAX_THINKING_TOKENS=8000처럼 상한을 두는 것이 현실적인 절약법이다. 많은 사람이 “클로드 코드가 비싸다”고 느끼는 이유는 한 번의 요청이 어려워서가 아니라, 쉬운 작업에도 지나치게 깊은 추론과 고급 모델을 습관처럼 쓰기 때문이다. 결국 토큰 절약은 기능을 포기하는 일이 아니라, 작업 난이도와 모델·사고 깊이를 맞추는 일에 가깝다.

 

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법4

 

 

 

CLAUDE.md를 무겁게 쓰는 습관보다 skills와 hooks가 더 싸게 먹힌다

세 번째는 많은 사용자가 놓치는 부분인데, 토큰은 대화에서만 새는 것이 아니라 “항상 불러오는 지침”에서도 계속 샌다. 공식 문서에 따르면 CLAUDE.md는 세션 시작 시 컨텍스트에 로드되므로, 여기에 특정 워크플로 전용 규칙이나 긴 운영 문서를 다 밀어 넣으면 그 작업과 무관한 순간에도 계속 토큰을 먹게 된다. 그래서 Anthropic은 CLAUDE.md를 필수적인 공통 규칙 중심으로 짧게 유지하고, 구체적인 작업 지침은 on-demand로 불러오는 skills로 옮기라고 권한다. 문서에서는 CLAUDE.md를 200줄 이하로 유지하는 것을 목표로 제시한다. 같은 맥락에서 hooks는 장문의 로그나 테스트 결과를 그대로 읽히는 대신, 사전에 실패 부분만 걸러서 전달하는 방식으로 컨텍스트를 확 줄여준다. 또 MCP 서버를 많이 붙여두면 관리가 편해 보여도, 문서에서는 사용하지 않는 서버는 /mcp에서 끄고, 가능한 경우 gh, aws, gcloud 같은 CLI 도구를 직접 쓰는 편이 더 컨텍스트 효율적이라고 설명한다. 즉 절약의 핵심은 “읽을 것을 덜 주는 것”이지, 늘어난 토큰을 나중에 후회하는 것이 아니다.

캡처 포인트: .claude/CLAUDE.md 파일이 길게 열려 있는 화면, /mcp 목록 화면, 또는 hook 설정이 들어간 settings.json 일부를 캡처하면 글 신뢰도가 확 올라간다. 특히 “길어진 CLAUDE.md”와 “간단한 skill/hook 설정”을 대비시키면 좋다.

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
장황한 CLAUD.md

 

 

 

자동화 에이전트는 똑똑하게 돌려야지 오래 돌리면 토큰이 폭주한다

마지막으로, 에이전트 자동화에서 토큰을 아끼고 싶다면 “알아서 하게 두는 것”보다 “어디서 멈출지 미리 정해두는 것”이 중요하다. CLI 문서에는 print mode에서 --max-turns로 에이전트성 턴 수를 제한할 수 있고, --max-budget-usd로 API 비용 상한도 걸 수 있다고 나온다. Agent SDK 문서도 max turns와 max budget으로 루프를 제어할 수 있다고 설명한다. GitHub Actions 문서에서도 비용 최적화를 위해 너무 포괄적인 @claude 호출 대신 더 구체적인 명령을 쓰고, claude_args에서 적절한 --max-turns를 걸고, workflow timeout과 concurrency control로 runaway job과 병렬 폭주를 막으라고 권한다. 이런 장치가 없는 자동화는 처음엔 편해 보여도, 한 번 길을 잘못 들면 같은 저장소를 여러 번 훑고, 불필요한 재시도와 장문 출력을 반복하면서 토큰을 순식간에 태운다. 결국 “클로드 코드 비용 관리”의 본질은 덜 시키는 것이 아니라, 어디까지 시킬지 선을 분명히 그어 두는 것이다. 프롬프트도 “이 저장소 개선해줘”보다 “auth.ts의 로그인 검증만 수정해줘”처럼 좁을수록 파일 탐색이 줄고 토큰 낭비도 줄어든다.

클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법
클로드 코드로 에이전트 실행할 때 토큰 아끼는 방법

 

클로드 코드에서 토큰을 아끼는 가장 현실적인 방법은 말을 줄이는 것이 아니라, 세션을 가볍게 유지하고, 작업에 맞는 모델과 thinking 수준을 고르고, CLAUDE.md를 비대하게 만들지 말고, 자동화 루프에 분명한 상한을 거는 것이다. 공식 문서가 권하는 절약법도 결국 이 네 축으로 모인다.