Post

클로드 코드 토큰 녹는 문제, 영상 한 편으로 정리한 6가지 절약법

#claude-code #opus #sonnet #token #context-engineering #productivity

클로드 코드 토큰 녹는 문제, 영상 한 편으로 정리한 6가지 절약법

이번 영상은 “왜 토큰이 빨리 닳는지”를 구조적으로 설명하고, 바로 적용 가능한 절약 설정 6가지를 제시합니다. 핵심은 단순히 모델을 바꾸는 게 아니라, 컨텍스트를 관리하는 습관까지 포함해 전체 워크플로우를 바꾸는 것입니다.

영상 핵심 한 줄 요약

토큰 소진의 본질은 모델 선택 + 컨텍스트 누적 + 프롬프트 습관의 합이고, 이 3가지를 관리하면 같은 플랜에서도 체감 사용량과 품질이 크게 달라집니다.

타임라인 상세 기록

00:00-00:28 문제 제기

  • 사용자들이 가장 많이 겪는 문제를 소개합니다.
  • “프로 플랜인데 토큰이 너무 빨리 녹는다”, “모델 전환을 놓쳐서 Opus로 계속 작업한다”는 패턴이 반복된다는 내용입니다.

00:28-01:26 토큰이 빨리 소진되는 이유

  • Pro 플랜에서 Opus를 기본 모델로 두고 계속 작업하면 소모가 급격히 커집니다.
  • 영상에서는 Opus가 Sonnet 대비 대략 4-5배 더 무겁다고 설명합니다.
  • 작업이 끝난 뒤 컨텍스트를 정리하지 않고 다음 작업으로 넘어가면, 이전 로그/에러/응답까지 계속 재읽기되어 비용이 누적됩니다.

01:26-02:40 카카오톡 비유로 이해하는 컨텍스트 비용

  • 사람은 새 메시지 중심으로 읽지만, AI는 요청 시 대화 전체를 다시 읽습니다.
  • 대화가 길어질수록 “같은 질문 1개”의 비용이 계속 증가합니다.
  • 즉, 토큰 비용은 “현재 질문 길이”보다 “대화방 총량”에 더 크게 영향받습니다.

02:40-04:45 알아야 할 용어 5가지

  • 토큰(Token): 모델이 처리하는 최소 단위.
  • 컨텍스트 윈도우(Context Window): 한 번에 처리 가능한 총 토큰 공간.
  • 컨텍스트 엔지니어링(Context Engineering): 필요한 정보만 남기고 불필요한 정보를 걷어내는 운영 기술.
  • 컨텍스트 로트(Context Rot): 오래된 맥락/잡정보가 쌓여 품질과 비용을 동시에 망치는 상태.
  • 할루시네이션(Hallucination): 잡음이 많거나 컨텍스트가 포화될 때 잘못된 답변이 증가하는 현상.

04:45-06:28 플랜별 사용량 차이와 전략

영상에서 제시한 기준:

  • Pro: Sonnet 위주, Opus는 제한적으로만 사용
  • Max 100: Opus를 중간 수준으로 활용 가능
  • Max 200: Opus 활용 여유가 더 큼

결론은 단순합니다. 같은 Opus라도 플랜별로 전략이 달라야 하며, Pro는 특히 “기본 Sonnet + 필요 시 Opus 전환”이 기본값이어야 합니다.

06:28-08:30 모델 고정과 전환 방식

  • /model로 현재 모델 확인
  • 기본 모델을 설정 파일에서 Sonnet으로 고정
  • 세션 중 필요할 때만 Opus로 전환
  • 영상에서 소개된 opusplan 방식은 “계획은 Opus, 실행은 Sonnet”으로 자동 전환해 실수 비용을 줄이는 접근입니다.

08:30-10:44 실전 팁 1~3

  1. /clear로 작업 단위 종료 시 컨텍스트 초기화
  2. /compact로 긴 대화를 압축해 이어가기
  3. 확장 사고(Extended Thinking) 사용량 점검

특히 Extended Thinking은 눈에 안 보이는 토큰 사용량이 커지기 쉬우므로, 단순 수정 작업에는 과도한 사고 예산을 줄이는 게 효과적이라고 설명합니다.

11:18-12:58 실전 팁 4~6

  1. 프롬프트를 구체적으로 작성
    • 나쁜 예: “이 코드 개선해줘”
    • 좋은 예: “이 파일의 로그인 함수 입력 검증만 추가해줘”
  2. MCP Tool Search 옵션 점검
    • 여러 MCP 서버를 쓰는 경우, 자동 탐색으로 인한 컨텍스트 팽창을 관리
  3. CLAUDE.md / SKILL.md 분리 관리
    • 자주 쓰는 핵심 규칙은 CLAUDE.md
    • 상세/상황별 지식은 SKILL.md로 분리
    • 영상에서는 CLAUDE.md를 약 500줄 이하로 유지하는 방향을 권장합니다.

12:58-15:26 마무리 메시지

  • 컨텍스트 관리에는 정답 1개가 없고, 팀/플랜/작업 스타일에 맞는 최적점을 찾아야 한다고 강조합니다.
  • “무조건 한 도구를 고집”하기보다, 원하는 결과물을 안정적으로 만드는 흐름이 더 중요하다는 결론입니다.

영상에서 바로 가져갈 체크리스트

  • 기본 모델이 Opus로 고정되어 있지 않은지 확인
  • 작업 단위 종료 시 /clear 습관화
  • 대화 유지가 필요하면 /compact로 압축
  • 프롬프트를 파일/함수/요구사항 단위로 구체화
  • Extended Thinking 예산 과다 사용 여부 점검
  • CLAUDE.md는 핵심 규칙만, 세부 지식은 SKILL.md 분리

개인적으로 중요한 포인트

토큰 절약은 “비용 절감”만의 문제가 아니라, 품질 안정화 문제이기도 합니다. 컨텍스트가 과하게 길어지면 모델이 헷갈리고, 수정-재수정 루프가 늘어나 오히려 토큰을 더 많이 쓰게 됩니다.
결국 좋은 세팅은 “덜 쓰는 세팅”이 아니라 “덜 헤매는 세팅”입니다.

참고

댓글