토큰이란 무엇인가 — AI가 글을 읽는 단위

토큰의 기본 개념과 정의

Claude Code를 사용하다 보면 "토큰(token)"이라는 단어를 자주 만나게 됩니다. 요금 안내에도, 오류 메시지에도, 모델 스펙 표에도 토큰이 등장합니다. 그런데 이 토큰이 정확히 무엇인지 설명할 수 있는 분은 많지 않습니다.

토큰은 AI가 텍스트를 처리할 때 사용하는 최소 단위입니다. 사람은 글을 읽을 때 단어나 문장 단위로 이해합니다. AI는 다릅니다. AI는 텍스트를 토큰이라는 조각으로 쪼개서 하나씩 처리합니다.

레고 블록을 떠올리면 이해가 쉽습니다. 완성된 레고 모형 하나가 문장이라면, 그 모형을 이루는 개별 블록이 토큰입니다. AI는 이 블록들을 하나씩 읽고 조합해서 의미를 파악합니다. 블록을 많이 쓸수록 더 복잡한 모형을 만들 수 있지만, 한 번에 다룰 수 있는 블록 수에는 한계가 있습니다.

영어에서는 대략 단어 하나가 토큰 하나에 해당합니다. "Hello world"는 2개의 토큰입니다. 한국어는 사정이 다릅니다. 한글은 영어보다 토큰 수가 더 많이 나오는 경향이 있습니다. "안녕하세요"라는 짧은 단어 하나도 2~3개의 토큰으로 쪼개질 수 있습니다. 이것은 AI의 학습 데이터에서 영어 비중이 높기 때문입니다.

제가 직접 같은 의미의 문장을 한국어와 영어로 각각 입력해 봤습니다. 한국어가 영어보다 토큰을 약 1.5~2배 더 소모했습니다. 한국어 사용자라면 이 차이를 미리 알아두는 것이 좋습니다. 비용과 성능 모두에 영향을 주기 때문입니다.

AI가 텍스트를 토큰으로 변환하는 과정

AI는 텍스트를 받으면 가장 먼저 토크나이저(tokenizer)라는 프로그램을 작동시킵니다. 토크나이저는 문장을 토큰 단위로 분리하는 도구입니다. 사람이 읽는 글을 AI가 이해할 수 있는 숫자 코드로 바꿔주는 번역기와 비슷합니다.

작동 방식은 이렇습니다. 토크나이저는 먼저 입력된 문장을 스캔합니다. 그다음, 자주 사용되는 단어나 글자 조합을 찾아서 하나의 토큰으로 묶습니다. 자주 등장하는 표현일수록 하나의 토큰으로 효율적으로 처리됩니다. 반면 드문 단어는 더 작은 조각으로 쪼개집니다.

예를 들어, 영어 단어 "programming"은 워낙 자주 쓰이기 때문에 통째로 하나의 토큰입니다. 하지만 "anthropomorphize"처럼 드문 단어는 "anthrop", "omorph", "ize" 같은 여러 토큰으로 나뉠 수 있습니다.

한국어도 비슷한 원리가 적용됩니다. "인공지능"처럼 자주 쓰이는 단어는 비교적 적은 토큰으로 처리됩니다. 하지만 "토크나이저"처럼 외래어이거나 전문 용어인 경우에는 글자 단위로 쪼개져서 토큰 수가 늘어납니다. 토크나이저의 종류는 AI 모델마다 다릅니다. Claude와 ChatGPT는 서로 다른 토크나이저를 사용하기 때문에, 같은 문장이라도 토큰 수가 다르게 계산됩니다.

제가 여러 문장을 넣어보면서 확인한 결과, 짧고 간결한 문장이 토큰 효율이 좋았습니다. 불필요한 수식어를 줄이면 같은 내용을 더 적은 토큰으로 전달할 수 있었습니다. 반대로, 같은 말을 반복하거나 장황하게 쓰면 토큰만 낭비되고 AI 응답 품질은 나아지지 않았습니다.

Claude Code에서 토큰 한도가 미치는 영향

Claude Code를 사용할 때 토큰이 중요한 이유는 크게 두 가지입니다.

첫째, 비용과 직결됩니다. AI 서비스는 처리한 토큰 수에 따라 요금을 부과합니다. 입력에 1,000토큰을 쓰고 AI가 500토큰으로 응답하면, 총 1,500토큰에 대한 비용이 발생합니다. 토큰을 많이 쓸수록 비용이 올라갑니다.

둘째, 컨텍스트 윈도우(context window)라는 물리적 한계가 있습니다. 컨텍스트 윈도우는 AI가 한 번의 대화에서 기억할 수 있는 토큰의 최대 양입니다. 책상 위의 작업 공간이라고 생각하면 됩니다. 책상이 아무리 넓어도, 위에 올려놓을 수 있는 서류의 양에는 한계가 있습니다. 서류가 넘치면 오래된 서류부터 밀려나거나, 아예 작업이 중단됩니다.

Claude Code에서 긴 코드를 분석하거나 여러 파일을 동시에 다룰 때, 이 토큰 한도에 도달하는 경우가 있습니다. "context window exceeded"라는 오류 메시지가 나타나면, 지금까지 대화에서 사용한 토큰 총량이 한도를 넘었다는 뜻입니다.

여기서 중요한 점이 하나 있습니다. 입력 토큰과 출력 토큰은 별도로 집계되지만, 컨텍스트 윈도우는 둘을 합산해서 계산합니다. 내가 보낸 메시지, AI의 응답, 그리고 시스템 프롬프트(prompt)까지 모두 포함됩니다. 대화가 길어질수록 누적 토큰이 빠르게 증가하는 이유입니다.

제가 실제로 큰 프로젝트에서 Claude Code를 돌려보니, 코드 파일 3~4개만 동시에 읽혀줘도 토큰이 순식간에 소모되었습니다. 필요한 파일만 골라서 전달하는 습관이 중요하다는 것을 몸소 느꼈습니다. 또한 대화 중간중간 토큰 사용량을 확인하는 것도 좋은 습관입니다.

토큰을 효율적으로 사용하는 실전 방법

토큰 개념을 이해했으니, 이제 실전에서 낭비 없이 사용하는 방법을 정리하겠습니다. 아래 네 가지만 지켜도 체감할 수 있을 만큼 차이가 납니다.

첫 번째, 질문은 짧고 명확하게 작성합니다. "이 코드에서 에러가 나는데 왜 그런지 자세하게 알려주시고 가능하면 해결 방법도 여러 가지로 제시해 주세요"보다 "이 코드의 에러 원인과 해결법을 알려주세요"가 같은 결과를 더 적은 토큰으로 얻습니다.
두 번째, 코드 전체를 붙여넣지 않습니다. 파일 전체를 복사해서 보내는 대신, 문제가 있는 함수나 블록만 발췌해서 전달합니다. Claude Code의 Read 도구를 활용하면 특정 줄 범위만 읽을 수도 있습니다.
세 번째, 대화가 길어지면 새 세션을 시작합니다. 이전 대화 내용이 계속 쌓이면 토큰이 누적됩니다. 주제가 바뀌었거나 대화가 30회 이상 오갔다면, 새 대화를 여는 것이 효율적입니다. 이전 맥락이 필요하다면 핵심만 요약해서 새 대화 첫 메시지에 넣으면 됩니다.
네 번째, CLAUDE.md 파일을 적극 활용합니다. 매번 반복해서 설명하는 프로젝트 정보가 있다면, CLAUDE.md에 정리해두면 됩니다. Claude Code가 대화 시작 시 자동으로 읽어들이기 때문에, 매번 토큰을 써가며 설명할 필요가 사라집니다.

제가 이 방법들을 한 달간 적용한 결과, 같은 작업량 대비 토큰 사용량이 눈에 띄게 줄었습니다. 특히 새 대화 시작과 CLAUDE.md 활용이 가장 효과가 컸습니다. 토큰을 아끼는 것은 비용 절감에만 의미가 있는 게 아닙니다. 컨텍스트 윈도우 안에 여유가 생기면 AI의 응답 품질 자체가 올라갑니다.

저작자표시 비영리 변경금지 (새창열림)

'Claude Code 입문자 기초 개념' 카테고리의 다른 글

Claude Code에서 한국어와 영어 성능 차이, 진짜 있을까 (0)	2026.04.12
Claude Code에서 원하는 코드를 얻는 프롬프트 작성법 (0)	2026.04.12
VS Code에서 Claude Code 쓸 때 알아야 할 핵심 용어 정리 (0)	2026.04.11
Claude Code 쓰기 전에 알아야 할 Git 기초 개념 (5)	2026.04.11
VS Code에서 Claude Code 첫 실행과 대화 시작하기 (0)	2026.04.10

OSORI_ELAB

토큰이란 무엇인가 — AI가 글을 읽는 단위

토큰의 기본 개념과 정의

AI가 텍스트를 토큰으로 변환하는 과정

Claude Code에서 토큰 한도가 미치는 영향

토큰을 효율적으로 사용하는 실전 방법

'Claude Code 입문자 기초 개념' 카테고리의 다른 글

티스토리툴바

토큰이란 무엇인가 — AI가 글을 읽는 단위

토큰의 기본 개념과 정의

AI가 텍스트를 토큰으로 변환하는 과정

Claude Code에서 토큰 한도가 미치는 영향

토큰을 효율적으로 사용하는 실전 방법

'Claude Code 입문자 기초 개념' 카테고리의 다른 글

관련글

티스토리툴바