Contador de Tokens: la guía completa (2026)
Los tokens son la unidad que lee un modelo de lenguaje, la unidad que pagas y la unidad que llena la ventana de contexto. Esto es qué es realmente un token, por qué la cuenta importa en cada llamada a la API y cómo contar los tokens de GPT y Claude de forma exacta sin enviar tu prompt a ningún lado.
- Qué es realmente un token
- Por qué la cuenta de tokens es la cifra que importa
- Cómo funciona la tokenización por dentro
- Exacto para OpenAI, aproximado para Claude y Gemini
- Contar tokens antes de una llamada a la API
- Caber en la ventana de contexto
- Tokens, palabras y caracteres
- Por qué importa un contador local en el navegador
- Tres formas de contar tokens
- Errores comunes
Qué es realmente un token
Un token es un fragmento de texto, normalmente más corto que una palabra. Cuando un modelo de lenguaje lee tu prompt, no ve letras ni palabras: ve una secuencia de tokens, cada uno asociado a un número con el que se entrenó el modelo. La conversión ocurre mediante la codificación por pares de bytes (BPE), un algoritmo que parte de bytes en bruto y une una y otra vez los pares adyacentes más frecuentes en tokens únicos. Las palabras comunes en inglés terminan como un solo token; las más raras o largas se parten en dos o tres. La puntuación, los saltos de línea y el espacio que va delante de cada palabra también son tokens.
La regla práctica para el inglés es de unos cuatro caracteres por token, o aproximadamente tres cuartos de una palabra. Así que 1.000 tokens son alrededor de 750 palabras, y 100 tokens son un párrafo corto. Esa proporción es solo un promedio. La cuenta real depende de los caracteres exactos y del modelo concreto, y por eso un contador que ejecuta la codificación real le gana a cualquier regla práctica cuando la cifra tiene que ser precisa.
Por qué la cuenta de tokens es la cifra que importa
La cuenta de palabras te dice cuánto se lee un texto. La cuenta de tokens te dice tres cosas que deciden si tu llamada al modelo funciona y cuánto cuesta.
Costo. Las API de los modelos cobran por token, con un precio por millón de tokens, y cobran la entrada y la salida por separado. La cuenta de tokens de tu prompt es, literalmente, la factura de entrada. Multiplícala por tu volumen de llamadas y tienes tu gasto.
Ventana de contexto. Cada modelo admite un máximo de tokens a la vez, lo que se llama ventana de contexto. GPT-4o ofrece 128.000 tokens; algunos modelos llegan más alto. Un prompt junto con su respuesta esperada tiene que caber dentro de esa ventana, o la llamada se rechaza, o la entrada se recorta sin avisar y el modelo responde a partir de un prompt leído a medias.
Latencia. Más tokens tardan más en procesarse, tanto al leer tu entrada como al generar la salida. Cuando el tiempo de respuesta importa, el presupuesto de tokens también es un presupuesto de velocidad.
Cuenta los tokens de cualquier prompt o documento, con estimación de costo en vivo, en tu navegador.
Abrir el Contador de Tokens →Cómo funciona la tokenización por dentro
La codificación por pares de bytes arma un vocabulario al recorrer un corpus enorme y unir una y otra vez los pares de símbolos más comunes. El resultado es un conjunto fijo de tokens, desde bytes sueltos hasta palabras comunes enteras, más las reglas de unión para convertir cualquier texto nuevo a ese vocabulario. OpenAI lo distribuye como una biblioteca llamada tiktoken, y al vocabulario concreto se le llama codificación. GPT-4o, GPT-4.1 y la serie o usan una codificación llamada o200k. GPT-4 Turbo y GPT-3.5 usan una más antigua, cl100k. Mismo texto, codificación distinta, cuenta de tokens un poco distinta.
Por eso el código se tokeniza distinto a la prosa. La sangría, los corchetes, los operadores y los identificadores en camelCase se fragmentan en muchos tokens pequeños, así que un bloque de código suele ser más denso en tokens que un bloque de inglés del mismo largo. Los alfabetos no latinos se comportan distinto otra vez. La única forma de saberlo con certeza es ejecutar la codificación.
Exacto para OpenAI, aproximado para Claude y Gemini
OpenAI publica su tokenizador, así que las cuentas de tokens para los modelos de OpenAI pueden ser exactas. Una biblioteca de navegador llamada gpt-tokenizer ejecuta la codificación tiktoken real del lado del cliente, y eso es lo que da la cifra exacta en el Contador de Tokens de TextKit. Lo que la herramienta muestra para un modelo de OpenAI es el número que cobra OpenAI, token a token.
Claude y Gemini usan sus propios tokenizadores, que no se publican como bibliotecas para el navegador. Para esos modelos, lo honesto es dar una aproximación cercana en lugar de un número con falsa precisión. El tokenizador de Anthropic queda cerca de cl100k para el inglés típico, así que una estimación basada en cl100k suele caer dentro de un margen pequeño. Toma las cifras de Claude y Gemini como estimaciones de planificación, no como datos de facturación, y confírmalas contra el reporte de uso del propio proveedor cuando algo tenga que ser exacto.
Contar tokens antes de una llamada a la API
La llamada a la API más barata es la que dimensionaste bien antes de enviarla. Pega un prompt representativo en un contador de tokens, elige el modelo y lee la cuenta y el costo estimado. Si en cada petición envías un prompt de sistema más unos ejemplos más la entrada del usuario, cuenta la parte fija una sola vez. Ese costo fijo se paga en cada llamada, así que recortarlo tiene un efecto multiplicador a lo largo de miles de peticiones.
Sobre el costo, recuerda que la estimación cubre solo la entrada. Un viaje de ida y vuelta real también paga la respuesta del modelo a una tarifa de salida aparte. Para presupuestar la llamada completa, suma los tokens de salida que esperas al precio de salida. Una respuesta de chat puede ser unos cientos de tokens; un documento largo generado, unos cuantos miles.
Caber en la ventana de contexto
Los documentos largos son donde el conteo de tokens demuestra su valor. Antes de pasarle un contrato, una transcripción o una base de código a un modelo, cuéntalo. Si cabe en la ventana con espacio de sobra para la respuesta, envíalo. Si no cabe, tienes que dividirlo en fragmentos. Contar los tokens te deja dimensionar cada fragmento para que entre con solapamiento, lo que importa en los flujos de recuperación y en las cadenas de resumen, donde un fragmento que se desborda es un fragmento que se recorta.
La misma lógica aplica al historial de la conversación. Un chat que sigue agregando turnos termina por llenar la ventana. Conocer el total de tokens acumulado te dice cuándo resumir los turnos anteriores o descartarlos.
Tokens, palabras y caracteres
Las tres cuentas responden preguntas distintas y rara vez coinciden. Un contador de palabras te dice cuánto se lee un texto para una persona. Un contador de caracteres te dice si una publicación cabe en el límite de una plataforma, como los 280 de Twitter. Un contador de tokens te dice qué ve y qué cobra un modelo. El texto con mucha puntuación, el JSON y el código fuente empujan hacia arriba la proporción de tokens por palabra, porque los símbolos y la estructura se fragmentan en tokens de más. Si trabajas con el formateador de JSON y le pasas datos estructurados a un modelo, espera que la cuenta de tokens salga más alta de lo que sugeriría la cuenta de palabras.
Por qué importa un contador de tokens local en el navegador
Los prompts suelen ser el texto más sensible que maneja un equipo. Llevan instrucciones propias, registros de clientes, textos sin publicar y contexto interno. La mayoría de los contadores de tokens en línea envían ese texto a un servidor para contarlo, lo que significa que el prompt que estás midiendo sale de tu máquina. Un contador local corre la codificación en la propia página, así que el texto nunca viaja. Puedes comprobarlo abriendo la pestaña de red del navegador y viendo cómo se queda en silencio mientras escribes. Para quien cuenta tokens sobre prompts confidenciales, esa es la diferencia entre una comprobación segura y una fuga de datos silenciosa.
Tres formas de contar tokens
En el navegador. La vía más rápida para una comprobación puntual o una estimación de costo. El Contador de Tokens de TextKit carga la codificación tiktoken real de forma local y cuenta mientras escribes, sin subir nada. Lo mejor cuando estás redactando un prompt o dimensionando un documento.
En código. Para producción, llama a tiktoken en Python o a gpt-tokenizer en JavaScript para que tu aplicación cuente los tokens igual que los cobra la API. Así es como impones un presupuesto o validas una petición antes de enviarla.
En el playground del proveedor. La propia página de tokenizador de OpenAI muestra el desglose de fragmentos cortos. Útil para ver cómo se parte una frase concreta en tokens, menos útil para documentos largos o cálculos de costo.
Errores comunes
Contar caracteres y suponer los tokens. La regla de cuatro caracteres por token es un promedio, no una garantía. El código y el texto en otros idiomas la rompen. Cuando la cifra importa, ejecuta la codificación.
Olvidar la factura de salida. Los tokens de entrada son solo la mitad de la llamada. Una respuesta extensa puede costar más que el prompt. Presupuesta ambas.
Ignorar el prompt de sistema. Las instrucciones fijas que se envían en cada llamada se pagan cada vez. Son los tokens más fáciles de olvidar y los más caros de dejar inflados.
Usar la cuenta de un modelo para otro. o200k y cl100k dan cuentas distintas para el mismo texto. Cuenta contra el modelo al que de verdad vas a llamar.
Preguntas frecuentes
¿Cuántas palabras son 1.000 tokens?
Unas 750 palabras de inglés típico, ya que un token promedia más o menos cuatro caracteres o tres cuartos de una palabra. La proporción cambia con el código y el texto en otros idiomas, que se tokenizan más denso, así que toma 750 como guía y ejecuta la codificación real cuando la cifra deba ser exacta.
¿La cuenta de tokens es igual en todos los modelos?
No. GPT-4o, GPT-4.1 y la serie o usan la codificación o200k, mientras que GPT-4 Turbo y GPT-3.5 usan cl100k. El mismo texto da una cuenta de tokens un poco distinta en cada uno. Cuenta siempre contra el modelo al que piensas llamar.
¿Puedo contar los tokens de Claude y Gemini de forma exacta?
En el navegador no. Anthropic y Google no publican sus tokenizadores como bibliotecas del lado del cliente, así que una herramienta de navegador solo puede estimar, normalmente tomando prestada la codificación cl100k, que queda cerca para el inglés. Para cuentas exactas de Claude o Gemini, usa el reporte de uso del propio proveedor.
¿Por qué mi código usa más tokens que mi prosa?
El código se fragmenta en muchos tokens pequeños. La sangría, los corchetes, los operadores y los identificadores partidos cuestan tokens cada uno, así que un bloque de código suele ser más denso que un bloque de inglés del mismo largo. El JSON y otros datos estructurados se comportan igual.
¿Contar tokens envía mi texto a algún lado?
No con un contador local en el navegador. El Contador de Tokens de TextKit ejecuta la codificación tiktoken en tu navegador desde un archivo estático, así que tu prompt nunca se sube, ni se registra ni se guarda. Puedes comprobarlo en la pestaña de red de tu navegador.
¿Cómo estimo el costo de una llamada a la API?
Multiplica los tokens de entrada por el precio de entrada del modelo por millón de tokens, y luego suma los tokens de salida que esperas al precio de salida. El Contador de Tokens estima la parte de entrada con una tarifa editable; suma tu estimación de salida para el costo del viaje de ida y vuelta completo.
Sigue leyendo
Escrito por SAVI. Construimos las herramientas sobre las que escribimos. Prueba el Contador de Tokens que se usa en este artículo.