Tokens por palabra: GPT-5 vs Claude vs GPT-4, medidos (2026)
Pasamos el mismo pasaje en siete idiomas, más muestras de código, JSON, Markdown, emojis y CSV, por cinco tokenizadores — conteos exactos de tiktoken para la familia GPT y de la API oficial count-tokens de Anthropic para Claude. Esto es lo que de verdad cuesta una palabra, y el dataset completo se descarga gratis.
- Por qué los tokens por palabra deciden tu factura
- El dataset y cómo se midió
- Tokens por palabra según el idioma
- Mismo significado, distinto precio
- El efecto o200k: tres generaciones de GPT
- Claude cuenta dos veces: Opus 4.8 vs Sonnet 4.6
- Código, JSON y CSV cuestan más que la prosa
- Los emojis son caros
- Cuánto cuesta un millón de palabras
- Reproduce las cifras
Por qué los tokens por palabra deciden tu factura
Todos los grandes modelos de lenguaje cobran por token, nunca por palabra. El tipo de cambio entre esas dos unidades explica por qué los presupuestos de API se desvían sin hacer ruido. La mayoría de las guías repite la misma regla práctica: un token equivale a unas tres cuartas partes de una palabra en inglés. Esa cifra resulta más o menos acertada para el inglés en un tokenizador moderno, y cada vez más equivocada para todo lo demás: otros idiomas, código fuente, datos estructurados y emojis se convierten cada uno a su propia tasa.
Sobre este tema hay sorprendentemente pocas cifras publicadas, así que lo medimos. Este artículo reporta conteos exactos de tokens para el mismo contenido en cinco tokenizadores y tres familias de modelos, con el corpus y los resultados disponibles para descargar más abajo. Si presupuestas uso de LLM en cualquier idioma distinto del inglés, las diferencias alcanzan para cambiar tus proyecciones.
El dataset y cómo se midió
El corpus tiene 13 muestras. Siete son traducciones humanas del mismo pasaje de 94 palabras sobre edición de textos, en inglés, español, portugués, francés, alemán, chino y japonés, de modo que la comparación entre idiomas mantiene constante el significado y no la longitud. Las otras seis cubren el texto que los desarrolladores envían a los modelos en la práctica: Python, JavaScript, un registro JSON de un pedido, un documento Markdown, una publicación social cargada de emojis y datos numéricos en CSV.
Los conteos de la familia GPT provienen de tiktoken, el tokenizador que OpenAI publica, así que son exactos: o200k_base (GPT-5, GPT-4o, la serie o), cl100k_base (GPT-4, GPT-3.5) y el p50k_base de la era GPT-3 como contraste histórico. Los conteos de Claude salen del endpoint oficial count-tokens de Anthropic, que reporta la cifra facturable por modelo. Ese endpoint cuenta la solicitud completa, así que medimos el envoltorio fijo del mensaje (6 tokens en Opus 4.8, 7 en Sonnet 4.6 y Haiku 4.5), lo restamos y verificamos la calibración con una prueba de duplicación que regresó sin desviación alguna. Los conteos absolutos de Claude cargan con cerca de un token de incertidumbre; las proporciones no se ven afectadas.
Gemini queda fuera de las mediciones porque Google no publica su tokenizador y no contamos con acceso a countTokens para verificar; preferimos delimitar los datos con honestidad antes que estimar.
Tokens por palabra según el idioma
La tabla principal. El mismo pasaje, el mismo significado, cinco tokenizadores:
| Idioma | Palabras | GPT-5 (o200k) | Tokens/palabra | GPT-4 (cl100k) | Claude Sonnet 4.6 | Claude Opus 4.8 |
|---|---|---|---|---|---|---|
| Inglés | 94 | 110 | 1.17 | 110 | 116 | 177 |
| Español | 107 | 143 | 1.34 | 172 | 184 | 256 |
| Portugués | 102 | 137 | 1.34 | 176 | 188 | 241 |
| Francés | 109 | 153 | 1.40 | 194 | 207 | 275 |
| Alemán | 93 | 159 | 1.71 | 203 | 245 | 324 |
| Chino | n/a | 159 | n/a | 223 | 217 | 216 |
| Japonés | n/a | 205 | n/a | 268 | 241 | 240 |
El inglés es el idioma más barato en todas las columnas: 110 tokens para 94 palabras en GPT-5, es decir, cerca de 1.17 tokens por palabra. La famosa regla de 0.75 palabras por token se cumple casi al pie de la letra para la prosa en inglés. El español corre a 1.34 tokens por palabra con la misma codificación, el portugués a 1.34, el francés a 1.40 y el alemán, con sus largas palabras compuestas, a 1.71. El chino y el japonés no separan las palabras con espacios, así que las cifras por palabra no aplican ahí; la siguiente sección los compara sobre significado equivalente.
Mismo significado, distinto precio
Como los siete pasajes dicen lo mismo, la pregunta más justa es: ¿cuánto cuesta expresar un significado idéntico en cada idioma? Tomando el inglés como base:
| Idioma | vs inglés, GPT-5 (o200k) | vs inglés, GPT-4 (cl100k) | vs inglés, Claude Sonnet 4.6 |
|---|---|---|---|
| Español | +30% | +56% | +59% |
| Portugués | +25% | +60% | +62% |
| Francés | +39% | +76% | +78% |
| Alemán | +45% | +85% | +111% |
| Chino | +45% | +103% | +87% |
| Japonés | +86% | +144% | +108% |
En GPT-5, expresar este pasaje en español cuesta 30% más tokens que en inglés; el portugués cuesta 25% más y el japonés 86% más. El recargo crece en las codificaciones anteriores: el mismo pasaje en español que cuesta +30% en o200k costaba +56% en el cl100k de GPT-4, y la codificación p50k de la era GPT-3 necesitaba 222 tokens, más del doble de su equivalente en inglés. Quien opera cargas multilingües heredó esas proporciones en su intuición, y hoy están gravemente desactualizadas.
El efecto o200k: tres generaciones de GPT
La historia de las codificaciones explica el cambio. p50k y cl100k se entrenaron sobre todo con inglés; o200k duplicó el vocabulario hasta unos 200,000 tokens y dedicó una porción mucho mayor al texto en otros idiomas. Para el español, la progresión es 222 tokens (era GPT-3), luego 172 (GPT-4) y 143 (GPT-5) para el pasaje idéntico. El chino mejoró todavía más: 223 tokens en cl100k contra 159 en o200k, una caída del 29%.
La mejora no es universal. Nuestra muestra de JavaScript es un contraejemplo honesto: cuesta 140 tokens en cl100k y 149 en o200k, algo más en la codificación nueva. La prosa en inglés y el Python quedaron prácticamente planos. Las ganancias de o200k fueron para los idiomas humanos, no para el código.
Claude cuenta dos veces: Opus 4.8 vs Sonnet 4.6
El resultado menos documentado del dataset: el endpoint count-tokens de Anthropic reporta dos regímenes de conteo distintos entre sus modelos actuales. Sonnet 4.6 y Haiku 4.5 devuelven conteos idénticos para cada muestra del corpus. Opus 4.8 reporta cifras bastante mayores para el mismo texto, lo que coincide con las notas de migración de la propia Anthropic: a partir de Opus 4.7 los tokens se cuentan de otra manera.
| Muestra | Sonnet 4.6 / Haiku 4.5 | Opus 4.8 | Opus vs Sonnet |
|---|---|---|---|
| Prosa en inglés | 116 | 177 | 1.53x |
| Prosa en español | 184 | 256 | 1.39x |
| Prosa en alemán | 245 | 324 | 1.32x |
| Código Python | 208 | 254 | 1.22x |
| JSON | 249 | 284 | 1.14x |
| Chino | 217 | 216 | 1.00x |
| Japonés | 241 | 240 | 1.00x |
La inflación se concentra en el texto de alfabeto latino, donde Opus reporta entre 1.3 y 1.5 veces el conteo de Sonnet. En chino y japonés los dos regímenes casi coinciden. Esto importa para presupuestar porque la unidad facturable cambia según el modelo: Opus 4.8, a $5 por millón de tokens de entrada, no cuesta 1.67 veces lo que Sonnet 4.6 a $3 para prosa en inglés; medido de extremo a extremo cuesta unas 2.5 veces más por palabra, porque cada palabra registra más tokens. La tabla de costos de más abajo usa los conteos medidos de cada modelo.
Código, JSON y CSV cuestan más que la prosa
Por carácter, el texto estructurado es mucho más denso que la prosa. La puntuación, los corchetes, las comillas y los dígitos se fragmentan en muchos tokens pequeños:
| Muestra | Caracteres | Tokens GPT-5 | Tokens por 100 caracteres |
|---|---|---|---|
| Prosa en inglés | 572 | 110 | 19.2 |
| Documento Markdown | 639 | 162 | 25.4 |
| Código Python | 667 | 167 | 25.0 |
| Código JavaScript | 636 | 149 | 23.4 |
| Texto social con emojis | 283 | 88 | 31.1 |
| Registro JSON de un pedido | 521 | 214 | 41.1 |
| Datos numéricos CSV | 416 | 237 | 57.0 |
Los datos numéricos en CSV son la entrada más cara del corpus, con 57 tokens por cada 100 caracteres, el triple de la densidad de la prosa en inglés. Las fechas, los identificadores, los decimales y los signos de porcentaje se tokenizan fragmento a fragmento. El consejo práctico: cuando alimentas un modelo con hojas de cálculo o registros, el conteo de caracteres resulta engañoso; cuenta los tokens de un fragmento representativo primero, y considera resumir o muestrear las tablas numéricas antes de enviarlas enteras.
Los emojis son caros
La muestra de redes sociales concentra 11 emojis en 283 caracteres. Cada emoji cuesta de uno a tres tokens en o200k, y las variantes compuestas o con tono de piel cuestan más. La muestra queda en 88 tokens de GPT-5, una densidad por carácter intermedia entre la prosa y el código. Para los productos de chat que procesan texto social a escala, los emojis son un costo real en la factura, no un error de redondeo.
Cuánto cuesta un millón de palabras
Convertir los tokens por palabra medidos en costo de entrada, a los precios publicados vigentes (GPT-5 $1.25, GPT-5 mini $0.25, GPT-4o $2.50, Claude Haiku 4.5 $1.00, Sonnet 4.6 $3.00, Opus 4.8 $5.00 por millón de tokens de entrada), produce la cifra que de verdad necesita quien administra un presupuesto: el costo de procesar un millón de palabras.
| Idioma | GPT-5 | GPT-5 mini | GPT-4o | Haiku 4.5 | Sonnet 4.6 | Opus 4.8 |
|---|---|---|---|---|---|---|
| Inglés | $1.46 | $0.29 | $2.93 | $1.23 | $3.70 | $9.41 |
| Español | $1.67 | $0.33 | $3.34 | $1.72 | $5.16 | $11.96 |
| Portugués | $1.68 | $0.34 | $3.36 | $1.84 | $5.53 | $11.81 |
| Francés | $1.75 | $0.35 | $3.51 | $1.90 | $5.70 | $12.61 |
| Alemán | $2.14 | $0.43 | $4.27 | $2.63 | $7.90 | $17.42 |
Dos lecturas de esta tabla. Primera: el recargo por idioma se multiplica con la elección de modelo. Un millón de palabras en alemán por Opus 4.8 cuesta $17.42 contra $1.46 del inglés por GPT-5, una brecha de 12x para el mismo volumen de significado. Segunda: el precio de entrada es barato en términos absolutos en todos los casos; las proporciones pesan cuando las multiplicas por los tokens de salida, que suelen costar de cuatro a cinco veces la tarifa de entrada y siguen una inflación por idioma parecida.
Reproduce las cifras
El dataset completo y el corpus se descargan gratis y se pueden reutilizar con atribución (CC BY 4.0):
- tokenizer-comparison-2026.csv, cada medición en una sola tabla plana
- tokenizer-comparison-2026.json, mediciones más metodología y métricas derivadas
- tokenizer-corpus-2026.json, el corpus de 13 muestras, para que verifiques cada conteo
Para comprobar las cifras de GPT, pasa cualquier muestra por tiktoken con la codificación o200k_base o cl100k_base. Para comprobar Claude, llama al endpoint count-tokens de Anthropic con la muestra como un único mensaje de usuario y resta el envoltorio como se describe arriba. Para explorar las cifras de forma interactiva, pega cualquier muestra del corpus en nuestro Contador de Tokens local del navegador: ejecuta la codificación o200k real del lado del cliente, así que los conteos de GPT coinciden exactamente con este dataset y tu texto nunca sale de la página. Para entender qué es un token desde cero, lee la guía completa del Contador de Tokens.
Conteos exactos de tokens GPT-5 en tu navegador. No se sube nada.
Preguntas frecuentes
¿Cuántos tokens tiene una palabra en inglés?
Cerca de 1.17 tokens en la codificación o200k de GPT-5, medido sobre prosa estándar. Claude Sonnet 4.6 reporta alrededor de 1.23 tokens por palabra en inglés, y Claude Opus 4.8 cerca de 1.88, porque su conteo cambió a partir de la generación 4.7. La vieja regla de que un token equivale a tres cuartos de palabra se cumple para el inglés en las codificaciones GPT modernas.
¿El español usa más tokens que el inglés?
Sí. Expresar el mismo significado en español cuesta cerca de 30% más tokens que en inglés en GPT-5, cerca de 56% más en el cl100k de GPT-4 y alrededor de 59% más en Claude Sonnet 4.6, todo medido sobre un pasaje paralelo. El portugués se comporta parecido, entre 25% y 62% según el tokenizador.
¿Por qué GPT-5 maneja mucho mejor que GPT-4 el texto que no está en inglés?
GPT-5 usa la codificación o200k, que duplicó el vocabulario hasta unos 200,000 tokens y dedicó una porción mucho mayor a palabras de otros idiomas. El mismo pasaje en español que necesitaba 172 tokens en el cl100k de GPT-4 necesita 143 en o200k, y el chino bajó 29%. El código casi no mejoró.
¿Por qué Claude Opus 4.8 reporta más tokens que Sonnet 4.6?
Anthropic actualizó el conteo de tokens a partir de Opus 4.7, y el endpoint oficial count-tokens lo refleja: Opus 4.8 reporta entre 1.3 y 1.5 veces el conteo de Sonnet 4.6 para el mismo texto en alfabeto latino, mientras que en chino y japonés los conteos quedan casi idénticos. Como la facturación sigue el conteo propio de cada modelo, Opus cuesta más por palabra de lo que sugiere su precio por token.
¿Los datos en CSV de verdad cuestan más que la prosa?
Por carácter, sí, cerca del triple. Nuestra muestra de CSV midió 57 tokens de GPT-5 por cada 100 caracteres contra 19 de la prosa en inglés, porque los dígitos, los decimales, las fechas y los separadores se fragmentan en muchos tokens pequeños. Cuenta un fragmento representativo antes de enviar tablas grandes a un modelo.
¿Puedo descargar y reutilizar este dataset?
Sí. El corpus y todas las mediciones están publicados bajo CC BY 4.0 en textkit.tech/data, en formato CSV y JSON. Cita a textkit.tech cuando los reutilices. Cada cifra se puede reproducir con tiktoken y con el endpoint gratuito count-tokens de Anthropic siguiendo el método descrito en el artículo.
Sigue leyendo
Escrito por SAVI. Construimos las herramientas sobre las que escribimos. Prueba el Contador de Tokens usado en este artículo.