Saltar al contenido principal

¿Qué son Tokens?

Los tokens son las unidades mínimas de texto que utilizan los modelos de lenguaje para procesar información. En lugar de trabajar con palabras completas, los LLMs dividen el texto en partes más pequeñas, que pueden ser una palabra, parte de una palabra o incluso un carácter especial. Por ejemplo:
  • La palabra “computador” puede dividirse en compu + tador.
  • La frase “¡Hola, mundo!” puede dividirse en Hola, ,, mundo, !.
Estas unidades son los tokens. La forma en que se realiza la división depende del modelo y del tokenizer utilizado.

¿Por qué son importantes los Tokens?

  • Cálculo de costo: los LLMs y SLMs de Orkeia cobran por la cantidad de tokens procesados (input + output).
  • Límite de contexto: cada modelo tiene un número máximo de tokens que puede considerar en una interacción (ej.: 4k, 32k, 200k).
  • Eficiencia: entender el tamaño en tokens ayuda a optimizar prompts, evitando desperdicios.
La plataforma Orkeia no cobra tokens de LLMs y SLMs de modelos externos, es decir, si utiliza su propia clave de Gemini o OpenAI no cobraremos los tokens gastados.

¿Cómo funcionan en Orkeia?

En Orkeia, utilizamos los tokens con la misma finalidad ya explicada y funcionan de dos formas:
  1. Tokens adquiridos (créditos permanentes)
    • Se venden en paquetes de 1 millón de tokens (con posibilidad de comprar múltiples paquetes).
    • Una vez comprados, se mantienen disponibles para siempre en el saldo del usuario.
    • El consumo sigue el uso normal del sistema (input + output), hasta que el saldo se agote.
  2. Tokens incluidos en los planes mensuales
    • Cada plan de Orkeia ofrece una cantidad mensual de tokens.
    • Estos tokens no acumulan: al final de cada ciclo, el saldo se restablece a la cantidad del plan contratado.
    • Sirven como el “crédito recurrente” que acompaña la suscripción.
Orkeia siempre priorizará los tokens incluidos en los planes mensuales, consumiendo los Tokens adquiridos solo después de agotarlos.

Buenas prácticas en el uso de Tokens

  1. Sé conciso en los prompts: textos muy largos aumentan el costo y pueden superar límites.
  2. Usa contexto relevante: incluye solo la información necesaria, reduciendo tokens irrelevantes.
  3. Aprovecha los embeddings: al trabajar con recuperación de contexto (RAG), usa embeddings para indexar textos largos sin necesidad de enviar todo al modelo.
  4. Monitorea límites: siempre conoce la capacidad máxima de tokens del modelo que estás usando.
  5. Herramientas de conteo: utiliza bibliotecas como tiktoken](https://github.com/openai/tiktoken) para medir el número de tokens antes de enviarlo al modelo.

Ejemplos prácticos

  • Ejemplo 1: Texto: "ChatGPT es genial!" Tokens (GPT-4): ["Chat", "G", "PT", " es", " genial", "!"] Total: 6 tokens
  • Ejemplo 2: Texto: "Brasil ganó el partido por 3 a 0." Tokens (GPT-4): ["Brasil", " ganó", " el", " partido", " por", " 3", " a", " 0", "."] Total: 9 tokens

Consejos finales

  • Para planificación de costos, estima siempre la suma de input + output tokens.
  • En proyectos de producción, implementa un validador automático que corte o resuma textos que superen el límite del modelo.
  • En sistemas de múltiples agentes, define políticas de tokens máximos por interacción para mantener la previsibilidad de costo y rendimiento.