Ir al contenido

¿Qué es un LLM?

Un LLM (Large Language Model) es, en esencia, una “copia comprimida” de internet. Es un archivo estático (de gigabytes o terabytes) que ha “leído” tanta información que ha aprendido no solo datos, sino razonamiento y patrones.

Para entender la tecnología, analicemos sus tres componentes:

Large (Grande)

Se refiere a la escala masiva.

  • Datos: Entrenado con trillones de palabras (GitHub, Wikipedia).
  • Parámetros: Modelos como GPT-4 tienen trillones de conexiones neuronales (pesos).

Language (Lenguaje)

No se limita al inglés o español. Para un LLM, Python, SQL y JSON son simplemente otros “idiomas” con sintaxis predecible. Por eso son tan buenos programando.

Model (Modelo)

Se refiere a la arquitectura Transformer. Una red neuronal diseñada específicamente para entender el contexto y la relación entre palabras distantes.

Como desarrollador, es vital entender que los modelos pasan por dos fases muy distintas. Esto explica por qué a veces son “inteligentes” y otras veces alucinan.

El modelo intenta predecir la siguiente palabra en trillones de documentos sin supervisión.

  • Objetivo: Aprender gramática, hechos del mundo y lógica básica.
  • Resultado: Un modelo que sabe mucho pero es difícil de controlar (como un autocompletar glorificado).
  • Costo: Millones de dólares y miles de GPUs durante meses.

Aquí es donde nace “ChatGPT” o “Claude”. Se entrena al modelo base con ejemplos de instrucciones y respuestas curadas por humanos.

  • Objetivo: Enseñar al modelo a seguir órdenes, ser seguro y útil.
  • Técnica: Reinforcement Learning from Human Feedback (RLHF).
  • Resultado: El asistente conversacional que usas en tu IDE hoy.

Ya vimos que los modelos predicen tokens. Pero, ¿cómo afecta esto a tu código?

Una palabra no siempre es un token.

  • “Apple” = 1 token
  • “Manzana” = 2 o 3 tokens (dependiendo del modelo)
  • Espacios en blanco en Python = ¡Son tokens cruciales!